Re: [討論] 語文效率的偽科學 fw190a PTT批踢踢實業坊

Re: [討論] 語文效率的偽科學

作者: fw190a (las) 2023-09-25 16:47:08

※ 引述《innominate (innominate)》之銘言：
: 香農信息熵的概念是這樣
: 1. Plamc是人
: 2. Plamc是男人
: 3. Plamc是PTT前版主以及作家
: 當你把plamc當作一個黑盒子
: 去告訴一個不知道底細的路人
: 1成立的機率最高
: 2其次，3最低
: 所以機率越低的信息量越大，所以叫信息熵
: 因為如果信息為真
: 代表你排除了更多的不確定性
: H = -k log P
: H是信息量 P是成立的機率
首先第一個問題，
熵跟訊息量是高度相關但不同的概念。
你給的公式算的是熵，
他要做為訊息量成立的前提是，
系統必須是確定性的。
然後你對這個熵值的系統，給出一個確定唯一的答案，
這時計算出來的信息量就等於熵值。
講人話就是，
我有一組密碼，然後你直接就猜到。
所以你輸入的數字(訊息量)等於我密碼(熵)的複雜度。
選項越多，機率越低，導致熵越大，
進而導致需要完整解答的訊息量也更大。
兩者是在一個特殊情況下一致，成立數學概念，
而非是可直接互換的概念。
: 推 fw190a: 熵是表達混亂/複雜度的，機率低導致訊息量高是從中推導出 09/24 20:
30
: → fw190a: 的概念，這要說也是訊息量的特性，而不是熵的。我知道這 09/24 20:
30
: → fw190a: 很繞，但我認為我的表達是有涵蓋這些概念的 09/24 20:
31
: → innominate: 香農引進熵的概念就是要表達越混亂，機率越低，信息量 09/24 20:
40
: → innominate: 越大。就像「plamc是一個人」，這個機率很大，也不混 09/24 20:
40
: → innominate: 亂，信息量就很低。 09/24 20:
41
: → innominate: 所以信息量天然就跟不確定（機率）掛鉤 09/24 20:
43
: → innominate: 你的文章說信息量首先跟信息的多少有關，這件事理解就 09/24 20:
44
: → innominate: 是錯的 09/24 20:
45
首先單就訊息量的概念先後順序，
"1928年，R．V．L．哈特萊提出了信息定量化的初步設想，
他將符號取值數m的對數定義為信息量，即I=log2m"
再來比起熵，這個單位才是用來衡量訊息量的。
https://en.wikipedia.org/wiki/Shannon_(unit)
注意到這邊的機率設定就是簡單的用50%來衡量。
然後我前文之所以強調先有多少訊息，
是因為要構成系統本身，也是需要訊息的，
他的熵概念建立在，透過機率評斷一個系統內給定信號的訊息量，
但首先要有那個系統，而不只是一個假設為真而已。
: → innominate: 我可以說一大串包括明天太陽會從東方升起，你跟我都是 09/24 20:
46
: → innominate: 人，我們都要呼吸等等，這些東西堆再多信息量也是低的 09/24 20:
46
: → innominate: 如果我說「明天台股會跌」，如果我說的為真，這短短的 09/24 20:
48
: → innominate: 幾個字帶來的信息量就大了 09/24 20:
48
: → innominate: 或者說「明天台股會跌105點」，那這個信息量更大 09/24 20:
49
其實我主要是想回這邊，分享一些想法，
沒有針對你，你也可以說你是通俗的舉例說明。
只是藉由這個例子思想實驗，
順便給大家娛樂一下。
，，，
首先你說確定是真的，堆再多訊息量也低，
但照理說，給出已知的事物，訊息量應該是0才對，
再來弔詭的會是，預測明天台股跌，在明天以前，始終就是一句空話，
但一旦到了明天，台股真的跌了，就變成事實，這句話也只是說明已知事物，
訊息量為0。所以自始自終，你擁有的訊息量就只有話語本身。
然後你靠一句如果為真，來假設性獲取訊息量。
那個虛擬的訊息量來自於，對一個想像的有限系統進行操作。
你的訊息量就只是，透過講得多荒謬，然後加上一個假設性的保證為真來獲取。
這是印度神童power嗎XD
，，，
現實世界的一個問題是，他並沒有那個已知的機率讓你去評斷誰機率大小，
明天會不會下雨，到了明天，只會有一個結果，而不是用機率來呈現。
如果看天氣預報，得到機率，那是透過科學算出來的，
科學算出一個10%的降雨機率，那並不是要告訴你訊息量多大，
或者降雨量機率越小訊息量如何越大，因為反過來說出太陽，也成立，
科學告訴你的機率就只是預測，而不是那個我們能確知的機率。
如果你相信科學的世界觀，那胡亂套用那個訊息量概念，
結果就只是，越不科學，越脫離常識的預測，蘊含訊息量就越大。
因為當預測成真了，就否定了現有科學，那訊息量自然大。
，，，
從正面意義來說，訊息量大代表的是，
一個不符合預期的例子，如何推翻或要求理論的修正，
所以當科學遇到新的無法解釋的情況時，
會促使產生修正與新理論，
但新理論的形成，需要的是更多訊息的投入與整合，
跟否定既有的成分的訊息，只能說是有因果關係。
極端來說，我只要說這個世界是假的，
如果此言為真，那訊息量極致大，
因為我一句話推翻了一整個世界觀的複雜度，
但這種訊息量沒啥好追求的，
而且之所以有東西能推翻，
是因為這個世界的相關脈絡先存在於各人認知之中。
，，，
最後回到一開始的舉例上，
堆疊是人，是男人，是男作家，這三個例子，
其實是在透過這三個敘述，文字上傳遞越來越多資訊，
只是他們排序上套在一起，所以在類別的脈絡上構成了機率的規則，
如果我提出Plamc是人，或是恐龍，或是霸王龍。
這時不套用預先的認知，是要怎麼判定恐龍機率高還是人類機率高?
黑盒子在哪?
所以把那套基於已知機率的訊息量想像，
套入現實的預測，卻沒有適當修正，就是偽科學。
因為我們在現實世界，用的是加法邏輯，
去找那個堆疊起來訊息量最大而不矛盾的系統，
也就是科學以及常識來作為行動依據，
而不是靠什麼機率小的瞎猜獲得訊息量。
，，，
排除不確定性，是一個語言工具性的功能，
建立具有複雜度的理論，才是思想的建構方式。
以日常生活的語言思想活動中，
我打一堆字闡述一堆概念，並且能跟邏輯常識接合起來，
這才是訊息量大。
而不是丟一個概率小的預測，即使成真了，
但缺乏相關的理論與邏輯支撐，
那樣的訊息量會是什麼東西？
這篇試圖說明了。

作者: innominate (innominate) 2023-09-25 19:21:00

我其實看不懂你要表達什麼，我只是在簡單科普香農的理論而已信息量跟信息是否正確說兩碼子事好比你舉的例子，plamc是恐龍，這個信息量很大，但未必為真。我再簡單舉個比較容易懂的例子，好比我現在要存心騙一個人，我產生一個謊言，這個謊言一樣帶有信息量，我的目的是要把這個信息量傳遞給接收者所以香農公式裡面前面帶有一個負號以保證信息量永遠為正。其實你跟我扯這個真沒意思，要不你去推翻香農熵的概念，我幫你讚聲https://en.m.wikipedia.org/wiki/Entropy_(information_theory)For instance, the knowledge that some particular number will not be the winning number of a lotteryprovides very little information, because any particular chosen number will almost certainly not win. However, knowledge that a particular number willwin a lottery has high informational value because it communicates the outcome of a very low probability event.

作者: joh (30分滅一國的匈奴) 2023-09-25 21:38:00

說得沒錯，也說到重點了，樓上你仔細看看

作者: innominate (innominate) 2023-09-25 23:49:00

我不知道我要仔細看什麼？科普個香農的信息熵罷了你們要取推翻信息論是你們家的事我上面引的維基百科的英文不知道樓上看了沒

作者: tomer (卯月影) 2023-09-26 00:30:00

他在教你信息量和熵是怎麼來的。其實從這邊就能看出誰受過正規的數學訓練、誰只是看圖說故事w

作者: innominate (innominate) 2023-09-26 03:38:00

連信息熵定義都沒搞懂的能教我什麼？我上面引的英文看了沒？連英文都要我幫你們翻譯嗎？https://people.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf香農的原文自己去看我大概理解ZM為何有的時候根本不想解釋了，馬的給你們科普還要被槓講的信息論好像我發明的一樣，你們要槓去槓香農啦我的記憶都回來了，當年在歷史版也科普過惡性通膨的經濟理論，也一堆槓精來槓我再引維基百科的英文描述如下：The core idea of information theory is that the "informational value"of a communicated message depends on the degree towhich the content of the message is surprising. If a highly likely event occurs, the message carries very little information. On the other hand, if ahighly unlikely event occurs, the message is muchmore informative.維基也不看，論文也不看，書也不看，就只會槓然後本篇錯誤的把「單位量」跟「熵」切開，不是這樣好嗎？依照他自己引用的維基原文：The 「shannon」alsoserves as a unit of the information entropy of anevent, which is defined as the expected value of the information content of the event 。是熵的單位可以為SH

作者: tomer (卯月影) 2023-09-26 07:16:00

就，維基不是聖經啊XD然後你和 Z麥一樣毛病、一直認定只有你倆看得懂英文、維基上幾句英文就當作是真理目空一切到處亂套。注意我不是說維基講錯喔，是你受的數學訓練不夠導致理解出現盲區。 f 在這邊講的需要的是機率論中隨機事件的基本概念，大概是大二修機率論時教授一開始會給的，也算是ABC等級的東西吧。他稍微帶了下從機率論的視角怎麼理解夏農熵和資訊量、畢竟整個理論是從機率論推導出來的。但很明顯你沒受過相關的訓練又想要反駁，就只能一直跳針叫人去看英文維基的幾句話。說實在只能微笑呀。

作者: joh (30分滅一國的匈奴) 2023-09-26 09:53:00

把wiki當神....都不知道地雷都在細節中

作者: moslaa (萬變蛾) 2023-09-26 10:00:00

https://imgur.com/Lv2WAoL.jpg

作者: innominate (innominate) 2023-09-26 11:56:00

所以槓精只能跳針大二機率論，你們連信息學都看不懂，自己引的維基都不看，要說先引維基的不是我，你們立場對了就不質疑他，歷史版槓精就是拿大學基礎課程來嗆別人哪怕我引用的維基內容有誤吧，你們好歹也要說明是哪句話有誤，論文我也放了，你們不針對內文討論，在那邊跳針大二機率，我通訊/計算機研究所畢業的還要你們教我機率？

作者: joh (30分滅一國的匈奴) 2023-09-26 14:13:00

也沒人針對機率論，針對的事情不只有這些

作者: ZMittermeyer (我不是善良老百姓) 2023-09-26 22:27:00

他們兩個不是槓精是看不懂和幾個基本定義搞反中文腦會天生搞反一些基本定義我發現動態腦數學腦和靜態腦文字腦是兩種系統你把基礎搞反之後演繹推理會蓋出相反大廈

繼續閱讀