[心得] 數據、謊言與真相

作者: shoshin (shoshin)   2020-02-29 16:55:24
圖文版本
https://slowquick.xyz/big-data-internet-can-tell-us-who-we-really-are/
我們的直覺,常常是錯的。
數據不只是揭發已然發生的狀況,更能夠作為一種預測工具,
透過數據分析,可以得到我們真正想要知道的事情。
這本書,希望透過大數據的分析,能知道,人們實際做了什麼
而不是他說了什麼,從而了解真實需求,探究更多的可能。
作者也期待這種分析,能讓原本的社會科學,漸漸成為真正的科學,並改善我們的生活。
這本書主要的數據分析方式之一,
是以搜尋引擎所帶出來的大量數據,來探討可以怎麼樣的運用,怎麼去辯知真偽。
人會說謊,大數據不會
透過搜尋引擎這種匿名的行為,是真實的需求,
不會有人去找本身並不需要的需求,因此也沒有說謊的理由。。
問對問題,探究更多的可能
要從數據中獲得寶貴資訊,最關鍵的一點是:你必須問對問題。
而大數據有四大關鍵力量可以協助:
⒈大數據能讓你將數據切割分解,讓你見微知著及獲得具體的見解。
⒉新的資料來源通常包括新類型的變數,比現存變數更能幫助我們了解複雜關係,
並充分利用。
⒊新的數位資訊能提供我們生活的真實樣貌 (誠實),
而非我們希望自己呈現給外人的形象 (摻雜謊言)。
⒋大數據易於與實驗結合,使我們能測試因果關係,而非僅是相關性。(A/B test)
挖掘真實需求,破解錯誤認知
顧客告訴你的想法,不一定是真實需求
對企業來說,真正有用的數據,是藏在顧客的消費行為、模式當中。
很多的事實是和我們一般來說的認知有差距,書中很詳細的說明一些例子,像是
* 血統越純正的賽馬,越容易拿到冠軍?
* 歐巴馬當選是代表不再有種族歧視嗎,
* 川普的當選代表了什麼
* NBA選手都出生於貧困之家,因為那是少數可以賺大錢的路
* 為什麼有些地區的人民會想辦法不繳稅
* 哪裡是養育小孩的最佳地點
* 因為分數差一點而上到不同學校的學生,是否影響會很大?
* 同性戀者的數量、民眾對恐怖份子的強烈仇恨、新聞標題的吸引程度
關於資料搜集,越多越好嗎?
要做出正確的決策,倚賴的並非是「大量」的數據, 而是更具關聯性的數據。
數據量不是最重要的,必須要知道他的因果關係,數據之間彼此的關係
關於數據預測與測試
若從我們的生活經驗就能判斷答案,那麼測試就不會有價值。
更有效率且風險及成本更低的方式進行 A/B 測試
知道「為什麼」重要嗎? 數據讓我們更了解人性,但是做預測,只需要知道怎樣做有效,不需要知道「為什麼」有效。
統計學能夠繞過未知的原理,先得到結果。然後再用結果去找原理。
透過A/B 測試,能夠運用大量的小型測試,去知道哪些調整能夠達成更佳的效果,
這種方式,往往是很難事先去預估得到的。
而這種方式,也是新型數位大數據的超大優勢。
找分身的預測法來進行預測
找尋有多個因素相同的分身,來做預測的實驗。
隱私和監管會是個問題
預測和隱私怎麼平衡,哪些東西不該用預測監管,是一個隱含很多重要問題的議題。
大數據有道德風險
書中也提到了一個大數據衍生出來的議題 - 道德危險。
因為人不知道自己的言論在大數據上呈現的歸類在哪一類 ?
數據的不可靠性
數據是機率、傾向,卻不是每一個人的選擇。在使用上只能參考。
最好的方式是用數據分析,搭配著傳統的知識。
作者認為,要協助大數據發揮最大作用,通常需要一種特定秘方,
也就是小數據 - 人類的判斷和小型調查。
結論
若想以數據來革新一個領域,最好進入一個傳統方法效率極差的領域
整體而言,除了有些部分比較繁瑣外,
這本書應該可以增加對於數據分析和大數據的一些想法。
有興趣的人可以看看。
作者: osmanthusjo (觀念快扭曲了)   2020-02-29 19:46:00
感謝推薦,對這本很有興趣
作者: c80352 (諳語)   2020-03-01 03:24:00
可以搭配《大數據的傲慢與偏見》來看

Links booklink

Contact Us: admin [ a t ] ucptt.com