Anzeige

雜訊 THE NOISE.pdf

MD um Unitex Precision
18. Dec 2022
Anzeige

Más contenido relacionado

Anzeige

雜訊 THE NOISE.pdf

  1. The Noise 雜訊 人 類 判 斷 的 缺 陷 作者:Daniel Kahneman (2002 Nobel Laureate) Olivier Sibony, Cass R. Sunstein 台灣天下文化出版 Johnson CHEN 202212 1
  2. Johnson CHEN 202212 2 「我們經常是處在客觀的無知狀態之中。」 Daniel Kahneman 本書作者 2002年諾貝爾經濟學獎得主 康納曼親自現身說法,拆解雜訊與偏誤 ─ 天下文化
  3. • 認知偏誤與快速直覺判斷(Heuristics,一種簡化的思考方式,又稱捷思法),是關聯在一 起的概念,之所以產生認知偏誤,有時是來自快速的直覺判斷風格。這種思考風格不一定就 會產生錯誤,也具有演化上的利益,如動物在野外求生,若不能發展出這種快速的直覺判斷 與反應,則很容易在天擇過程中出局。 • 在人類特別是現代社會做較複雜決策或在較不確定狀態下,並沒有要求一定要做快速反應, 也有資料可供研判,但這種思考風格卻似乎早已經在我們的基因裡,令我們經常不由自主的 發生,以致產生認知誤差。 • 誤差則是由偏誤和雜訊兩者的總合。「偏誤」比較廣為人知,例如損失趨避、錨定效應和從 眾效應…等;「雜訊」則不容易被人察覺,像是不同的專家對同一件事情意見分歧的程度, 遠超過人們常理的預測程度。但是,雜訊卻無處不在,影響也不比偏誤小,只有使用統計學 來觀察的時候能讓它現形。 Johnson CHEN 202212 3 人類判斷出錯的兩大來源: 認知偏誤與雜訊
  4. 雜訊與偏誤可以在概念與統計上分離 • 雜訊 (Noise Error) 與偏誤 (Bias) 其 實是統計學中,兩個很基本的機率 分配屬性,可以在概念上完全分開, 也是互相獨立的, • 雜訊係指誤差分配的離散程度,越 分散雜訊越多,這是統計學中的標 準差(或變異數)概念. • 偏誤 (Bias)則是實際分配平均數偏 離零誤差多少的概念。 Johnson CHEN 202212 4
  5. 偏 誤 vs 雜 訊 • 人類的思考基因是擅長連結因果說故事,但卻不擅長統計數字的。 • 在過去幾十年,已經有很多人注意到偏誤的問題。人類判斷令人驚異,而且人類心靈 締造很多了不起的成就。但在某些情況之下,偏誤會造成系統性的誤差。如果人過於 樂觀,就會出現偏誤。同樣的,若是太重視短期,就會忽略長期(這就是「現時偏 誤」)。很多人會顯現樂觀偏誤和現時偏誤,雖然這樣的偏誤可能是有用的(如果你 很樂觀,也許會比較願意勇於嘗試),但這也可能造成嚴重錯誤,因此產生大問題。 • 但是我們卻沒有看到,有關同等重要的『雜訊』(Noise),對我們決定的影響的研 究與報告。我們把雜訊定義為我們不樂見,甚至討厭的判斷變異。如果一位醫師說, 病人的心臟有問題,不過另一位醫師說,病人只是壓力大,這時就有雜訊了。若是一 位安檢人員說,某個工作場所安全無虞,但另一位安檢人員卻說那個工作場所很危險, 顯然這就是雜訊。 • 從很多方面來看,雜訊是個未知的國度,一個尚未被發現的世界。如何從單一決定找 出變數?這是一個嚴重的問題,世人卻視若無睹。雜訊會造成嚴重的不公平,在某些 情況下,應該被視為一種暴行,甚至是一種醜聞。而且在很多情況下,雜訊會付出高 昂的成本,企業、員工、消費者、投資人及其他許多人也會受到傷害。 • 只要是判斷,就會有雜訊,而且雜訊比我們每一個人想像的要多很多。 Johnson CHEN 202212 5
  6. 偏誤:明顯的缺陷 • 偏誤(Bias)指的是人們「偏向同 一個方向的平均誤差」,也是心理 學上面最廣為人知的研究領域。例 如「規劃謬誤」偏誤,就是指人們 總是低估完成一件事情所需要的時 間,像是經理人總是低估專案完成 的時間。「從眾效應」偏誤,就是 指人們傾向相信很多人相信的事, 像是董事會討論一個併購案的時候, 董事們會被比較多數人相信的事影 響了最後的決定。 • 從事後諸葛的角度,偏誤很明顯可 以用因果的方式來解釋,這也是我們 人們善用和習慣的思考方式. Johnson CHEN 202212 6
  7. 雜訊:隱形的缺陷 • 「雜訊」(noise)指的是人們「彼此判斷的方 向不同、意見分歧的程度」,但只有從統計學的 角度才看得到雜訊。像是一般的專業人士,例如 經驗資深的保險核保人員,往往對自己的判斷很 有信心,也不會去質疑同事的判斷跟自己有很大 的差異。但是一旦把統計的資料攤在桌上,才會 發現這些判斷的差異不但很大,甚至常常有不同 的專業人士對同一件事情有完全相反的判斷 • 因此統計學和經濟學家常說, 在因果關係裡,雜 訊不見蹤跡;在統計世界裡,雜訊無所不在。 Johnson CHEN 202212 7
  8. 現實世界充滿雜訊 醫療診斷充滿雜訊 預測充滿雜訊 政治議題充滿雜訊 人事決定充滿雜訊 司法判決充滿雜訊 面對相同的病人,不同醫師對於各 種病人情況的診斷和判斷往往大不 相同,往往給病人和家屬帶來更多 的壓力和焦慮。 經濟學家對於新產品,新季度景氣, 失業率等看法也有很大的分歧。 不同政治立場的選民對於一些客觀 的事實,選情判斷,民調結果等有 著不同的解讀 不同面試官對於同一個面試者或績 效考核的評價可能天差地遠。 被告是否有罪無罪?可不可以獲得保 釋?往往因為有的法官比較寬容,有 的比較嚴格而有所不同。太多的不確 定會令人對正義和司法感到擔心 • 說來遺憾,很多組織都飽受偏誤和雜訊的困擾。只要是人類的 判斷,就不免有雜訊。而這些重大的社會和太過於依賴個人決 定的不確定令人不安。為了提升判斷和決定的品質,除了偏誤 之外,我們還必須要克服雜訊的問題。 Johnson CHEN 202212 8
  9. 雜 訊 的 問 題 Johnson CHEN 202212 9 • 社會充斥很多不合理的情況,像是不同法官對同一個案件卻有截然不同的判決、 不同醫師對同一個病人的診斷有很大的差異、不同選民對於客觀民調的解讀, 同一個員工的績效考核有不同的結果。至就連同一個法官、醫師與面試官在不 同的時間也會做出不同的判斷。為什麼會這樣? • 因為,只要有判斷,就會有「雜訊」,而且在日常生活中,雜訊比你以為的還 要多。科學家發現,在經營管理、醫學、法律、經濟預測、法醫鑑識、保釋、 兒童保護、策略、績效評估、個人選擇等領域,都看得到雜訊,但是一般人和 組織都沒有意識到這個問題,結果是付出高昂的代價、企業有更大的隱藏成本、 公共安全與衛生受到影響、社會還會出現極端不公平的情況。 雜訊與偏誤一樣,都是人類必須迫切正視的問題 唯有正視雜訊與偏誤的存在,並做好決策保健工作 才能迎向決策錯誤更少、更公平、更健康的社會
  10. Johnson CHEN 202212 10 人類判斷的三種錯誤 假設有一群朋友去射擊場打敗, 他們分成四隊,這是他們的成績 • A 隊是最接近理想的一對,所有著彈 點都靠近靶心,B 隊有偏誤(Bias), C隊有雜訊,D隊又有雜訊又偏誤 但是當我們翻轉到標靶的背面,只有看到著彈點 痕跡的時候,我們可能繼續判斷或 C,D 兩隊可能 有雜訊,但是我們也同時落入以為B隊都也是正中 目標的偏差判斷。 為了避免判斷的錯誤,我們不但要避免思 考上的偏誤(Bias),同時還要理解雜訊 (Noise),還有它們之間的關聯關係
  11. 系統性雜訊 Systematic Noise • 凡是由從一群同等資格的人當中隨機挑選人出來做判 斷的地方,雜訊就會是問題。很多組織都飽受系統雜 訊的困擾:你去醫院接受哪位醫師的診治、在法庭上 由哪位法官審理你的案子、哪位專利審查員審查你的 申請案、哪位客服專員聽你投訴等,往往是隨機指派 的。在這些判斷當中,不必要的變異可能會造成嚴重 的問題,包括金錢損失,以及層出不窮的不公平。 • 對於判斷當中不必要的變異,常會出現一種誤解,認 為這種變異並不重要,因為隨機錯誤應該會互相抵消。 當然關於同一個案件所做的判斷,正負誤差往往會互 相抵消,然而事實上,一個充滿雜訊的系統不會對同 一個案件做出多個判斷,而是對不同的案件做出『有 干擾』的判斷。如果一家保險公司的一份保單報價太 高,另一份報價過低,兩者的平均值似乎是適當的, 但其實這家保險公司還是犯了兩個代價高昂的錯誤。 • 在充滿雜訊的系統裡,錯誤不會互相抵消,只會相加。 11
  12. 犯罪與量刑的雜訊 • 長久以來,全世界的法官在量刑時都有自由裁量權。在很多國 家,法學專家無不讚許這種自由裁量權,認為這種做法既公正, 又合乎人道。這些專家認為刑事判決應該依據很多因素,不只 是罪行的種類,還必須考量被告的性格與情況。因此,「刑罰 個別化」的裁量方式成為主流。如果法官受到規則的約束,罪 犯就會受到不人道的待遇,他們不被視為個體,特殊情況也無 法納入考量。在很多人看來,「正當法律程序」似乎意味著 『法官的自由裁量權』(或所謂自由心證)是司法制度不可動 搖的基石。 • 然而,如果有一個人因為搶劫銀行而被定罪,在美國的刑法裡, 他有可能最高可能會被判處25年有期徒刑。這意味被告坐牢 的時間從0到25年都有可能。於是,刑期長短並非完全取決於 案件或被告,很有可能要看審理法官,也就是受法官的觀點、 偏好與偏誤所影響。因此,同樣的案件、同一個被告,可能因 為審理法官的不同,出現迥然不同的判決。 • 於是,我們的法律制度『需要一套客觀,放諸四海皆準的規則, 對於法官和所有人都有約束力』-Hn. Marvin Frankel (1973) Johnson CHEN 202212 12
  13. 司法判決裡遇到的雜訊問題 Johnson CHEN 202212 13 • 1970年代,世人對自由裁量權不再那麼熱衷。原因很簡單:量刑雜 訊多到令人震驚。1973年,美國著名的法官法蘭科(Marvin Frankel,1920-2002)引發大眾對這個問題的關注。法蘭科在成 為法官之前,是一個捍衛言論自由的鬥士,積極倡導人權,協助創 立人權律師委員會。法蘭科是捍衛人權的悍將,而且對刑事司法體 系的雜訊問題感到憤怒 • 法蘭科描述法官專斷造成的種種冤罪案件,呼籲國會終止這種「歧 視」。他所說的「歧視」,主要是指雜訊,也就是莫名其妙的量刑 差異。但是,他也關心偏誤,也就是種族和社經地位造成的不平等。 為了消除雜訊和偏誤,他認為『…刑事被告不該受到差別待遇,除 非可以透過夠客觀的相關測試,確保判決結果不是單純官員、法官 等個人發布的敕令(Idiosyncratic Ukases)』 • 此外,法蘭科更主張,透過「詳細的個人資料或因素檢查清單,盡 可能包括數字或其他客觀評分」來減少雜訊。
  14. 保險行業裡的系統雜訊-1 Johnson CHEN 202212 14 • 對於在像保險公司一樣的營利組織來說,雜訊的問題可能 非常嚴重。充滿雜訊的決策可能會對於公司和組織造成很 大的損失。 • 在任何大公司,很多專業人員在公司授權下所做的判斷, 與公司利益息息相關。例如,保險公司雇用很多核保人員, 他們會依據財務風險提出保費的報價給投保人,例如銀行 擔心因為詐欺或魔鬼交易(rogue trading)*而導致巨額 虧損,因此向保險公司投保。保險公司也雇用理賠人員來 計算未來的理賠成本,並與申請理賠者交涉。 • 保險公司的主管總是在衡量「促進判斷達到一致」(亦即減少雜訊)的潛在價 值。他們希望代表公司的人員在做出重要的財務決策時,盡可能意見一致。每 一個人都認為這樣的一致性是好的。然而,每一個人也都同意,他們的判斷不 可能完全一致,因為判斷並非制式,而且含有主觀的成分,因此雜訊是無可避 免的。
  15. 保險行業裡的系統雜訊-2 Johnson CHEN 202212 15 • 保費確切的金額對公司有重大影響。如果保費高,客戶也願意接受的話,對公司來說是有利 的。但保費高也有將業務拱手讓給競爭對手的風險。保費低的話,客戶的接受度會比較高, 但對公司也比較不利。 • 以任何風險而言,都有所謂的「金髮姑娘價格」(Goldilocks price),也就是剛剛好,既不 會太高,也不會太低。一大群專業人士判斷出來的平均價格,可能和金髮姑娘價格相差無幾。 不管高於或低於這個價格都得付出代價,這就是為何判斷充滿雜訊,判斷的差異會損害公司 利益。、 • 早估價很重要,因為這為理賠人員未來與申請人的協商設定 一個隱性目標。在法律上,保險公司有義務為每一筆理賠案 件預留預計成本(有足夠的現金支付保險承諾的賠償)。 • 同樣的,從公司的角度來看,理賠金額最好符合金髮姑娘原 則。保險公司提出的理賠金額不一定會被申請人接受。如果 保險公司提出的給付金額太少,申請人可能會延請律師,將 保險公司告上法院。反之,如果理賠準備金過多,理賠人員 可能會輕易同意請求人的要求。因此,理賠人員的判斷對公 司來說很重要,而且期的對申請人而言甚至更重要。
  16. 保險理賠抽籤制度創造的雜訊 Johnson CHEN 202212 16 • 在多數的理賠申請的的時候,保險公司往往只是指派一名理賠人員負責這個案子,就像指派 核保人員一樣,因為這個理賠人員正好有空,所以承辦此案。在保險公司的正常運作中,一 名專業人員被指派負責某一個案件,沒有人知道如果換另一個人會有什麼樣的結果。 • 理賠人員蒐集關於案件的事實證據,估算最後的理賠金額。同一名理賠人員也必須負責與理 賠申請人的代理人進行協商,確保申請人獲得保單條款承諾的理賠給付,同時也得保護公司, 讓公司不會付出過多的理賠金。 • 與法官判決一樣,研究人員發現保險公司在進行的雜訊審查 發現的差異要大得多。根據計算,核保人員的中位數差異為 55%,約為大多數人(包括該保險公司主管)預期的五倍。 這樣的結果意味著,如果一個核保人員核定的保費為9500美 元,另一個人提出的核保金額不是1萬500,而是1萬6700美 元。至於理賠人員的中位數差異則為43%。 • 很明顯的,龐大的雜訊量讓保險公司付出昂貴的代價。一位 資深主管估計,公司核保雜訊的年度成本可能高達幾億美元, 這些成本包括報價太高的業務流失,以及報價太低帶來的損 失。更由於沒有人知道每一個案件的『金髮姑娘價格』因此 沒有人能夠指出有多少錯誤或偏誤
  17. 延伸閱讀:金髮姑娘價格 Goldilock Price Johnson CHEN 202212 17 • 所謂『金髮女孩經濟』就是指「經濟溫和成 長,低通膨、低利率」的恰到好處的理想狀 態。這種環境確實是投資市場最舒服的階段。 消費的價格和市場自動產生的價格之間,消 費的價格應該貼近平均值。然而,讓人戒慎 恐懼的是,以上三個條件,何時改變、或是 還可以維持多久?這個擔心,也是讓市場充 滿波動性,以及經濟學家和政策制定者最大 的挑戰。 • 金髮女孩(Goldilocks)這個隱喻,來自於童話故事「金髮女孩與三隻 熊」。小女孩誤闖三隻熊的房子,房子裡有三碗粥、三張床,小女孩都嘗 試過後,選了最小碗的粥、最小的床睡覺,因為那最適合她。
  18. 不必要的變異 vs 有利的多樣性 Johnson CHEN 202212 18 • 判斷的差異往往代表著某種程度的多樣性,不但應該在做決定的時候考慮進去, 同時也是一件好事。只是系統雜訊的一個關鍵特性是,這是不必要的雜訊,也 是我們希望避免或消除的 • 舉例來說,如果十位影評人看同一部電影、十位品酒師品評同一支酒、十位讀 者讀同一本小說,我們不會認為他們有相同的意見。畢竟人各有所好,這是很 自然的,也是我們完全可以預料到的。如果在一個世界裡,每一個人的好惡完 全相同,那麼沒有人願意活在這樣的世界。 • 但是,如果個人品味被誤認為專業判斷,品味差異也 可能造成錯誤。如果一個電影製片人決定以一個很不 尋常的主題拍片,只是因為他『很喜歡這個劇本』, 要是其他人都不喜歡的話,他可能就犯了重大偏見和 錯誤,這是我們希望在評價系統裡所避免和排除的, 也是希望能夠和所謂『多樣性』差異有所區分的。
  19. 意見一致的錯覺-1 Johnson CHEN 202212 19 • 還在不久前,沒有人預期或關注雜訊的數量會那麼大。然而也沒有人質疑這個雜 訊審查結果的可信度和接受度。但雜訊的問題,以及因為雜訊帶來的巨大代價, 對組織而言似乎是個新問題。雜訊就像地下室漏水一樣。我們會容忍這個問題不 是因為這是可以接受的,只是因為一直沒有注意到這個問題的存在。 • 這個錯覺的根源來自於,對大多數的人而言,我 們大抵有個深信不疑的信念,認為這個世界看起 來這樣,是因為本來就是這樣。接著,也很容易 相信:「我這樣看世界,別人應該也是這樣看。」 這種信念就是所謂的天真的現實主義,這對於我 們與其他人共享的現實感受很重要。我們極少質 疑這種信念。不管任何時候我們都對周遭的世界 抱持著簡單,天真的單一解釋,更糟糕的是我們 也覺得這樣的解釋就足夠,就是正確了的,不會 去想像其他可能。
  20. 意見一致的錯覺-2 • 以專業判斷而言,我們相信別人的看法跟我們 大抵相同,這種信念會透過多種方式強化。首 先,我們跟同事有著相同的語言,也有同樣的 思考規則,知道在做決定時何種考量是重要的。 • 經驗也告訴我們,與其他人意見一致是對的, 如果有人違反規則,就會做出荒謬的判斷。我 們偶爾會把和同事的意見分歧看作是他們的判 斷失誤。我們很少有機會注意到我們一致同意 的規則是模糊的,足以消除一些可能性,卻無 法一起積極的對某種情況做出反應。 • 我們喜歡待在與同事意見一致的舒適圈,未曾 注意到他們看到的世界其實和我們不一樣。 • 大多數的組織文化也是偏好共識與和諧,討厭 異議和衝突。即便是在檢視雜訊的相關會議和 討論裡,做法似乎是想盡量減少意見相左發生 的頻率,真的發生意見不一時,則找理由來掩 飾問題。 Johnson CHEN 202212 20
  21. 單一決策 vs 重複決策 Johnson CHEN 202212 21 • 重複的決策可以透過收集結果和雜訊審查顯露出來。例如針對類似案件但是透過 執行,專業人員,法官的互換系統或機制,於是就很容易可以被定義和測量出不 必要的和系統雜訊本身所產出來的變異。但是單一決策(沒有前例可循的場景) 就相對來說困難許多。 • 只做一次的決策,例如如歐巴馬總統對伊波拉疫情的因 應措施,是單一決策,因為這樣的決策不是個人或團體 常常必須做出的決定,沒有預先準備好的因應措施,它 們具有真正獨特的特質,也沒有真正的前例可以借鑑。 • 公司領導人常常必須做一些對他們來說似乎獨一無二的 決定:例如是否推動可能帶來巨大變革的創新計畫?在 疫情進入全球大流行階段是否關閉店面?是否在外國開 設辦事處?等等…. • 重要的政治決策往往是單一決策最好的例子,軍事指揮 官做出攸關命運的抉擇也是如此。能夠過濾掉雜訊而針 對問題核心來解決,也就成為這些決策的重點關注
  22. 單一決策的雜訊- 當作只做一次的重複決策 22 Johnson CHEN 202212 • 單一決策的重複決策不同。重複決策的分析通常傾向利用統計學和社會科學統計 來評斷。而『高風險的單一決策』則是歷史學家和管理大師的研究範圍。 • 這兩種決策的研究方法截然不同。社會科學家也會評估很多類似決策,以辨識模 式、規律性,並衡量準確性。然而,單一決策的討論通常會採用因果關係的觀點, 而且是在事情發生之後才檢視,把焦點放在找出事情發生的原因和歷史分析。 • 單一決策的本質,為雜訊研究帶來一個重要 的問題。雖然我們定義雜訊是在判斷同一個 問題時出現不想要的變異。由於單一問題永 遠不會重複出現,因此這樣的定義並不適用 在單一決策上, • 然而,從減少雜訊的角度來看,單一決策可 以被認為是只發生一次的重複決策。所以不 管你的決策只做一次,或是做一百次,都該 以減少偏誤和雜訊為目標。減少錯誤的做法, 對獨一無二的決策及重複決策應該同樣有效。
  23. 延伸閱讀:COVID 抗疫政策與雜訊 Johnson CHEN 202212 23 • 2020年的 COVID 新冠並對,就是一個我們對抗雜訊的單一決策社 會實驗。面對同樣的病毒,世界各國五花八門的政策多樣,讓我們 見識到不同政策如何影響傳染病的傳播和應對。在這期間,許多國 家誤判這個冠狀病毒的傳播力,以及染疫的嚴重性,導致醫療崩潰 而造成大量人民死亡。 • 即使像台灣初期防疫有成,但後來也因一些的判斷失誤而近乎封城 了幾個月。同時疫苗採購的時間和選擇上也是備受諸多批評。 • 到了疫情的第三年,病毒也歷經了多次的變異。我們也慢慢的有一 些共識一些防疫成功的必要條件。然而,時即使是到了今天不缺疫 苗的時間節點,但仍有不少人拒絕接種而染疫,重症和病死。於是 完整沒有雜音的正確訊息,便是我們人類抗疫,甚至生存所面臨的 一個重要課題。
  24. • 判斷可以被描述為由人的頭腦作為儀器的一種測量。測量的概 念隱含追求準確的目的:盡可能接近真實數值,而且把錯誤降 到最低。 • 判斷的目的不是為了給人留下印象、不是為了表態,也不是為 了說服別人。同時,做出準確的判斷不等於擁有良好的判斷力。 判斷-Judgement Johnson CHEN 202212 24 • 雖然準確是目標,要百分之百達成這個目標是不可能的,即 使是科學測量也做不到,更別提判斷了。有誤差是難免的, 有些誤差是偏誤,有些誤差則是雜訊。 • 特別是當人們認為自己在做判斷時,所展 現出思考的複雜性,並增添細微的考量。 但這種複雜性和微妙性往往只會弄巧成拙, 不會提高簡單模型的準確性。
  25. 誤差的測量 • 在所有類型的專業判斷中,計算整體誤差時,『偏誤』 (Bias)和『雜訊』(Noise)會扮演相同的角色。在某 些情況下,偏誤是造成誤差最主要的因素,在另外的情況 下,則是雜訊造成主要的誤差結果。 • 雜訊會產生代價很高的錯誤。如果一個經理人經常預測專 案所需時間是實際完成時間的一半,偶爾預測所需時間為 實際完成時間的兩倍,說這個經理人的「平均預測時間」 是對的,一點幫助也沒有。在研究雜訊的理論裡,我們必 須要記得,不同的錯誤會相加,不會互相抵消。
  26. 延伸閱讀 均方誤差 Mean-Square Error Carl Fredrich Gauss,1795 均方誤差(MSE)是我們在做預測性判斷,包括 預測和估計裡,準確度(accuracy)最高(偏誤 最小)和精確度(precision)最高(雜訊最小) 下接近真正平均的數值。
  27. Johnson CHEN 202212 27 系統雜訊分析 • 水準誤差 Level Error- i.e 不同法官判斷平均水準的差異 • 型態雜訊 Pattern Noise-i.e. 法官對特定案件反應的差異 • 隨機雜訊 Random Error i.e 場合雜訊-不相干的戰士成份
  28. 場合雜訊-不相干的暫時成分 • 測量場合雜訊並不容易。基於這個原因,只要 案例讓人印象深刻,場合雜訊就很難直接測量 出來。 • 就像是一位醫師在不同日子(天氣、心情)對 於同一個診療案件的診斷不同。或者是某一位 法官他支持的球隊昨天獲勝了,所以今天的判 刑變得比較寬容。這種雜訊會隨著時間和場合 改變。 • 例如你給一位核保人員或刑事法官看他們承辦 過的案件,他們也許會記得那個案件,然後做 出相同的判斷。曾經有研究檢視專業判斷的變 異(技術上稱為再測信度〔test-retest reliability〕,或簡稱信度〔reliability〕), 要求專家(或法官)在同一個期間針對同一件 事進行兩次判斷。結果並不令人意外,他們往 往會同意自己的意見。所以很難從相同的測信 度和稱信度來判定雜訊。 Johnson CHEN 202212 28
  29. 場合雜訊的來源 • 情緒 • 道德束縛 • 潛意識 • 天氣 • 排列順序 • ……… Johnson CHEN 202212 29 「判斷就像罰球:無論我們多麼想精準 呈現這個動作,沒有兩次罰球是完全相 同的。」
  30. Johnson CHEN 202212 30 我們認知的限制和預防捷思謬誤 • 我們必須要理解人類大腦在認知上的 限制並預防我們捷思陷阱的基因: • 相關性不代表因果關係,但我們可以從 因果關係找到相關性。 • 大多數正常事件不在我們意料之中,也 不會令人驚訝,也不需要解釋。 • 人們有對自己預測有過度的自信的傾向。 然而事實是,儘管我們自認為了解這裡 發生的事情,但我們同時卻不能夠能預 測到事情的發生,直到事情發生以後。
  31. 延伸閱讀:一群人在一起,會變笨還是變聰明? Johnson CHEN 202212 31 • 1950年代,哈佛心理學家艾許(Solomon Asch)研究證明,人常常會採用多數人的看法, 就算顯然是錯的、違背自己的直覺時依舊如此。同一時期的美國加州大學學者圖登罕(Read Tuddenham)也發現,如果學生認為大家都選擇了某個答案,就會選擇同一個答案,就算 這個答案非常離譜也一樣。這個發現與我們所謂的「群眾的智慧」(wisdom of crowds) 指透過積聚大量人群的智慧,提供比獨自一人更正確的預測或答案的傳統思維截然不同
  32. Johnson CHEN 202212 32 • 『群眾的智慧』(The Wisdom of The Crowd) 是說, 只要集合群體的資訊,做出的決策常常會比個別成員 做出的決定要好。 • 然而事實是,「從眾的智慧」門檻很高,往往要在群 體成員要都要能夠『獨立』做出判斷時才會發生,而 且在群眾具有多樣性時,效果也最好。 • 另一方面,在共享單一認同的一致性群體中,團結一 致的重要性高過一切。我們反而會有不理性的決定的 傾向。 • 現在很多人開始用這個理論反思我們現代社會對於社 群網路和軟件的依賴,因而產生的群體極化(Group Polarization)。「我們認為網路是資訊的超高速公路, 其實不是,那是條偏見的超高速公路。推特和臉書很 適合分享資訊,但如果我們分享的是偏見,社群網站 可能會讓我們變笨。」
  33. O92 Johnson CHEN 202212 33 降低雜訊的方法:決策保健程序 「以總體誤差而言,雜訊和偏誤是互相獨立的。 不管偏誤有多少,減少雜訊的好處都是一樣的。」 -Daniel Kahneman
  34. 降低雜訊的方法-1 Johnson CHEN 202212 34 1. 判斷的目標是準確,而非個人特質的表現 • 為了避免穩定型態雜訊,讓不同的專業人士對同一件事情有相近的判斷,我們 可以把要判斷的程度先定義清楚,而不是給一張空白畫布讓人隨意發揮。最激 進的做法是利用電腦演算法,以規則來代替判斷 2. 要有統計思維,用外部觀點來看待案件 • 把我們要判斷的事情,當成是一群類似案件裡面的其中一個案件,而非每次都 把案件當作全新的事件。當我們引入外部的數值,例如,評估一個執行長的留 任期間長短,就要先看業界平均期間是多少,再對目前的判斷做出調整。 3. 將判斷結構化,拆解成幾個部分 • 因為當不同的人看到不同的條件,都會在心裡編織起自己的故事。就像是不同 的面試官可能會給同一個面試者截然不同的評價。這個方式可以打破人們過度 追求連貫性的心理機制,在過程中針對各個獨立的特質進行評分,而不是等到 一連串的評估結束後才一口氣評分做判斷。
  35. 降低雜訊的方法-2 Johnson CHEN 202212 35 4. 抗拒太早出現的直覺的誘惑 • 如果我們在第一時間就用直覺來判斷事情,那麼後續我們找的資料跟佐證,很可 能都只是為了證明我們自己的觀點,落入了對自己過度自信的幻覺。好的做法是 延續上一步,把各自獨立的評估都進行完成之後,然後才使用直覺進行最終判斷。 5. 從多位判斷者取得獨立判斷,然後考慮將這些判斷總合起來 • 作者們透過許多實驗說明,將獨立的判斷加以平均,可以保證系統雜訊減少。因 為不同的判斷者各自的技能和觀點會互補,增加資料的樣本數可以提高準確性, 例如 Google 在招募人才就會參考四位面試者的判斷。 6. 偏向相對判斷,相對尺度和應用基準比較(Benchmark) • 人類在絕對值上面的判斷,都有各自截然不同的解讀。例如我們要替一個團隊打 績效,不同的主管給每個員工的絕對分數,差異一定很大。但如果改成用排序的 方式,不同的主管給出的排序反而都非常相近。採取案例量表來做判斷,會比給 絕對分數來得好。
  36. 36 課題與啟發:降低影響公平的雜訊 • 當 政府或組織過於依賴所謂『平均值』和『統 計數字』制定某一個社會政策,結果造成極端的 影響,這就就代表了某個人因為有可能被不同的 雜訊所被「不公平對待」了。而這種不公平對待, 該檢討的不是個人,而是個人所身處的「系統」。 • 政策數字上的『偏誤』(Bias) 是一個人對件事常 有的各種偏見,犯錯是在個人,在民主社會裡或 許還有些救濟機制。而雜訊 (Noise) 卻是錯在系 統,系統沒有調控機制,導致一群專家,會針對 同一件事,做出截然不同的判斷。而這個影響卻 是深遠而實際衝擊到人民的生活的很多層面。 • 我們只有正視雜訊的存在,致力於改善系統,才 能朝向一個決策更正確、更公平、更健康的社會。
  37. Johnson CHEN 202212 37
  38. 延伸閱讀: 假設檢定的型一錯誤 vs 型二錯誤 Hypothesis Testing Type I and Type II Error Johnson CHEN 202212 • 型一錯誤(Type I Error) • 倘若虛無假說事實上成立,但計算出來的檢定統計量落在拒絕區域,使其拒絕虛無假設,該種錯 誤即為型一錯誤。其發生的機率以 α 表示,或稱顯著水準 (significant level)。 • 時常被提起的例子就是法官的判決。如果犯人無罪,卻判決有罪,就是典型的型一錯誤。 • 型二錯誤 (Type II Error) • 倘若虛無假設事實上不成立,但計算出來的的檢定統計量沒有落在拒絕區域,也就是落在接受區 域,使其不拒絕虛無假設。其發生的機率以 β 表示。另外,統計上常稱 1−β 為檢定力 (Power) 。 38 • 『假設檢定』是一個常用在估 計母體參數的統計和預測手法。 • 根據檢定統計量(Test Statistics) 是否落在拒絕區域, 來判斷是否應該拒絕某一個設 定的虛無假設(null hypothesis),而反推我們對 於母體的一些判斷。 • 但是這個判斷可能會有兩種的 錯誤我們需要理解和更深入的 檢驗的:
Anzeige