雜訊 — 簡單心得記錄

只要有判斷,就會有雜訊。

Juo Penguin
Jun 17, 2021
https://unsplash.com/photos/wR5u40w3GMw

決策的誤差 — 偏誤與雜訊

我們做決定時常常會出錯,而這樣的出錯誤差,由「偏誤」與「雜訊」這兩種組成,偏誤是指我們心理的某種傾向,是比較容易察覺的。

  • 偏誤 — 歪向某一邊的心理傾向

比較好得知,大多具體可見,至今歸納出許多我們常犯的心理偏誤,也很多這方面的研究。很多心理相關、改善決策相關的文獻,都有提到該怎麼檢查這些偏誤,並且如何做改善,改正你自己"歪掉"的想法,如此一來,在判斷事物時比較不會受該偏誤所影響。

這就像是一個量出來的結果永遠都會多0.2公斤的體重計,事先把體重計歸零(知道有什麼偏誤,在決定時先有警覺,以免落入偏誤的陷阱),或是

偏誤算是誤差中比較好解決的,因為具體且研究行之有年,解決方法也不少,有興趣的話,可以參考各種文獻,甚至在wiki上就能找到許多資料了。此書的重點是雜訊,那一塊造成我們偏誤的未知領域,反而是難以察覺且在不知不覺中造成誤差的。

  • 雜訊 — 雜亂的未知錯誤

不容易察覺,造成那些"未知"的錯誤,大部分的人甚至"沒有感到"雜訊,因此常被認為決策時的判斷失誤只是「隨機且不可控」而已,通常只會覺得這次的差錯,只不過是「運氣不好」、「狀況不好」等等。

但實際上這些失誤並非如此隨機,也不是什麼很玄的事,並不是完全不可控。在去除掉偏誤影響的變異誤差之後,判斷的誤差就是由雜訊所造成,這是我們更該注意並且該盡可能減少的。

總的來說,此書分析了雜訊有哪幾種,而且充斥在我們的日常生活中,以及怎麼影響我們的決策。而且,最重要的是該如何減少雜訊,是作者想要透過這本書傳達的重點之一,期望個人、團體社會及政府,能夠在制定各種決議時,有更正確的決定。

雜訊的產生與影響

只要有判斷,就會有雜訊。

而雜訊藉由統計分析才能得知的,如前面所提,非常隱晦且難以察覺。我們可以透過「雜訊審查」得知雜訊,一組專業人員針對同一個案做判斷,藉由判斷結果的變異性(儘管不知道正確答案)得知雜訊的存在,而且透過數值就可以做量化。

系統雜訊

在某個組織中出現的雜訊,本書討論的雜訊大多都是這種,也是我們生活中比較常見且極需減少雜訊的部分,例如: 醫生針對乳癌的判斷、法官審判犯罪者的服刑時間等,只要涉及不同人針對同一件事情做判斷,都會有「系統雜訊」。

系統雜訊由三種雜訊組成,計算公式如下圖所示,用的是均方差法計算,你不用知道這方法怎麼算沒關係,知道直角三角形的「勾股定理」就好,雜訊的數值就是這樣算出來的,藉此算出平均的值。

公式: 系統雜訊 ² = 水準雜訊 ² + 場合雜訊 ² + 穩定型態雜訊 ²

備註:圖中各雜訊的比例僅是範例,每一種系統雜訊的組成皆不同,有的可能是水準雜訊比較多,有的是型態雜訊的比較多。

  • 水準雜訊: 「不同人」之間差異的雜訊

有的人比較嚴格,有的人則比較寬鬆,同一組織不同專家的標準不一,每個專家在意的重點不同,這就是水準雜訊。

尤其是法官判刑這部分,因為水準雜訊的存在,每個人的判斷標準都不同,像是犯了某種罪行需要判5~10年,比較嚴格(或對於該案件較無法寬恕)的法官,可能會判8年;而認為犯人情有可原,較能接受犯罪者的說詞的法官,可能只會判6年。此案件的水準雜訊就是2年,雖然時間不長,但這樣的差異還是令人難以接受。

除了水準雜訊之外(組織中的變異),水準雜訊簡單來說就是「因人而異」。接著是個人本身的差異「型態雜訊」,這種雜訊是指「同一個人」對不同事情有不同判斷標準的差異,簡單來說,即便是同一個人,遇到不同的事情也會標準不一,就是「個人視情況而定」的變異。

而型態差異可以分為穩定的型態雜訊以及相對不穩定的「場合雜訊」。

  • (穩定)型態雜訊:

穩定的型態雜訊,是指由價值觀、個人理念等等因素形成的個人差異雜訊。

像是有兩個犯罪者同樣都是偷了東西,犯了竊盜罪,兩起案件的損害金額都差不多,但主要差別是犯人本身,一個是非裔人士,另一個是年邁的長者。你可能會對年長的犯罪者「比較心軟」而判刑較輕,而因為看不順眼有色人種而故意判刑較重,視情況而定即是如此,明明都是一樣的事件(案件),卻因為標準不一,而有不同的判斷。

之所以會說這樣的是「穩定的」型態雜訊,是因為我們的判斷標準大致上不會有太大的改變,如上面的舉例來看,你會對長者心軟,那接下來的案子也大多會呈現如此的表現,而討厭那些有色人種,那之後大概也不太可能會喜歡。

  • 場合雜訊: 根據場所、心情不同而產生的雜訊

簡單來說,就是「看心情」,這大概是我們最難察覺,而且最難以控制的雜訊。

法庭當天的冷氣開比較強,你覺得比較冷,身體覺得很寒冷,讓你的心情隨之「冷起來」,判斷的標準在當下變得特別嚴格,可能會比較難寬恕犯罪者,而判刑特別重;或者是當天天氣很好,或是下班後要去約會,整天的「心情都不錯」,抱持著正向樂觀的態度,判刑可能就會特別輕,因為「樂觀」覺得犯罪者仍有改進的餘地。

其他生活上常發生雜訊的地方

  • 醫生的診斷

即便是X光照片的判讀,也是有雜訊的存在。不同醫師對於同一張X光的判斷點有可能不太一樣,有些可能認為照片上的白點不是異常,而有些認為是某些病症造成這些白點的顯現,見解不同最後的診斷結果也會不一樣,差異可能,既然判斷的結果不同,那至少會有一個是錯的,這樣的雜訊就是水準雜訊。

當然也有可能會受到「型態雜訊」的影響,如果一開始就被告知患者有哪些病史、不良的生活習慣等等,那醫生可能會特別關注X光上是否有出現某些病症的特徵,而刻意忽略其他有可能的疾病。

尤其精神科領域的雜訊特別多,每個醫師的診斷能力、醫學背景和學派皆有所不同,幾乎沒有統一的標準,不像其他,治療方式也都大相逕庭,有的認為要以藥物為主進行治療,而有的則是認為以心理治療比較好…等,然而許多疾病的治療仍舊沒有標準答案,所以仍然充斥著各種雜訊,醫師的判斷有著不同的差異。

  • 員工的任用面試

假設求職者有一份履歷,上面標示著各能力的評分(1~10分,姑且先不管能力的評分怎麼來的,假設是透過標準評比流程得來)。像是語言能力8分,創意力5分、人際關係溝通6分…等,即便如此有了這麼一份看起來可以做出公平決定的履歷,但是不同的面試官對於各種評分仍舊有「自己的偏好」。

每個人的決定基本上都不一樣,因為每個面試官心中的那把尺都不同。有的人可能認為人際關係的能力比較重要,就擅自為這一項評分做「加權處理」,有的可能覺得創意能力才是該被重視的。而且在與其他求職者進行比較時,可能認為10分與9分的差異,會比9分與8分的差異還要來得大…等,各種判斷的標準皆不相同,這樣的雜訊就是「水準雜訊」。雖然因為每個人的意見不同而有雜訊,但是在做共同決定時,有不同人的意見是很重要的,這可以平均我們的雜訊量值,這在最後一部分「減少雜訊」會提到,而且要用對方法才能正確地減少。

在面試這種情況中,也是會有穩定的型態雜訊。像是你面試了兩位履歷幾乎一模一樣(不含自我介紹這種自我表達的文字內容)的面試者,明明兩位都很優秀,但你就是會偏好某一位受試者。兩個求職者的能力差不多,也都是頂尖學校畢業,但你看到其中一位是與你同學校的「校友」,你的心中有了一點偏袒,因此在最後的決定,就選擇了這位求職者,並錄取了他。

像這樣以個人喜好做判斷的差異可是多不勝數,尤其是那些難以抉擇的場合時,以簡單替代複雜,「系統一」的思考模式會搶鋒頭,會以直覺的偏好來判斷。

場合雜訊,例如當天的面試場地特別舒服,午餐剛好有喜歡的菜,前一天有睡飽等等,或面試者給的第一印象很好,這些會影響到心情的因素,也是決定面試者會不會被錄取的關鍵。因為心情比較好,比較容易忽視一些小缺點,對於求職者的評分與印象會更好;反之,如果當天被指派很多工作,壓力很大很煩躁,看什麼事情都不順眼,那這樣也會對面試者更加嚴格,評分與印象就會相對較低。

總結 — 減少雜訊,增加判斷力

決策保健

知道雜訊之後,最重要的就是想辦法減少雜訊,然而大多數的雜訊都難以察覺,而且幾乎沒有固定的成因,讓我們的決策產生了那些不想要的差異。

作者提到一個很重要的方法 — 決策保健,用「預防大於治療」的方式來減少雜訊發生的可能性。

前面提到的「偏誤」可以用治療的方式「對症下藥」,像是施打疫苗與服用特效藥,針對某種病症做專一的治療。事先知道常犯的偏誤有哪些,就能有效避免犯下那些偏誤。

而決策保健的方式,像是戴好口罩與勤洗手,做好預防的工作,降低「被雜訊」感染的機會,因為我們不確定到底會有哪些雜訊,是水準雜訊影響比較大,每個人標準不一,還是你自己的問題?又或者是情況不同造成的雜訊?

難以得知確切是什麼原因造成的,要從雜訊中一一找出來也非常花時間,因此我們能做的是制定一些「標準」,盡可能減少不必要的差異,減少決策上的雜訊,讓做出來的決定更準確。

這邊提了兩個方法(書中還有講到其他觀念),可以使用「演算法」以及「中介評估法」降低可能的雜訊產生,達到決策保健的功效。

疫苗和口罩,這兩者都能減少疾病的發生,疫苗很有用沒錯,可以針對看得到的那些做事先預防;但隔絕那些「看不見的敵人」才是更重要的,我們常常被這些敵人奇襲,深受其害。雜訊正是那看不見的敵人,我們更該注意並堤防其所造成的危害。

適當使用演算法

即便只是簡單的算式,總是會比我們的判斷還要來得更加準確,雜訊更少。

像是前面提過面試的例子,我們會因為個人偏好而針對部分分數有「權重的調整」,因為每個人見解的不同,判斷的結果產生了許多雜訊。所以像是這個時候,單純地將分數做加減乘除(至於怎麼運算,依公司選人的標準而定,不過越簡單越好)。

這樣純粹以算出來的數值做的判斷,也比我們在那邊思考老半天做的決定還要好上許多,不只雜訊更少,也更準確(準確的標準是指被選上的那些求職者在日後的表現符合預期)。

而且通常是運算的法則越簡單,則決策越穩固、雜訊越少,不過如果是更複雜的案例,用上深度學習持續改進的這種演算法,準確率會更高,判斷更為精準!

總的來說,用演算法的好處主要是減少被每個人的差異所影響。尤其醫療領域受惠於演算法的精準,例如X光照片判斷疾病的機器學習判斷也已經行之有年,準確率越來越高,減少醫生之間的水準雜訊以及個人的型態雜訊,讓病人能接受更正確的診療。

中介評估法

既然機器算出來都比我們准了,那我們還有什麼用?都給機器算就好了啊。

話可不能這麼說,有些判斷還是要靠我們的「真知灼見」發揮效用,不過因為雜訊的影響,準確率並沒這麼高。因此我們可以學學機器的演算法,在判斷也能有一定的規則,來減少過程中的雜訊,讓我們的決策發揮真正的效用。

這個方法是中介評估法,透過一個標準化的既定流程,而這個流程是由組織的各位討論出來的,在判斷事物時有「可以參考的標準」,「有標準」這點非常重要!這樣可以減少大家之間的差異,免得你覺得的好跟我覺得的好其實根本就不一樣(水準雜訊),或是你今天的想法跟明天的想法也不一樣(型態雜訊),如此一來,大幅減少那些認知上的差異,也就能減少做決定的雜訊了。

  • 外部觀點: 尋找基本比率

類似的情況有沒有可供參考的平均值?例如公司招募一個新職位,不過大家對這個職業都不太熟,這時候可以先參考一般業界都要求哪些能力,平均的分數是多少?

有這樣「統計上」的外部觀點時,比較不會各說各話,否則有的人認為6分就夠了,有的則是8分才行,在那邊各持己見,導致雜訊充斥其中。如果業界平均是5分(基本比率),而公司大概是業界的前30%,那就可以依此訂個6或7分的標準,而求職者至少要達到該標準才行,依此減少水準雜訊,每個人心中那把尺的差異變得比較小了。

  • 結構式問題: 錨定案例 & 相對判斷

如果是開放式問題,想問什麼是根據發問者喜好隨意發問,不只每個人問的都不一樣(水準雜訊),你今天問的跟明天問的也會不同(型態雜訊),而且問出來的答案也不見得有參考價值,所以藉此做出的判斷,通常雜訊很多,會是個不夠精準的決策。

而結構式問題更能夠問出我們想要的,照著題目一題一題問,雖然比較無趣,但是這樣標準一致比較不會有爭議,如果題目設計良好,可以問到我們確切想要的答案。相較之下,結構式問題會得到範圍內的答案,並藉由該答案做決定,如此一來雜訊被大幅減少,因此決策也能更加準確。

像是醫生的問診就是偏向結構式問題,醫生會問你喉嚨有沒有癢癢的,痰是什麼顏色,有沒有發燒,最近有沒有味覺異常等等,藉由這樣的標準流程的問題做更準確的診斷。

而在做評比時,盡量別用「絕對判斷」,改用「相對判斷」。

絕對判斷很常見,像是給餐廳評分、為App評星星等,這些「打分數」的形式都屬於絕對判斷,雖然很常見,但這並不是個很好的評分方式,尤其很多評分都沒有「固定的標準」(又不是考試)。你可能覺得三顆星就不錯了,但是對方覺得四顆星才夠好,而且同樣都是三顆星的評比,到底是哪個好?這樣的判斷方法實在令人很困擾,因為各自的解讀不同,有了不該出現的雜訊!

所以,盡量採用錨定案例+相對判斷的方式,這樣大家的判斷標準比較一致,減少各自判讀造成的雜訊(型態雜訊)。

錨定案例是指先給定幾個大家都知道的分數標準,例如為餐廳評分,總共有1~10分,3分是某間大家都討厭的某間餐廳,6分是公認還行的,10分則是即便排隊也要吃的名店。

在為某一間新餐廳做評比時,可以先根據這份評分的標準參考,為其做好相對的排序,例如你覺得還不錯,就將其放在6分與10分之間,你就可以大概知道該評分「大概是多少」,而不必一定要給出確切的分數(像是6分、7分等等)。有了這樣的錨定案例與排序之後,我們可以更好理解大家對於該餐廳的判斷是如何,在每個人心中的地位是怎樣的,藉此大幅減少相對的判斷雜訊,而不必因為絕對評分的解讀歧異有所誤差並產生雜訊。

越來越多新餐廳要評比時,你就不會苦於同樣分數的餐廳有很多,只要做好相對的比較就行,這也是為什麼很多時候我們會偏好排列順序(像是排行榜),而非評分的原因。

  • 獨立評估: 評估 — 討論 — 評估

每個人盡量「分開獨立」做評估,在思考判斷的當下,不要受到其他人的干擾,也就是說,在還沒做出個人判斷之前,不要參考他人的意見,否則會被他人影響。

如果事先被他人的判斷影響,我們在思考時很容易有偏見,會被場合雜訊所影響,因此先做出個人判斷,接著才討論。而且在評分各項目時,也是盡量分開獨立的方式來判斷。在個人評估完後,再匯集大家的意見做討論,看看各自的判斷有什麼不一樣,有哪裡沒思考到的,接著再做一次評估。

舉例來說,批改作文的方式就是類似這種方式,每個評審老師先各自打分數(第一次評估),如果分數差距過大則接著討論並重閱(再評估),否則就是直接根據該分數做平均。

  • 延遲做出直覺判斷

我們不該太早有「先見之明」,不要一開始看到就「憑感覺」做出決定,這樣雜訊(主要是型態雜訊,因為直覺純屬個人意見)比較多,判斷就會相對不準確。

最好是執行過上述的流程之後,藉由以上的方法 — 「中介評估法」幫我們減少判斷時的雜訊,在想清楚之後,再根據直覺做出決定,這時決策的雜訊相對少一點,不該出現的差異比較少,因此判斷會更為準確。

雜訊適當減少就好

雖然雜訊越少越好,但並非將雜訊降為零就沒有問題。像是一切都用演算法、規則或是法律做決定,這樣的雜訊是零沒錯,但不代表做出的判斷就一定正確。

舉個簡單的例子,如果有個規定是1+1=3,而強制我們判斷時一定要套用這個規定,不用我們人類來判斷,所以(即便你知道這錯得離譜),每次只要有1+1的情況出現,就一定會判斷成3,沒有任何協調的餘地。

因此強制套用規定,讓判斷完全沒有雜訊並非好事,上面的舉例就是將雜訊歸零,但「偏誤」仍存在,所以判斷才會錯得如此離譜。

不過大部分時候,規定、演算法還是很有用的,讓我們不必受到雜訊干擾,像是法律(大部分)的罰則規定,明定幾歲以上才能喝酒;平均分數就是全部加起來除以總數…等,只要該規則被大多數人驗證過,基本上就能放心使用,並做出準確的判斷。

不過有的時候,將雜訊降低需要花很多的成本(時間、人力等),而且如1+1=3的範例,如果一切都靠著既定規則,這樣會沒有通融的餘地。例如今天只要有2+1=?的情況需要判斷時,根據該規則就無法得出答案。

如果一切都只能照著規則一條一條做決定,將雜訊降到最低,那必須把所有情況都思考透徹才能完全將其歸零,任何邊際狀況都要顧及,但這樣不太實際。你能想像判斷一件事之前,必須先翻閱跟字典一樣厚的檢核手冊,才能做出決定嗎?

雖然法律條文是差不多的情況,但其實已經相當精簡了,很多法條都是採用「準則」的判斷,而不是全部都是規定,否則全部寫出來大概也沒人能看得完吧。

因此,許多時候使用的是「準則」而非規定(雖然很諷刺的就是因為這些準則而有雜訊),這是在兩者相害取其輕的權衡之下,不得不做出這樣決定。同時也是避免所有規則都訂死,讓人有漏洞可鑽,能起到一些嚇阻的作用(因為你不確定哪些可以那些不行,所以比較不敢觸法)。

總的來說,一部分採用規則,並配合著準則,將雜訊降到「可以接受的程度」,依此做出的判斷或許就是當時的最佳解了。

開放心態

書中提到某一種人,他們並非最聰明(IQ不是頂尖),但做出的預測、判斷就是比其他人還準,這些人被稱為「超級預測者」。經過研究才發現,為什麼這些超級預測者總是可以做出更好的判斷,差別在於他們的「思考方式」比較不一樣。

這些人在進行判斷時,總是保持著開放心態,不會認為自己做的決定是百分之百正確,願意接受任何反對意見,即便新的資訊與先前的理念相左,他們也可以接受並將其融合到自己的想法當中,與時俱進更新自我判斷的標準,讓自身的偏誤能越來越少,雜訊也能因此降低(可以察覺自身的思考差異,例如場合不同時,也能察覺到並保持一致的思考模式)。

因此,如果要挑選更好的決策者(像是執行長、主管之類的),要選擇的不是那些最聰明或專業能力最強的候選人,而是這些思考更開放、思慮更縝密的更為合適。而且這些人大多會勇於接受反對意見,因此如果你有反對的想法,盡可能讓他們知道,或許能因此有所改進成長。如此一來,可以讓決策更為準確,並且更常做出正確的判斷,對彼此都有好處!

--

--

Juo Penguin
Juo Penguin

Written by Juo Penguin

不挑食的雜食者,近期的目標是瘦10公斤。

No responses yet