研究驚人發現:AI竟和人類一樣過度自信且充滿偏見
最新研究顯示,人工智慧系統會出現「熱手效應」、「基本比率忽略」和「沉沒成本謬誤」等非理性傾向,這讓人們開始質疑AI的實際應用價值。儘管人類與AI的「思考」方式截然不同,但研究發現AI有時會做出和人類一樣不理性的決策。
這篇發表在《製造與服務運營管理》期刊的研究,首次針對ChatGPT在18種人類常見認知偏誤中的表現進行全面評估。結果顯示,在近半數測試情境中,ChatGPT都展現出與人類相似的決策偏見。
來自加拿大和澳洲五所學術機構的研究團隊測試了OpenAI的GPT-3.5和GPT-4模型。他們發現,儘管這些大型語言模型在推理上表現出「驚人的一致性」,但仍無法避免人類常見的思維缺陷。研究主要作者、IVEY商學院營運管理助理教授陳陽指出:「管理者最好將這些工具用於有明確公式化解決方案的問題。若是涉及主觀或偏好導向的決策,則需格外謹慎。」
研究團隊將「風險規避」、「過度自信」和「稟賦效應」等人類已知偏見設計成提示詞,測試ChatGPT是否會陷入與人類相同的思維陷阱。研究人員向AI提出傳統心理學假設性問題,並結合庫存管理、供應商談判等商業應用場景,觀察AI在不同領域是否都會模仿人類偏見。
研究發現,在具明確數學解法的問題上,GPT-4表現優於GPT-3.5,機率和邏輯相關情境的錯誤較少。但在主觀模擬情境中,例如是否選擇高風險選項以實現收益時,聊天機器人往往反映出人類常見的非理性偏好。論文指出:「GPT-4對確定性的偏好甚至比人類更強烈。」
更值得注意的是,無論問題是抽象心理學難題還是具體商業流程,聊天機器人的行為模式都相當穩定。這表明這些偏見並非來自記憶案例,而是AI推理方式的一部分。研究還發現,GPT-4有時會放大類人錯誤,例如在「確認偏誤」任務中總是給出帶偏見的回應,且比GPT-3.5更明顯表現出「熱手謬誤」傾向。
不過,ChatGPT成功避開了一些人類常見偏見,包括「基本比率忽略」和「沉沒成本謬誤」。研究作者認為,AI的人類化偏見源自訓練資料中包含的人類認知偏誤,這些傾向在微調過程中又被強化,特別是人類回饋更傾向選擇看似合理而非完全理性的回應。
陳陽建議:「若需要準確、無偏見的決策支援,應在您會信任計算機的領域使用GPT。」加拿大麥克馬斯特大學人力資源與管理副教授、共同作者Meena Andiappan則強調:「AI應被視為做出重要決策的員工,需要監督和道德準則。否則我們可能自動化有缺陷的思維,而非改進它。」