AI排行榜為何失準?密西根大學破解評比迷思
科技
08-08
當Chatbot Arena等知名AI排行榜採用有缺陷的排名機制時,密西根大學研究團隊提出創新解決方案。他們深入分析四種主流排名方法後發現:即使使用相同群眾外包資料,不同演演算法竟會產出截然不同的結果。
「科技巨頭不斷推出號稱更強大的生成式AI,但若評測方法本身有瑕疵,我們如何判斷誰才是真正的冠軍?」電腦科學工程系副教授唐玲嘉一語道破問題核心。這份刊登於頂尖期刊的研究,不僅揭露現行評比系統的盲點,更提出具體改善指南。
生成式AI的評測之所以困難,關鍵在於其內容產出具有高度主觀性。現行部分排行榜專注客觀題型(如選擇題準確率),卻無法評估開放式創作能力。而Chatbot Arena採用的「LLM擂臺賽」模式雖透過人機互動比較,但其採用的Elo評分系統——原用於西洋棋選手排名——存在根本性缺陷。
研究第一作者博士生羅蘭·戴諾斯解釋:「棋手實力會隨職業生涯變化,但AI模型版本更新前效能固定,且能同時進行無數場對決。」這種特性使得傳統競技評分系統在AI領域水土不服。
團隊透過兩大資料集驗證發現:電競常用的Glicko系統表現最穩定,特別在比較次數不均時仍保持準確;Chatbot Arena後期改用的Bradley-Terry系統雖在均衡資料中可靠,卻可能讓新模型虛胖。而Elo和Google網頁排名採用的馬可夫鏈演演算法,結果高度依賴人為引數設定。
「就像新手偶爾擊敗棋王不代表其實力,AI評比需要足夠多的對戰資料才能逼近真相。」共同通訊作者傑森·馬斯教授強調。這項研究為快速發展的AI產業立下重要里程碑,未來可望建立更科學的模型評估架構。
唐玲嘉最後總結:「沒有放諸四海皆準的完美方案,但我們的分析將指引產業走向更健全的評測時代。」
[end]