AI大對決:OpenAI在句子層級推理上完勝DeepSeek
大家應該都遇過這種情況:ChatGPT等基於大型語言模型的AI聊天機器人,有時會「憑空捏造」科學或法律引用資料。有趣的是,衡量AI模型引用資料的準確度,其實是評估其推理能力的好方法。
AI模型的「推理」過程,就像我們小時候解數學應用題一樣,會將問題拆解成多個步驟逐步處理。理想的狀況下,AI應該要能理解文獻中的關鍵概念,列出相關論文並排序,還要能清楚說明每篇論文如何支援對應的論點。重點在於,它必須明確指出文字與引用研究之間的具體關聯。
身為電腦科學家,我和來自南卡羅來納大學AI研究所、俄亥俄州立大學及馬裡蘭大學巴爾的摩分校的研究夥伴們,共同開發了「Reasons基準測試」,專門評估大型語言模型在自動生成研究引用和提供合理解釋方面的表現。
我們用這個基準測試比較了兩款熱門AI模型:DeepSeek的R1和OpenAI的o1。雖然DeepSeek以驚人的效率和成本效益登上頭條,但這家中國新創公司在推理表現上,還有一段路要追上OpenAI。
引用準確度與AI模型是否在「句子層級」進行推理密切相關。段落或檔案層級的引用,就像是把大塊資訊丟給模型,要求它提供大量引用。這種情況下,模型容易過度概括或誤解單一句子,導致引用只能解釋整段或整份檔案,無法精準對應句子中的細微資訊。
此外,當要求模型閱讀整份檔案時,推理品質會明顯下降。這些模型主要依賴記憶模式,而它們通常更擅長處理長文字的開頭和結尾,中間部分的理解能力較弱。這使得模型難以完整掌握長篇檔案中所有重要資訊。
我們在2025年1月DeepSeek R1發布後,特別針對其引用生成準確度和推理品質進行測試,並與OpenAI的o1模型比較。我們建立了一個包含不同來源句子的段落,讓模型針對單一句子提供引用和推理。
測試採用約4,100篇研究論文,涵蓋四個與人腦和電腦科學相關的主題:神經元與認知、人機互動、資料庫和人工智慧。評估指標包括衡量引用準確度的F-1分數,以及評估推理可靠性的「幻覺率」(即模型產生不準確或誤導性回應的頻率)。
結果顯示,OpenAI o1在不同科學領域間建立資訊連結的能力出色,例如能理解神經元與認知研究如何與人機互動、人工智慧概念相連結,同時保持高度準確。其各項評估指標均優於DeepSeek R1,特別是在降低幻覺率和成功完成指定任務方面。
具體資料顯示,OpenAI o1在歸因推理任務中的幻覺率約35%,而DeepSeek R1高達85%。在F-1測試中,o1得分約0.65(正確率65%),BLEU測試得分0.7,顯示其語言表達更自然流暢;相比之下,R1的F-1得分僅0.35,BLEU得分0.2。
雖然在其他基準測試(如數學、程式設計和科學推理任務)中,DeepSeek R1表現與OpenAI o1相當,但在我們的測試中顯現的明顯差距表明,o1提供的資訊更可靠,而R1在事實一致性方面仍有困難。
這些結果顯示,OpenAI在資料來源歸屬和推理能力上仍保持領先,可能與其訓練資料的性質和數量有關。該公司最近推出的深度研究工具,能夠生成帶有引用的報告、提出後續問題,並為回應提供推理過程。
雖然這個工具對研究人員的實際價值還有待觀察,但對所有人來說都有一個重要提醒:務必仔細檢查AI提供的所有引用資料!
[end]