當前位置:
首頁 > 科技 > AI能力新指標:以人類標準衡量AI系統的表現

AI能力新指標:以人類標準衡量AI系統的表現

由新創公司METR的AI研究團隊提出了一項全新的指標,旨在以人類能力為基準來量化AI系統的表現。這項名為「任務完成時間範圍」(Task-Completion Time Horizon, TCTH)的指標,已發表於arXiv預印本伺服器上。研究團隊指出,儘管像GPT-2這樣的大型語言模型(LLMs)在每次迭代中都能產生更可靠的結果,但現有的描述方式仍無法全面反映系統的能力。因此,他們開發了這項跨領域適用的指標,例如在撰寫電腦程式或生成任務執行步驟方面,都能有效量化AI的能力。

TCTH的核心概念是透過與人類的表現進行對比來量化任務。舉例來說,早期版本的LLMs在完成某些任務時完全失敗,而人類專家僅需一分鐘即可完成。相比之下,最新版本的Claude 3.7 Sonnet能夠完成50%的任務,而這些任務平均需要人類花費59分鐘。這顯示出AI系統在處理複雜任務方面的顯著進步。

研究資料進一步指出,過去六年中,通用型自主前沿模型代理在完成任務時的可靠性(以50%成功率為基準)每七個月翻倍一次。這些任務的長度是根據專業人士完成所需的時間來衡量的。這項發現表明,AI模型在處理長時間任務(如程式設計、網路安全任務、一般推理任務和機器學習)方面的能力正在快速提升。這種進步意味著,AI未來可能被用於執行更重大的任務,例如化學發現甚至整個工程專案。

研究團隊建議,新的指標可以透過設定一系列任務並記錄人類完成所需的時間,來開發出衡量AI模型表現的基準。他們認為,這樣的基準應基於50%的成功率,因為在資料分佈分析中,這一標準已被證明是最穩健的。這項研究不僅為AI能力的量化提供了新方法,也為未來AI在各領域的應用奠定了基礎。