Google AI 幾何解題能力超越國際奧數金牌得主
Google 的第二代人工智慧數學系統,結合了語言模型與符號引擎,成功在解決複雜幾何問題上超越國際數學奧林匹克(IMO)的金牌得主。這套名為「AlphaGeometry2」(AG2)的系統,能夠解決 IMO 中 84% 的幾何問題,而 IMO 金牌得主的平均解題率僅為 81.8%。
由 Google DeepMind 開發的 AG2,不僅能進行模式匹配,還具備創意解題能力。研究團隊於 2 月 7 日將相關成果上傳至預印本資料庫 arXiv。這項突破性的技術,展現了 AI 在數學領域的潛力,尤其是在需要視覺推理與邏輯結合的幾何問題上。
Google 的這項宣佈,緊接在微軟發布其先進 AI 數學推理系統 rStar-Math 的一個月後。兩家公司都致力於在 AI 數學領域取得領先地位,因為科學家認為,具備高數學解題能力的系統,可能足以模擬其他形式的人類推理。AG2 與微軟的 rStar-Math 不同之處在於,前者專注於使用混合推理模型解決高階問題,而後者則使用小型語言模型處理更廣泛的問題。
Google 於 2024 年 1 月發布了 AlphaGeometry 的初代版本,而最新版本的效能比前代提升了 30%。AG2 的改進重點在於幾何學的掌握,這與微積分和代數不同,需要結合視覺推理與邏輯來解決複雜問題。
然而,專家們提醒,不應將這一里程碑視為實現人工通用智慧(AGI)的標誌。AGI 指的是 AI 在多個學科上比人類更聰明,而不僅僅是在單一領域超越人類。AI 公司 SER Group 的執行長 John Bates 博士表示:「AlphaGeometry2 代表了一種智慧形式,但人類智慧遠不止於此——我們發明,而不僅僅是應用知識或創造思考的假象。」
DeepMind 的突破在於成功結合了神經語言模型與符號引擎(一種基於邏輯的系統,使用符號和引數來解決問題)。語言模型提出幾何構造,而符號引擎則進行測試。這種搭配使系統能夠將人類在幾何問題中看到的日常語言轉換為符號引擎能夠理解和測試的「輔助構造」。
如果之前的構造無效,系統會協同工作提出新的構造。這種解決方案的搜尋是並行進行的,系統兩側之間傳遞資訊,直到找到解決方案。AG2 之所以比初代版本更優秀,是因為其神經語言模型在更大且更多樣化的資料集上進行了訓練,同時配備了更快的符號引擎,能夠驗證更多的幾何構造。此外,系統還擁有獨特的演算法來搜尋和找到幾何證明。
DeepMind 的研究人員指出,AG2 的缺點在於處理時間較長,且無法處理最具挑戰性的 IMO 幾何問題,如 3D 幾何、非線性方程、或涉及變動點(在幾何問題中位置變化的點)和/或無限點(具有無限序列點且無限多解的問題)的問題。此外,系統無法以人類能理解的語言解釋其解決方案。
DeepMind 對 AG2 系統的願景仍集中在提升數學推理能力上。然而,科學家們表示,這一領域的改進可應用於多個學科,包括工程設計、自動化系統驗證、機器人技術、藥物研究和基因組研究。研究團隊計劃讓 AG2 實現幾何問題解決的全自動化,並希望未來版本能夠支援更多幾何概念,將問題分解為子群組,同時加快推理過程並提高系統可靠性。