科學家利用光突破人工智慧速度障礙
一項突破性的晶片連接系統,採用光而非金屬線路,有望消除計算領域的一大瓶頸,為人工智慧(AI)發展注入強大動力。該項目獲得了美國國家科學基金會(NSF)200萬美元的資助,並得到了業界領袖的支持,旨在讓AI模型運行得更快、更高效。透過動態重新配置光學路徑,這項創新技術可能會徹底改變高性能計算,重新定義數據傳輸方式。
新的晶片連接系統或許能幫助克服「記憶體牆」問題。這一問題是計算速度的主要瓶頸,限制了AI模型的發展。與傳統依賴電線的方式不同,這項技術透過可重新配置的光學路徑傳輸數據,實現了更快、更高效的通信。
該項目由密歇根大學領導,獲得了美國國家科學基金會「半導體未來」計劃200萬美元的資助。它集合了華盛頓大學、賓夕法尼亞大學和勞倫斯伯克利國家實驗室的研究人員,並得到了谷歌、惠普企業、微軟和輝達等業界領袖的指導。
儘管如今計算能力大幅提升,處理速度比20年前快了6萬倍,但記憶體與處理器之間的數據傳輸速度卻落後許多,僅提高了30倍。這種差距形成了瓶頸,限制了AI模型的規模。自1998年以來,AI模型每兩年就會擴大400倍,因此更快的數據傳輸對於釋放AI的全部潛力至關重要。
密歇根大學電氣與計算機工程教授、該項目首席研究員狄亮表示:「我們提出的技術能夠讓高性能計算跟上快速增長的AI模型所需處理的海量數據。透過晶片間的光學連接,我們認為每秒可以傳輸數十太比特的數據,比現有的先進電氣連接快100倍以上。」
目前,數據在多個記憶體和處理器晶片之間,透過焊接在一種稱為中介層(類似主機板)的單一物理封裝上的金屬連接進行傳輸。數據可以在單個中介層內傳輸,也可以在相互連接的伺服器(稱為計算節點)上的中介層之間傳輸。
然而,金屬連接是硬連線到中介層中的,這限制了數據傳輸帶寬和信號完整性。因為更快的電信號會以熱的形式損失能量,並可能對鄰近連接產生電磁干擾。因此,將所有不同的處理器和記憶體晶片進行硬連線是不可行的。如今,單個超級計算機晶片可能包含超過90萬個核心(即單獨的處理單元),且隨著AI模型規模的擴大,這個數字還會繼續增加。
華盛頓大學電氣與計算機工程教授、該項目的共同研究員莫立表示:「所有這些處理器都需要與大量的記憶體進行通信,控制整個封裝內的通信非常重要。在我看來,光學連接將是未來唯一可行的解決方案。」
光比電子傳輸距離更遠,且能以更少的能量損失傳輸大量數據。研究人員將在他們的新型中介層設計中利用這些特性。光脈衝將透過中介層中稱為光波導的折射通道在晶片之間傳輸。每個晶片上的接收器會將數據轉換回電信號,供計算機解讀。
由於中介層中使用了一種特殊的相變材料,光波導網絡在製造過程中以及在計算機內部都可以重新配置。當受到雷射照射或施加電壓時,這種材料的折射率會發生變化,這意味著光在通過光波導時會向不同方向彎曲。
賓夕法尼亞大學材料科學與電氣及系統工程教授、該項目的共同研究員梁峰表示:「這有點像開啟和關閉道路。如果一家公司基於這項技術銷售晶片,他們可以在不改變其他元件佈局的情況下,重新編寫不同批次晶片和伺服器上的連接方式。」
研究人員還將設計流量控制軟件,監測中介層的哪些部分在任何給定時間需要通信,並進行必要的電壓切換,以即時創建理想的連接。
該項目的共同研究員、計算機科學與工程副教授瑞圖帕娜・達斯表示:「改變連接方式使我們能夠根據要運行的AI模型,或者是要訓練還是運行模型,來重新配置網絡。」
除了推動技術進步,該項目還將讓密歇根大學的學生與業界合作夥伴建立聯繫,提供寶貴的實際經驗。狄亮說:「這些聯繫讓學生能夠了解設計快速發展技術時面臨的實際挑戰。教科書無法充分涵蓋這些現代問題,因為技術發展速度太快,教科書根本跟不上。獲得相關技能的最佳方式是與業界合作,解決他們關心的問題。」