AI競賽:降低資料中心成本的新利器
誰將成為下一個頂尖模型?美國能源部託馬斯·傑斐遜國家加速器實驗室的資料科學家和開發人員正在探索最新的人工智慧(AI)技術,以提升高效能電腦的可靠性並降低運營成本。這些模型是人工神經網路,專門用於監控和預測科學計算叢集的行為,這些叢集每天處理海量資料。目標是幫助系統管理員快速識別並應對問題計算任務,減少科學家在處理實驗資料時的停機時間。
這些機器學習(ML)模型以類似時尚秀的方式進行評比,以確定哪個模型最適合實驗程式不斷變化的資料需求。與熱門真人秀節目《美國超級名模生死鬥》不同,這場競賽不需要一整季來選出贏家。在這裡,新的「冠軍模型」每24小時就會根據其從新資料中學習的能力而誕生。
「我們試圖理解計算叢集中從未見過的特性,」傑斐遜實驗室的科學計算運營經理布萊恩·赫斯(Bryan Hess)表示,「這是以更全面的方式看待資料中心,未來這將成為某種AI或ML模型。」
這項研究最近在《IEEE軟體》雜誌上成為焦點,該雜誌專門介紹了資料中心運營中的機器學習(MLOps)。研究結果可能對大科學產生重大影響。大型科學儀器,如粒子加速器、光源和射電望遠鏡,是能源部的關鍵設施,推動科學發現。在傑斐遜實驗室,這項設施是連續電子束加速器設施(CEBAF),全球超過1,650名核物理學家依賴於此。
實驗探測器收集來自CEBAF電子束的微小粒子訊號,這些訊號轉化為海量資料,每年收集的資料量達到數十PB。這些資料在傑斐遜實驗室的資料中心使用高效能計算叢集進行處理和分析,每個實驗都有專屬的軟體。
然而,某些計算任務或硬體問題可能導致叢集行為異常,例如記憶體碎片化或輸入/輸出過度使用,從而延誤科學家的研究。為應對這些挑戰,研究團隊開發了一種基於ML的管理系統,名為DIDACT(數字資料中心雙胞胎)。
DIDACT系統旨在透過持續學習的AI方法檢測異常並診斷其來源。在持續學習中,ML模型逐步訓練資料,類似於人類和動物的終身學習。DIDACT團隊以這種方式訓練多個模型,每個模型代表活躍計算任務的系統動態,然後根據當天的資料選出表現最佳的模型。
這些模型是無監督神經網路的變體,稱為自動編碼器。其中一個模型配備了圖神經網路(GNN),用於分析元件之間的關係。「它們使用已知資料進行競爭,以確定哪個模型的誤差更低,」傑斐遜實驗室資料科學家戴安娜·麥克斯帕登(Diana McSpadden)解釋道,「當天的贏家將成為『每日冠軍』。」
這種方法未來可能幫助減少資料中心的停機時間並最佳化關鍵資源,從而降低成本並提升科學研究效率。DIDACT團隊開發了一個名為「沙盒」的測試叢集,用於在不影響日常計算需求的情況下訓練模型。沙盒就像一個跑道,模型在這裡根據其訓練能力進行評分。
DIDACT軟體是一個開源和自定義程式碼的集合,用於開發和管理ML模型,監控沙盒叢集並輸出資料。所有資料都在圖形儀錶板上視覺化。系統包括三個ML「人才」管道:一個用於離線開發,類似於彩排;另一個用於持續學習,即實時競賽的場所。每當新的頂尖模型出現,它就會成為實時管道中叢集行為的主要監控者,直到被第二天的贏家取代。
「DIDACT代表了一種硬體和開源軟體的創意結合,」赫斯表示,「這是通常不會放在一起的組合,但我們已經證明它是可行的。它真正利用了傑斐遜實驗室資料科學和計算運營的專業知識。」
在未來的研究中,DIDACT團隊希望探索一種ML框架,以最佳化資料中心的能源使用,例如透過減少冷卻用水或根據資料處理需求調整核心執行。「目標始終是提供更高的價效比,」赫斯說,「用更少的錢做更多的科學。」