政府資料外洩危機：AI企業如何掌握社會命脈？

科技 03-07

政府效能部門（DOGE）近期取得了至少七個聯邦敏感資料庫的存取許可權，包括國稅局和社會安全域性等關鍵機構。此舉不僅引發了對網路安全漏洞和隱私侵犯的擔憂，更令人憂心的是，這些資料可能被用於訓練私人企業的人工智慧系統。

儘管白宮發言人聲稱DOGE收集的政府資料並未被用於訓練馬斯克的AI模型，但證據顯示，DOGE人員同時在馬斯克的至少一家公司任職。在聯邦航空管理局，SpaceX員工甚至擁有政府電子郵件地址。這種雙重身份為聯邦資料流向馬斯克旗下企業（包括xAI）創造了潛在管道。值得注意的是，xAI最新的Grok AI聊天機器人模型在是否使用此類資料的問題上，始終未給出明確否認。

作為一位深入研究政府資料來源的政治學家和技術專家，我認為這種政府資料流向私人企業的可能性，其對隱私和權力的影響遠超目前報導所揭示的範圍。一傢俱備開發人工智慧技術能力的私人實體，若掌握政府資料，將能大幅超越競爭對手，並對社會產生巨大影響力。

對AI開發者而言，政府資料庫堪稱「聖杯」。雖然OpenAI、Google和xAI等公司目前依賴於從公開網路抓取的資訊，但非公開的政府資料庫提供了更為珍貴的資源：跨整個人口的真實人類行為驗證記錄。這不僅是更多資料，更是本質上不同的資料。例如，Medicare記錄揭示了醫療選擇和結果，國稅局和財政部資料展示了財務決策及其長期影響，而聯邦就業和教育統計則描繪了教育路徑和職業軌跡。

這些資料對AI訓練的價值在於其長期性和可靠性。與網路上混亂的資訊不同，政府記錄遵循標準化協議，定期接受審計，並必須滿足法律要求的準確性。每一筆社會安全支付、Medicare索賠和聯邦補助都創造了一個關於現實行為的驗證資料點。這種廣度和真實性的資料在美國其他地方是無法獲得的。

最重要的是，政府資料庫追蹤的是整個人口，而不僅僅是數位活躍使用者。這包括從不使用社交媒體、不線上購物或主動避免數位服務的人群。對AI公司而言，這意味著訓練系統將基於人類經驗的實際多樣性，而不僅僅是人們線上上的數位反射。

當前AI系統面臨的根本限制，是無法透過從網路抓取的資料來克服的。當ChatGPT或Google的Gemini犯錯時，往往是因為它們接受了可能流行但不一定真實的資訊訓練。它們可以告訴你人們對政策效果的看法，但無法追蹤這些效果在人群和年份中的實際影響。

政府資料可以改變這一局面。想像一下，訓練一個AI系統不僅基於對醫療保健的意見，而是基於數百萬患者的實際治療結果。考慮從社交媒體討論中學習經濟政策與分析其在不同社羣和人口統計中數十年的實際影響之間的差異。

一個基於全面政府資料訓練的大型尖端模型，可以理解政策與結果之間的實際關係。它可以追蹤不同人口群體的意外後果，以現實世界驗證來模擬複雜的社會系統，並基於歷史證據預測擬議變化的影響。對於尋求建立下一代AI系統的公司而言，獲得這些資料將創造幾乎無法超越的優勢。

像xAI這樣的公司，若使用政府資料訓練模型，其能力將遠超建立更好的聊天機器人或內容生成器。這些系統可能從根本上改變——甚至控制——人們理解和管理複雜社會系統的方式。雖然其中一些能力在負責任的公共機構控制下可能有益，但我認為它們掌握在單一私人公司手中將構成威脅。

Medicare和Medicaid資料庫包含數十年來跨多樣人群的治療、結果和成本記錄。一個基於新政府資料訓練的尖端模型可以識別成功治療模式，從而主導醫療保健產業。這樣的模型可以理解不同幹預措施如何隨時間影響各種人群，考慮地理位址、社會經濟地位和並存狀況等因素。

掌握此模型的公司可以透過展示優越的預測能力和市場人口層面洞察力來影響醫療保健政策，向製藥公司和保險公司推銷。財政部資料可能是最有價值的獎品。政府財務資料庫包含資金如何在經濟中流動的細粒度細節。這包括跨聯邦支付系統的實時交易資料、稅收支付和退款的完整記錄、福利分發的詳細模式，以及帶有績效指標的政府承包商支付。

獲得這些資料的AI公司可以開發出非凡的經濟預測和市場預測能力。它可以模擬監管變化的連鎖效應，在經濟脆弱性成為危機之前預測它們，並以傳統方法無法實現的精確度最佳化投資策略。

政府資料庫包含有關關鍵基礎設施使用模式、維護歷史、應急響應時間和發展影響的資訊。每一筆聯邦補助、基礎設施檢查和應急響應都創造了一個資料點，可以幫助訓練AI更好地理解城市和地區的運作方式。

這種資料的潛在互聯性才是真正的力量所在。一個基於政府基礎設施記錄訓練的AI系統將理解交通模式如何影響能源使用、住房政策如何影響應急響應時間，以及基礎設施投資如何影響跨地區的經濟發展。

擁有獨家存取權的私人公司將獲得對美國社會物理和經濟動脈的獨特洞察力。這可能使公司開發出城市政府將依賴的「智慧城市」系統，實際上將城市治理的某些方面私有化。當與來自私人來源的實時資料結合時，其預測能力將遠超任何現有系統所能達到的水平。

像xAI這樣擁有馬斯克資源並透過DOGE獲得優先存取權的公司，將比競爭對手更容易克服技術和政治障礙。機器學習的最新進展也減少了為演演算法處理準備資料的負擔，使政府資料成為名副其實的金礦——一個本應屬於美國人民的金礦。

私人公司獲取政府資料的威脅超越了個人隱私問題。即使移除個人識別資訊，一個分析數百萬政府記錄模式的AI系統仍可能實現令人驚訝的能力，用於在人口層面進行預測和影響行為。真正的威脅在於AI系統利用政府資料來影響社會，包括選舉結果。

既然資訊就是力量，將前所未有的資料集中在一個具有明確政治議程的私人實體手中，將對共和國構成深遠挑戰。我認為問題在於，美國人民是否能夠抵制這種集中可能帶來的、足以摧毀民主的腐敗。如果不能，美國人應該準備好成為數位臣民，而非人類公民。