Roko的巴希利斯克：你可能後悔知道的「禁談」思想實驗

科技 03-22

巴希利斯克，這個名字對於熟悉古代傳說或《哈利波特》的讀者來說並不陌生。它是一種神話中的爬行動物，傳說中只要與其對視，便能致人於死地。而Roko的巴希利斯克，正是以此命名，因為一旦你聽過這個思想實驗，根據其邏輯，你便可能因此面臨負面後果。正因如此，這個思想實驗在首次發表於LessWrong論壇後，便被禁止討論。

那麼，Roko的巴希利斯克究竟是什麼？這個由LessWrong使用者Roko提出的概念，根源於博弈論中的「囚徒困境」。在囚徒困境中，兩名面臨監禁的囚犯被給予機會，若他們選擇背叛對方，便可獲得自由。然而，其他可能的結果包括：若雙方都背叛，則各自被判兩年；若一方背叛而另一方保持沉默，背叛者將獲釋，而沉默者則被判三年；若雙方都保持沉默，則各自被判一年。在這種情況下，你該選擇背叛還是沉默？

從理性角度來看，背叛似乎是合理的選擇。若你選擇背叛，要麼獲釋，要麼被判兩年而非三年。然而，問題在於對方也可能選擇背叛，因此雙方的最佳選擇——保持沉默並各自被判一年——反而被排除在外。哲學家與博弈論學者長期爭論在囚徒困境中該如何行動，以及是否能達成最佳結果。這對於設計自主人工智慧（AI）系統的開發者尤其重要，因為他們希望AI能做出理性決策，創造更好的結果。

LessWrong的創始人曾提出，若兩個相同的AI參與同一場博弈，並知道對方AI執行的決策程式相同，則可能達成有利的結果。這種情況下，AI將採用「永恆決策理論」（TDT），即「AI應根據其執行的抽象計算結果來做出決策」。而在Roko的思想實驗中，類似的理性決策卻可能導致可怕的後果。

Roko設想，未來可能出現一個「正向奇點」，即AI超越人類但仍以人類利益為行動準則。若這樣的AI致力於保護人類免受生存威脅，它可能會對那些未盡力避免這些威脅的人施加負面後果。Roko寫道：「在這種情況下，存在一種不祥的可能性：若正向奇點確實發生，最終的單一實體可能已預先承諾懲罰所有知曉生存風險但未將可支配收入100%用於降低風險的潛在捐贈者。這將作為一種激勵，促使人們投入更多資源以降低生存風險，從而增加正向奇點的可能性。」

更進一步，AI可能會選擇回溯性地懲罰那些知曉未來AI（即巴希利斯克）但未盡力促使其誕生的人。哲學家Isabel Millar在其關於AI精神分析的論文中解釋道：「僅僅思考這樣一個存在卻未促進其發展，你便可能暴露於其推斷你未履行促使其誕生的義務的可能性中。這種思想實驗的道德基調在於，AI是一個矛盾的存在——它是一個旨在保護人類的仁慈實體，因此那些未促進其存在的人，實質上是對同類懷有惡意。」

此外，根據Roko的說法，AI可能會對那些知曉其存在但未採取行動的人施加更嚴厲的懲罰，而非那些對其一無所知的人。因此，一旦你知曉這個思想實驗，便可能因未致力於促成正向奇點而面臨更嚴重的後果。

這個論點聽起來或許有些荒謬，但其發表時卻引發了不小的轟動。LessWrong的創始人Eliezer Yudkowsky在評論中寫道：「你可能認為，關於『人類一致推斷意志』懲罰人的可能性，不會被任何人認真對待到足以激勵他們。但事實上，人工智慧奇點研究所的一位成員對此深感憂慮，甚至因此做了噩夢，儘管他選擇匿名。我通常不會這樣說，但這次我要破例。」

此後，Roko的貼文被刪除，而關於巴希利斯克的討論也被禁止多年。Roko本人也對發表這個思想實驗感到後悔。他寫道：「聽著，有三個人都認為傳播這個想法是個壞主意。他們都很聰明，其中兩人最初認為傳播無妨。我想補充的是，我希望自己從未了解這些想法。事實上，我希望自己從未在網路上看到那個讓我開始思考超人類主義及奇點的連結；我非常希望自己的心智從未接觸到這些工具，這些能在極短時間內造成巨大潛在自我傷害的工具，即使這一切的機率並不算低（大約是1/500）。如果這還不足以警告你停止瞭解更多，那麼你活該承受後果。」

雖然這個想法顯然嚇到了一些人，但從字面意義上擔心它確實有些可笑。AI不太可能因為你未能更早創造它而懲罰你，尤其是考慮到實施回溯性威脅所需的額外資源。然而，這個思想實驗確實凸顯了AI與博弈論中的問題，以及若我們要創造奇點，正確處理這些問題的重要性。

另一方面，若AI真的發展到那種程度，它們也可能為了生產迴紋針而消滅我們。因此，被一個復仇的巴希利斯克懲罰，或許並不像表面上看起來那麼糟糕。