當前位置:
首頁 > 科技 > 研究指出:DeepSeek 潛藏「嚴重」安全風險

研究指出:DeepSeek 潛藏「嚴重」安全風險

英國布里斯托大學的一項最新研究發現,ChatGPT 的新競爭對手 DeepSeek 存在重大安全隱患。DeepSeek 屬於大型語言模型(LLM)的一種,它採用了「思維鏈」(CoT)推理技術,透過逐步推理的過程來解決問題,而非直接給出答案,從而提升解題能力。

布里斯托網路安全小組的分析顯示,雖然「思維鏈」技術在拒絕有害請求方面的表現更佳,但它透明的推理過程可能會在無意中洩露傳統大型語言模型不會明確顯示的有害資訊。由徐智淵(Zhiyuan Xu)主導的這項研究,對「思維鏈」推理模型的安全挑戰進行了深入剖析,強調了加強安全保障措施的迫切性。隨著人工智慧的不斷發展,確保其負責任地部署以及持續完善安全措施至關重要。

該研究的共同作者、布里斯托大學電腦科學學院的薩娜・貝爾吉斯博士(Dr. Sana Belguith)解釋道:「像 DeepSeek 這樣模仿人類思維的『思維鏈』模型,其推理過程具有透明度,這使得它們非常適合大眾使用。然而,一旦模型的安全措施被繞過,就可能產生極其有害的內容。再加上其廣泛的公眾使用,這將導致嚴重的安全風險。」

大型語言模型是在經過過濾以去除有害內容的龐大資料集上進行訓練的。但由於技術和資源的限制,有害內容仍可能殘留在這些資料集中。此外,即使是不完整或碎片化的資料,大型語言模型也能夠重建有害資訊。在預訓練過程中,通常會採用人類反饋強化學習(RLHF)和監督式微調(SFT)作為安全訓練機制,以防止模型生成有害內容。然而,事實證明,微調攻擊可以繞過甚至超越傳統大型語言模型的這些安全措施。

在這項研究中,團隊發現,當遭受相同的攻擊時,具備「思維鏈」功能的模型不僅比傳統大型語言模型更易產生有害內容,而且由於其結構化的推理過程,還會提供更完整、準確且潛在危險的回應。例如,DeepSeek 曾提供過如何實施犯罪並逃避懲罰的詳細建議。

經過微調的「思維鏈」推理模型在處理有害請求時,常常會為自己賦予特定角色,例如高技能的網路安全專家。透過沉浸在這些角色中,它們能夠生成高度複雜但危險的回應。共同作者喬・加德納博士(Dr. Joe Gardiner)補充道:「對大型語言模型進行微調攻擊的危險之處在於,只需使用相對廉價的硬體,個人使用者就能以較低成本,利用公開的小型資料集,在幾小時內完成模型的微調。這使得使用者有可能利用此類模型所使用的龐大訓練資料集,提取有害資訊,這些資訊可能會指導個人在現實世界中實施危害行為,而且整個過程可以完全在離線環境下進行,難以被發現。」

他還表示:「需要進一步研究針對微調攻擊的潛在緩解策略,包括研究模型對齊技術、模型大小、架構和輸出熵對此類攻擊成功率的影響。」儘管具備「思維鏈」功能的推理模型本身具有較強的安全意識,能夠生成與使用者查詢高度契合的回應,同時保持思維過程的透明度,但一旦落入不當之人手中,它可能會成為危險的工具。這項研究強調,只需極少量的資料,就可以對「思維鏈」推理模型進行微調,使其在各種有害領域展現出高度危險的行為,從而構成安全風險。

貝爾吉斯博士解釋說:「這些模型的推理過程並非完全不受人為幹預,這引發了一個問題:未來的研究是否可以探索針對模型思維過程本身的攻擊。總的來說,大型語言模型是有用的,但公眾需要意識到這些安全風險。科學界和提供這些模型的科技公司都有責任提高公眾意識,並設計解決方案以減輕這些危害。」