當前位置:
首頁 > 生物 > 醫療AI工具蓬勃發展,但測試方法真的夠完善嗎?

醫療AI工具蓬勃發展,但測試方法真的夠完善嗎?

隨著人工智慧技術的快速進步,醫療領域的AI應用正逐漸滲透到各個層面。從乳癌篩檢、臨床筆記、健保管理,到虛擬護理師和醫病對話轉錄,AI工具被寄予厚望,期待能提升醫療效率並減輕醫護人員的負擔。然而,專家們對於這些工具是否真如廠商宣稱的那般有效,提出了質疑。

目前,醫療AI的效能評估主要依賴於問答測試,而非實際醫療任務的評估。以大型語言模型(LLM)為例,這些模型雖然經過大量文字資料訓練,能夠生成類人的文字,但其在醫療領域的公開評估卻多基於醫學生考試(如MCAT)。事實上,一項針對醫療AI模型(特別是LLM)的研究回顧發現,僅有5%的研究使用了真實病患資料。大多數研究僅評估了LLM的醫學知識,而極少數研究測試了LLM開立處方、總結對話或與病患交談的能力——這些才是LLM在現實世界中真正需要執行的任務。

電腦科學家Deborah Raji及其同事在《新英格蘭醫學雜誌AI》中指出,現有的基準測試存在誤導性。這些測試無法衡量實際的臨床能力,未能充分考慮現實案例中所需的細膩決策,且缺乏靈活性,無法評估不同型別的臨床任務。此外,由於測試基於醫師的知識,它們並未充分代表護理人員或其他醫療工作者的資訊。

Raji表示,許多人對這些系統的期望和樂觀情緒,都建立在這些醫學考試基準上。然而,這種樂觀正轉化為實際部署,人們試圖將這些系統整合到現實世界中,並應用於真實病患。她與同事主張,我們需要開發新的評估方法,以衡量LLM在應對複雜且多樣的臨床任務時的表現。

在與《科學新聞》的訪談中,Raji談到了當前醫療AI測試的現狀、存在的問題以及改進評估的解決方案。她強調,現有的基準測試並不能反映人們期望的應用型別,因此整個領域不應過度依賴這些測試。她建議,應採訪領域專家,瞭解實際的工作流程,並收集與模型互動的自然資料集,以觀察人們輸入的不同查詢和輸出結果。此外,Raji還提到,可以從醫院獲取實際使用資料,並參考其他學科(如心理學)的評估方法,以確保評估基於現實觀察。

Raji呼籲研究人員投入更多精力,構建更貼近實際部署期望的評估方法。她建議,醫院應公開其使用的AI產品清單,並分享整合這些系統的工作流程,這將有助於設計更好的評估方法。同時,廠商也應分享其當前的評估實踐和基準測試,以便我們找出與更現實、更貼近實際的評估之間的差距。

最後,Raji提醒,作為一個領域,我們應該更加深思熟慮地選擇評估方法,並避免過度依賴那些容易獲取的醫學考試資料。她挑戰整個領域,應更加關注如何構建有效的評估,以真實反映我們對這些模型在部署後的期望。