亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

智快網 - 新科技與新能源行業網絡媒體

醫學AI模型易“中毒”?0.001%錯誤信息足以影響準確性

   發布時間:2025-01-14 17:58 作者:柳晴雪

紐約大學近期公布的一項研究,揭示了大型語言模型(LLM)在接收醫學領域訓練數據時面臨的潛在風險。研究顯示,即便訓練數據中僅混入極少量(0.001%)的錯誤信息,也可能導致LLM輸出不準確的醫學答案,這一發現引起了廣泛關注。

研究團隊還深入探究了錯誤信息的最低影響閾值。以疫苗錯誤信息為例,當錯誤信息僅占訓練數據的0.01%時,模型生成的答案中超過10%包含錯誤信息;即便錯誤信息比例降至0.001%,仍有超過7%的答案是有害的。研究指出,對于擁有700億參數的LLaMA 2模型,進行類似的攻擊僅需生成4萬篇文章(成本不到100美元)。這些“文章”可以是普通的網頁,錯誤信息可以隱藏在網頁的不可見區域,或者通過隱藏文本(如黑色背景上的黑色文字)來實現。

研究同時指出,現有的錯誤信息問題同樣嚴峻。許多非專業人士傾向于從通用的LLM中獲取醫學信息,而這些模型往往基于整個互聯網進行訓練,其中包含大量未經核實的錯誤信息。為了應對這一問題,研究人員設計了一種算法,能夠識別LLM輸出中的醫學術語,并與經過驗證的生物醫學知識圖譜進行比對,從而標記出無法驗證的短語。盡管這種方法未能捕捉到所有醫學錯誤信息,但成功標記了其中的大部分。

然而,即便是最優質的醫學數據庫(如PubMed)也未能幸免于錯誤信息的問題。醫學研究文獻中充斥著未能驗證的理論和已被淘汰的治療方法。研究進一步表明,即便依賴最優質的醫學數據庫進行訓練,也無法確保LLM完全免受錯誤信息的影響。醫學領域的復雜性和多樣性使得構建一個始終可靠的醫學LLM變得異常艱難。

研究還強調了錯誤信息在LLM訓練中的隱蔽性和持久性。一旦錯誤信息被模型學習并固化,就很難通過后續的更新或修正來完全消除。這要求我們在構建和訓練LLM時,必須更加謹慎地選擇和審核訓練數據,以確保模型的準確性和可靠性。

總之,紐約大學的這項研究為我們敲響了警鐘,提醒我們在利用LLM進行醫學信息傳播和決策支持時,必須保持高度的警惕和審慎。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數碼群