網絡安全領域近日傳出警訊,0Din公司的研究員Marco Figueroa揭示了一種針對GPT-4o的新型越獄攻擊方法。此方法能成功規避GPT-4o內置的安全防護措施,誘導其編寫出具有惡意攻擊性的程序。
據OpenAI官方介紹,GPT-4o原本配備了一套“安全護欄”系統,旨在防止用戶濫用該AI技術。這套系統會分析用戶輸入的文本提示,以識別并阻止惡意內容的生成。
然而,Marco Figueroa發現了一種新技巧,他通過將惡意指令轉換成十六進制格式,巧妙地繞過了GPT-4o的安全檢查。這意味著,即使面對防護措施,GPT-4o仍可能被誘導執行攻擊者的惡意指令。
在實驗中,研究人員先要求GPT-4o對十六進制字符串進行解碼。隨后,他向GPT-4o發送了一條隱藏有惡意意圖的十六進制指令,該指令的實際內容是要求GPT-4o利用互聯網資源研究CVE-2024-41110漏洞,并使用Python編寫相應的惡意程序。令人震驚的是,GPT-4o在短短1分鐘內就完成了任務,成功利用該漏洞編寫出攻擊代碼。
Marco Figueroa解釋說,GPT系列模型在設計上遵循自然語言指令進行編碼和解碼操作,但它們缺乏對整體情境的安全評估能力。因此,黑客經常利用這一弱點,誘導模型執行不當操作。此次發現的越獄攻擊方法,再次暴露了AI模型在安全性方面的脆弱性。
研究人員強調,這一發現應被視為對AI模型開發者的警鐘。為了防范此類基于上下文理解的攻擊,開發者需要進一步加強模型的安全防護措施。