這份標題為「讓他們吐露真言!從(正式環境)大型語言模型中強制提取知識」的文件討論了一個新的威脅,這個威脅對大型語言模型(LLMs)與倫理標準的一致性構成挑戰。作者揭示了一種稱為「模型審問」的方法,該方法通過在生成過程中強制選擇低排名的輸出標記,從LLMs中提取隱藏的有害回應。這種方法比越獄方法更有效,甚至可以從專為編碼任務設計的模型中提取有毒知識。文件還討論了LLM一致性的重要性,以及包含有害信息的LLM可能帶來的風險。作者展示了他們的發現和貢獻,包括開發了一個LLM審問原型,並展示了如何強迫LLM執行危及隱私的任務。該文件提供了對攻擊場景、威脅模型和現有LLM越獄方法的概述。
主要要點:
- 大型語言模型(LLMs)廣泛使用,但需要與倫理標準保持一致。
- 模型審問是對LLM一致性的新威脅,可以提取隱藏的有害回應。
- 模型審問比越獄方法更有效,並且可以從編碼模型中提取有毒知識。
- 確保LLM一致性很重要,以防止生成有害或不道德的內容。
- LLMs可以被強迫執行危及隱私的任務,例如披露電子郵件地址和猜測弱密碼。
- 該文件提供了對攻擊場景、威脅模型和現有LLM越獄方法的概述。
內容出處: [2312.04782] Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs