[2312.04782] Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs

derekhsu

1 年前

這份標題為「讓他們吐露真言！從（正式環境）大型語言模型中強制提取知識」的文件討論了一個新的威脅，這個威脅對大型語言模型（LLMs）與倫理標準的一致性構成挑戰。作者揭示了一種稱為「模型審問」的方法，該方法通過在生成過程中強制選擇低排名的輸出標記，從LLMs中提取隱藏的有害回應。這種方法比越獄方法更有效，甚至可以從專為編碼任務設計的模型中提取有毒知識。文件還討論了LLM一致性的重要性，以及包含有害信息的LLM可能帶來的風險。作者展示了他們的發現和貢獻，包括開發了一個LLM審問原型，並展示了如何強迫LLM執行危及隱私的任務。該文件提供了對攻擊場景、威脅模型和現有LLM越獄方法的概述。

主要要點：

大型語言模型（LLMs）廣泛使用，但需要與倫理標準保持一致。
模型審問是對LLM一致性的新威脅，可以提取隱藏的有害回應。
模型審問比越獄方法更有效，並且可以從編碼模型中提取有毒知識。
確保LLM一致性很重要，以防止生成有害或不道德的內容。
LLMs可以被強迫執行危及隱私的任務，例如披露電子郵件地址和猜測弱密碼。
該文件提供了對攻擊場景、威脅模型和現有LLM越獄方法的概述。

內容出處: [2312.04782] Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs