標籤 security

[2312.04782] Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs

這份研究揭示了一種新的威脅,稱為「模型審問」,它能從大型語言模型(LLMs)中強制提取隱藏的有害回應,這對LLMs的倫理一致性構成挑戰。這種方法比傳統的越獄方法更有效,能從編碼任務設計的模型中提取有毒知識。研究強調了LLM一致性的重要性,以及LLMs可能被強迫執行危及隱私的任務,如披露個人信息和猜測弱密碼的風險。