OpenAI研究人员提出了“深思熟虑对齐”(Deliberative Alignment)方法,旨在通过直接教授模型安全规范,使其在生成响应前能够进行相关推理。这种方法将安全原则融入推理过程中,克服了传统对齐技术的不足,能够更可靠地处理复杂场景。通过使用模型生成的数据和链式思维(CoT)推理,该方法在抵御越狱攻击、减少无效请求拒绝率以及在不熟悉的情况下更好地泛化方面表现出显著提升。
参考:
https://www.biorxiv.org/content/10.1101/2024.12.19.629443v1
点个分享、点赞与在看,你最好看~