OpenAI 研究人员提出“深思熟虑的协调”:一种训练法学硕士在给出答案之前通过安全规范进行明确推理的培训方法

文摘   2025-01-04 10:45   福建  

 OpenAI研究人员提出了“深思熟虑对齐”(Deliberative Alignment)方法,旨在通过直接教授模型安全规范,使其在生成响应前能够进行相关推理。这种方法将安全原则融入推理过程中,克服了传统对齐技术的不足,能够更可靠地处理复杂场景。通过使用模型生成的数据和链式思维(CoT)推理,该方法在抵御越狱攻击、减少无效请求拒绝率以及在不熟悉的情况下更好地泛化方面表现出显著提升。

参考:

  1. https://www.biorxiv.org/content/10.1101/2024.12.19.629443v1



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章