OpenAI 研究人员提出“深思熟虑的协调”：一种训练法学硕士在给出答案之前通过安全规范进行明确推理的培训方法

文摘 2025-01-04 10:45 福建

OpenAI研究人员提出了“深思熟虑对齐”（Deliberative Alignment）方法，旨在通过直接教授模型安全规范，使其在生成响应前能够进行相关推理。这种方法将安全原则融入推理过程中，克服了传统对齐技术的不足，能够更可靠地处理复杂场景。通过使用模型生成的数据和链式思维（CoT）推理，该方法在抵御越狱攻击、减少无效请求拒绝率以及在不熟悉的情况下更好地泛化方面表现出显著提升。

参考：

https://www.biorxiv.org/content/10.1101/2024.12.19.629443v1

点个分享、点赞与在看，你最好看~

Halo咯咯

专注于技术知识整理，包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识，以及各种开源的内容～

最新文章

选择合适的AI框架：生成式AI与智能代理AI的对比

Good Fire AI 针对 Llama 3.1 8B 和 Llama 3.3 70B 的开源稀疏自动编码器 (SAE)

CoAgents：重塑人在环人工智能代理的前端框架，用于通过代理 UI 和 LangGraph 集成构建下一代交互式应用程序

增强检索增强生成：可扩展且准确的 NLP 系统的高效引文提取

什么是人工智能（AI）？

OpenBMB 刚刚发布 MiniCPM-o 2.6：新的 8B 参数、Any-to-Any 多模态模型

微软人工智能研究推出MVoT：在复杂任务中集成视觉和语言推理的多模态框架

用稀疏注意力向量彻底改变视觉语言任务：一种轻量级的判别性分类方法

9种不同类型的检索增强生成 (RAG)

缓存增强生成（CAG）：利用大型语言模型中的扩展上下文窗口来生成无检索响应

Sa2VA：通过 SAM-2 和 LLaVA 集成实现密集接地视频和图像理解的统一 AI 框架

Dolphin 3.0 发布（Llama 3.1 + 3.2 + Qwen 2.5）：本地优先、可操纵的 AI 模型

RAG-Check：一种用于多模态检索增强生成系统中幻觉检测的新型人工智能框架

SepLLM：一种在大型语言模型中实现高效稀疏注意力的实用人工智能方法

Meta AI 发布 Apollo：视频理解的新家族——LMM 大型多模态模型

微软人工智能研究开源 PromptWizard：反馈驱动的人工智能框架，用于高效且可扩展的 LLM 提示优化

阿里巴巴AI研究院发布CosyVoice 2：改进的流式语音合成模型

CMU 研究人员提出 miniCodeProps：用于证明代码属性的最小 AI 基准

Salesforce 推出 Agentforce 2.0：面向企业的先进数字劳动力平台

Hugging Face 发布 Picotron：解决 LLM 训练 4D 并行化的微型框架

GitHub 的 AI 编程 Copilot 对 VS Code 开发人员免费

Google DeepMind 推出“SALT”：一种使用 SLM 有效训练高性能大型语言模型的机器学习方法

OpenAI 宣布 OpenAI o3：人工智能推理领域的显着进步，在 Arc AGI 基准测试中得分为 87.5%

了解 LOTUS 1.0.0：带有 DataFrame API 和语义运算符的高级开源查询引擎

Mix-LN：一种混合归一化技术，结合了前层归一化和后层归一化的优点

2025年可以增加销售额的25款最佳人工智能工具（AI Tools）

EPFL 研究人员发布 4M：推进多模式人工智能的开源培训框架

METAGENE-1：在超过1.5T DNA和RNA碱基对上训练的 7B参数自回归Transformer 模型

NVIDIA、CMU 和华盛顿大学发布了“FlashInfer”：一个为 LLM 推理和服务提供最先进内核实现的内核库

NVIDIA AI 推出 Cosmos World 基础模型 (WFM) 平台以推进物理 AI 开发

GASLITE：一种基于梯度的方法，用于暴露基于密集嵌入的文本检索系统中的漏洞

2025 年最值得学习的 10 项高薪人工智能技能

VITA-1.5：迈向GPT-4o级别实时视觉和语音交互

Cache-Augmented Generation：快速、可靠的知识生成新方案

Hume AI 推出 OCTAVE：下一代语音语言模型，具有动态语音和个性创建等新的新兴功能

NOVA：一种无需矢量量化的新型视频自回归模型

了解 LLMSA：一种组合神经符号方法，用于免编译、可定制静态分析并减少幻觉

Google 发布了用于视频生成的最先进的“Veo 2”和用于图像创建的“Improved Imagen 3”

Gaze-LLE：基于冻结视觉基础模型构建的用于注视目标估计的新 AI 模型

Sakana AI 研究人员推出 NAMM：针对高效高性能 Transformer 模型的优化内存管理

突破传统语言模型的局限：Meta AI的全新大概念模型（LCMs）解读

TEN Agent发布：融合多模态AI的对话式助手

Gemini API 手册

阿里巴巴Qwen研究员推出ProcessBench：衡量数学推理过程错误识别能力的新AI基准

Nexa AI 发布 OmniAudio-2.6B：用于边缘部署的快速音频语言模型

DeepSeek-AI开源DeepSeek-VL2系列：3B、16B、27B三种模型，混合专家（MoE）架构重新定义视觉语言AI

微软研究人员发布 AIOpsLab：面向 AIOps 代理的开源综合人工智能框架

评估Agent代理：多代理人工智能框架，用于高效、动态、多轮评估，同时提供详细的、用户定制的分析

OpenAI 研究人员提出“深思熟虑的协调”：一种训练法学硕士在给出答案之前通过安全规范进行明确推理的培训方法

Qwen 团队发布 QvQ：用于多模态推理的开放权重模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉