最新开源：DeepSeek发布Janus，统一多模态理解！复旦、百度联手打造全新AI模型Hallo2！

文摘 2024-10-21 20:13 广东

DeepSeek 推出统一多模态理解、生成自回归框架 Janus

机构：DeepSeek、香港大学、北京大学
论文链接：https://arxiv.org/pdf/2410.13848
代码链接：https://github.com/deepseek-ai/Janus

来自 DeepSeek 和香港大学的研究团队提出了 Janus，一个统一多模态理解和生成的自回归框架。

之前的研究通常依赖单一的视觉编码器来完成这两项任务，如 Chameleon。然而，由于多模态理解和生成所需的信息粒度不同，这种方法可能导致性能不理想，尤其是在多模态理解方面。

为了解决这个问题，研究团队将视觉编码解耦为不同的路径，同时仍然利用单一的、统一的 Transformer 架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突，还增强了框架的灵活性。例如，多模态理解和生成组件可以独立选择最合适的编码方法。

实验表明，Janus 超越了以往的统一模型，并达到或超过了特定任务模型的性能。Janus 的简单性、高度灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

复旦百度南大开源Hallo2，可生成4K超高清+1小时超长视频！

机构：复旦大学、百度、南京大学
论文地址：https://arxiv.org/pdf/2410.07718
项目地址：https://fudan-generative-vision.github.io/hallo2

近日，复旦大学和百度联合开发了一款名为 Hallo2 的全新 AI 模型，该模型可以生成长达数小时的 4K 分辨率人物动画，现已在 GitHub 发布开源。

Hallo2 模型建立在 latent diffusion models 的基础上，相比上一代 Hallo 模型的效果更好，支持了长视频生成，通过引入数据增强方法如 patch-drop 和高斯噪声，有效提高了长时间视频的视觉一致性和时间连贯性。

Hallo2 模型建立在 latent diffusion models 的基础上，并引入了一系列创新性的技术，包括：

Patch-drop 数据增强技术：通过对运动帧进行随机遮挡，防止模型过度依赖前序帧的画面信息，从而保证生成的人物动画在长时间序列中保持稳定的外观。
高斯噪声增强技术：通过向运动帧中添加高斯噪声，增强模型对画面噪声和运动失真的鲁棒性，进一步提升动画的质量和连贯性。
VQGAN 离散码本预测技术：将 VQGAN 模型扩展到时间维度，并结合时间对齐技术，实现高分辨率视频的生成，并确保画面细节在时间上的连贯性。
文本提示控制机制：通过引入自适应层归一化机制，使模型能够根据文本提示精准地控制人物的表情和动作，使动画更具表现力和可控性。

Hallo2 的主要应用场景

电影和视频制作：可用于生成或增强角色面部表情和口型，适用于科幻和动画电影。
虚拟助手和数字人：在客服、教育、娱乐等领域，Hallo2 能创建逼真的虚拟助手或数字人，提升用户体验。

Hallo2 模型的强大性能已经在多个公开数据集上得到了验证，包括 HDTF、CelebV 以及研究人员自己创建的“Wild”数据集。实验结果表明，Hallo2 在生成高质量、长序列人物动画方面超越了现有的所有方法。

OpenAI o1 模型推理模式的比较研究

机构：M-A-P、中国科学院大学、Abaka AI、浙江大学
论文链接：https://arxiv.org/abs/2410.13639
项目地址：https://github.com/Open-Source-O1/o1_Reasoning_Patterns_Study

使大语言模型（LLM）能够处理更广泛的复杂任务（如编码、数学等）、编码、数学）引起了许多研究人员的极大关注。随着 LLM 的不断发展，仅仅增加模型参数的数量所带来的性能提升越来越小，计算成本也越来越高。

最近，OpenAI 的 o1 模型表明，推理策略（即 Test-time 计算方法）也能显著增强 LLM 的推理能力。然而，这些方法背后的机制仍有待探索。

在这项工作中，来自 M-A-P 和中国科学院大学的团队及其合作者为研究 o1 的推理模式，以 OpenAI 的 GPT-4o 为骨干，在三个领域（即数学、编码、常识推理）的一般推理基准上比较了 o1 与现有的 Test-time 计算方法（BoN、Step-wise BoN、Agent Workflow 和 Self-Refine）。

具体来说：

首先，他们的实验表明，o1 模型在大多数数据集上都取得了最佳性能。
其次，对于搜索不同响应的方法（如 BoN），他们发现奖励模型的能力和搜索空间都限制了这些方法的上限。
第三，对于将问题分解为多个子问题的方法，由于特定领域的系统提示可以规划出更好的推理过程，因此 Agent Workflow 比 Step-wise BoN 取得了更好的性能。
第四，值得一提的是，他们总结了 o1 的六种推理模式，并对几个推理基准进行了详细分析。

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉