机构:DeepSeek、香港大学、北京大学
论文链接:https://arxiv.org/pdf/2410.13848
代码链接:https://github.com/deepseek-ai/Janus
之前的研究通常依赖单一的视觉编码器来完成这两项任务,如 Chameleon。然而,由于多模态理解和生成所需的信息粒度不同,这种方法可能导致性能不理想,尤其是在多模态理解方面。
为了解决这个问题,研究团队将视觉编码解耦为不同的路径,同时仍然利用单一的、统一的 Transformer 架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。例如,多模态理解和生成组件可以独立选择最合适的编码方法。
机构:复旦大学、百度、南京大学
论文地址:https://arxiv.org/pdf/2410.07718
项目地址:https://fudan-generative-vision.github.io/hallo2
近日,复旦大学和百度联合开发了一款名为 Hallo2 的全新 AI 模型,该模型可以生成长达数小时的 4K 分辨率人物动画,现已在 GitHub 发布开源。
Hallo2 模型建立在 latent diffusion models 的基础上,并引入了一系列创新性的技术,包括:
Patch-drop 数据增强技术:通过对运动帧进行随机遮挡,防止模型过度依赖前序帧的画面信息,从而保证生成的人物动画在长时间序列中保持稳定的外观。
高斯噪声增强技术:通过向运动帧中添加高斯噪声,增强模型对画面噪声和运动失真的鲁棒性,进一步提升动画的质量和连贯性。
VQGAN 离散码本预测技术:将 VQGAN 模型扩展到时间维度,并结合时间对齐技术,实现高分辨率视频的生成,并确保画面细节在时间上的连贯性。
文本提示控制机制:通过引入自适应层归一化机制,使模型能够根据文本提示精准地控制人物的表情和动作,使动画更具表现力和可控性。
电影和视频制作:可用于生成或增强角色面部表情和口型,适用于科幻和动画电影。
虚拟助手和数字人:在客服、教育、娱乐等领域,Hallo2 能创建逼真的虚拟助手或数字人,提升用户体验。
机构:M-A-P、中国科学院大学、Abaka AI、浙江大学
论文链接:https://arxiv.org/abs/2410.13639
项目地址:https://github.com/Open-Source-O1/o1_Reasoning_Patterns_Study
使大语言模型(LLM)能够处理更广泛的复杂任务(如编码、数学等)、 编码、数学)引起了许多研究人员的极大关注。随着 LLM 的不断发展,仅仅增加模型参数的数量所带来的性能提升越来越小,计算成本也越来越高。
最近,OpenAI 的 o1 模型表明,推理策略(即 Test-time 计算方法)也能显著增强 LLM 的推理能力。然而,这些方法背后的机制仍有待探索。
在这项工作中,来自 M-A-P 和中国科学院大学的团队及其合作者为研究 o1 的推理模式,以 OpenAI 的 GPT-4o 为骨干,在三个领域(即数学、编码、常识推理)的一般推理基准上比较了 o1 与现有的 Test-time 计算方法(BoN、Step-wise BoN、Agent Workflow 和 Self-Refine)。
具体来说:
首先,他们的实验表明,o1 模型在大多数数据集上都取得了最佳性能。
其次,对于搜索不同响应的方法(如 BoN),他们发现奖励模型的能力和搜索空间都限制了这些方法的上限。
第三,对于将问题分解为多个子问题的方法,由于特定领域的系统提示可以规划出更好的推理过程,因此 Agent Workflow 比 Step-wise BoN 取得了更好的性能。
第四,值得一提的是,他们总结了 o1 的六种推理模式,并对几个推理基准进行了详细分析。