论文地址:https://arxiv.org/pdf/2411.02293
官网地址:https://3d.hunyuan.tencent.com/
11月5日,在腾讯混元大模型媒体沟通会上,腾讯混元宣布最新的MoE模型 “混元Large” 以及混元3D生成大模型 “Hunyuan3D-1.0” 正式开源。
腾讯混元 Large 是目前开源领域参数规模最大的MoE模型,在长文容量、专业度方面皆有所提升。
腾讯混元3D生成大模型 Hunyuan3D-1.0 是业界首个同时支持文字、图像生成3D的开源大模型,10s即可帮助用户生成3D资产。目前,3D生成大模型已应用于腾讯地图,使生成速度提升91%。
通过两阶段的方法解决了现有3D生成扩散模型生成速度慢和泛化能力差的问题。第一阶段:使用多视图扩散模型快速生成多视图RGB图像,第二阶段:通过前馈重建模型快速重建3D资产。
开源官网:https://llm.hunyuan.tencent.com/
技术报告:https://arxiv.org/abs/2411.02265
Code下载: https://github.com/Tencent/Tencent-Hunyuan-Large
Models下载: https://huggingface.co/tencent/Tencent-Hunyuan-Large
11月5日,腾讯今日宣布推出业界参数规模最大、效果最好的开源MoE大语言模型 Hunyuan-Large。
Hunyuan-Large 模型的总参数量为389B、激活参数为52B、训练token数量为7T、最大上下文长度为256K、词表大小为12.8w。
腾讯混元Large模型,与腾讯混元Pro、腾讯混元Turbo等不同尺寸的模型源于同一技术体系,已经在腾讯内部业务经过验证和广泛使用。
此外,腾讯还宣布将推出自研的长文评测集“企鹅卷轴(PenguinScrolls)”,以填补行业在真实长文评测集上的空白。
论文链接:https://arxiv.org/pdf/2410.16268
项目链接:https://mark12ding.github.io/project/SAM2Long/
代码链接:https://github.com/Mark12Ding/SAM2Long
Segment Anything Model 2(SAM 2)在传统视频目标分割任务大放异彩,引起了众多关注。然而,尽管 SAM 2 已经具备出色的性能,但仍有其局限性,例如对不同场景的适应能力不足。
SAM 2 的贪婪选择策略容易陷入「错误累积」的问题,即一次错误的分割掩码选择将影响后续帧的分割结果,导致整个视频分割性能的下降。这个问题在长视频分割任务中显得更加严重。
近日,香港中文大学与上海AI Lab联合推出全新的 SAM2Long。
SAM2Long 在所有模型规模优于 SAM 2:在 SA-V 验证集和测试集以及 LVOS v2 验证集上的实验结果显示,SAM2Long 无论在何种模型规模下,均显著超越了 SAM 2。
SAM2Long 超越现有方法,实现 SOTA:尽管 SAM 2.1 已经在众多数据集上显著超越了现有方法,但 SAM2.1Long 将这一成绩推向了更高的水平。特别是在 SA-V 验证集上,SAM2.1Long 的 J&F 得分为 81.1,较 SAM 2.1 提升了 2.5 分。
论文地址:https://arxiv.org/pdf/2410.18666
Code和Model下载: https://github.com/shallowdream204/DreamClear
DreamClear 是中国科学院自动化研究所和字节跳动团队联合推出的高性能图像修复技术,专注于隐私安全的数据集管理,能将低质量(LQ)图像恢复为高质量(HQ)图像。
DreamClear 的主要功能:
图像恢复:DreamClear 能将低质量图像恢复为高质量图像,提升图像的细节和质量。
隐私保护:在进行图像恢复的同时,DreamClear 考虑到了数据隐私的保护,确保在使用过程中用户的隐私安全。
深度学习模型:基于深度学习技术,DreamClear 能智能识别和修复图像中的问题,提高恢复效果。