腾讯混元Large、混元3D模型开源,我们实测了下都有些拉跨

创业   2024-11-06 09:57   广东  

作者子川

来源AI先锋官


时隔5个月,腾讯终于又开源了,而且还是俩。
就在昨天,腾讯宣布开源MoE模型混元Large、混元3D模型混元3D-1.0。
貌似这两个模型都不错。
腾讯称混元Large是业界参数规模最大、效果最好的开源MoE大语言模型。
同时混元3D模型混元3D-1.0是开源界首个同时支持文字、图像生成3D的开源大模型。
这么厉害的吗?让我们一探究竟!
让混元Large 和 GPT4o 来一场小 Battle
据报道,此次开源的混元Large模型总参数量389B,激活参数量为52B,上下文长度高达256K。

大概意思就是,混元Large的知识储备达到389B参数。但它不会每次都用上所有的知识。它会根据不同的问题,激活最相关的52B参数。
256K的上下文的长度则是意味着Eom模型可以在一次交互中处理和理解50万到100万个英文单词。
在数据集考试上,混元Large取得了不错的成绩。

根据腾讯官方给出的数据显示:对比Llama 3.1 405B 等模型,混元Large在多语言理解(MMLU)、中文多语言理解(CMMLU)、代码和数学等9大领域均取得领先地位。
可惜,没看到它和GPT4o来一场battle(没有友商的衬托,哪来的快乐呀)。
不过,可以小小浅测一手。没有友商,那就直接把友商抬上来!
第一题,经典数草莓问题。对于这道题,GPT4o可谓是屡战屡败。
混元Large同样也输错了。数数都快成模型10大未解难题了。
第二题,抛出一个简单的推理题“1+1=1,2+2=2,那么3+3=多少”。
GPT4o很快就给出了答案:3
而混元Large给出了答案:6,这是我没有想到的。
再来一道高中数学竞赛题:设有理数r = p/q ∈ (0,1),其中p,q为互素的正整数,且pq整除3600。这样的有理数r的个数为______。答案是36。

混元Large给出的答案是12个。而GPT 4o给出的答案是36个。在数学能力上似乎混元Large的能力要更加差一点。
最后再来一个比较难的推理题。

GPT 4o混元Large给出的答案是一样的,正确。
看下来,似乎混元在数学方面丢一丢丢。
文生3D 缺席,我们试了试图生3D 开源模型
再介绍一下,此次腾讯开源的混元3D-1.0是开源界首个支持文生3D和图生3D的模型。
一共发布了两个版本,轻量版和标准版。
轻量版大约需要 10 秒才能在 NVIDIA A100 GPU 上将图片转为3D,而标准模型大约需要 25 秒。
和其他的开源3D模型相比,混元3D-1.0无论是在用户偏好上,还是生成质量上,都遥遥领先对手。

质量方面,经过多个维度测评,在两个公开的 3D 数据集 GSO 与 OmniObject3D 上, Tencent-Hunyuan3D-1.0 效果优于主流开源模型,并且生成质量上全面超过了 SOTA 开源模型,整体能力属于国际领先水平。

目前混元3D-1.0模型已经在腾讯旗下相关的产品中出现。比如腾讯地图的自定义3D车标功能和腾讯元宝的3D梦工厂。

不过只有在腾讯地图的自定义3D车标功能才能体验到图生3D功能。文生3D功能目前没有在这两款产品中上线。

那么我们继续来测评一下。

先来看一下模型的颜色渲染能力如何。来一个色彩比较鲜艳的“哆啦a梦”。

在颜色封面,表现得就有点糟糕了。而且在形状上,“哆啦a梦”居然扁平化了。

难道翻车了?我们接着测。

看一下它在细节处理上怎么样,小便扔给它一个“球鞋”。

在球鞋方面生成的效果就非常不错。不过在鞋带那块,还是有一小点缺陷的,没有视频中呈现的那么好。

要知道,在“真人模型”方面,翻车的可不在少数,同样,也来试一下。

似乎翻车了,出现了颜色渲染不完全。而且看3D图片的侧面,很怪。

不过,人家是开源的呢,而且从数据上看,还比其他的开源3D模型更加厉害。至少可以白嫖一波~~

目前。这两款模型已经全面上线huggingface了,可以直接下载,大家可以去试完一下。

混元Large:

https://github.com/Tencent/Hunyuan-Large


混元3D-1.0:

https://github.com/Tencent/Hunyuan3D-1



 .END.
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾


AI先锋官
AIGC大模型及应用精选与评测
 最新文章