作者|子川
来源|AI先锋官
就在昨天,腾讯宣布开源MoE模型混元Large、混元3D模型混元3D-1.0。腾讯称混元Large是业界参数规模最大、效果最好的开源MoE大语言模型。同时混元3D模型混元3D-1.0是开源界首个同时支持文字、图像生成3D的开源大模型。让混元Large 和 GPT4o 来一场小 Battle据报道,此次开源的混元Large模型总参数量389B,激活参数量为52B,上下文长度高达256K。大概意思就是,混元Large的知识储备达到389B参数。但它不会每次都用上所有的知识。它会根据不同的问题,激活最相关的52B参数。256K的上下文的长度则是意味着Eom模型可以在一次交互中处理和理解50万到100万个英文单词。根据腾讯官方给出的数据显示:对比Llama 3.1 405B 等模型,混元Large在多语言理解(MMLU)、中文多语言理解(CMMLU)、代码和数学等9大领域均取得领先地位。可惜,没看到它和GPT4o来一场battle(没有友商的衬托,哪来的快乐呀)。不过,可以小小浅测一手。没有友商,那就直接把友商抬上来!第一题,经典数草莓问题。对于这道题,GPT4o可谓是屡战屡败。混元Large同样也输错了。数数都快成模型10大未解难题了。第二题,抛出一个简单的推理题“1+1=1,2+2=2,那么3+3=多少”。而混元Large给出了答案:6,这是我没有想到的。再来一道高中数学竞赛题:设有理数r = p/q ∈ (0,1),其中p,q为互素的正整数,且pq整除3600。这样的有理数r的个数为______。答案是36。混元Large给出的答案是12个。而GPT 4o给出的答案是36个。在数学能力上似乎混元Large的能力要更加差一点。GPT 4o混元Large给出的答案是一样的,正确。再介绍一下,此次腾讯开源的混元3D-1.0是开源界首个支持文生3D和图生3D的模型。轻量版大约需要 10 秒才能在 NVIDIA A100 GPU 上将图片转为3D,而标准模型大约需要 25 秒。和其他的开源3D模型相比,混元3D-1.0无论是在用户偏好上,还是生成质量上,都遥遥领先对手。质量方面,经过多个维度测评,在两个公开的 3D 数据集 GSO 与 OmniObject3D 上, Tencent-Hunyuan3D-1.0 效果优于主流开源模型,并且生成质量上全面超过了 SOTA 开源模型,整体能力属于国际领先水平。
目前混元3D-1.0模型已经在腾讯旗下相关的产品中出现。比如腾讯地图的自定义3D车标功能和腾讯元宝的3D梦工厂。
不过只有在腾讯地图的自定义3D车标功能才能体验到图生3D功能。文生3D功能目前没有在这两款产品中上线。
那么我们继续来测评一下。
先来看一下模型的颜色渲染能力如何。来一个色彩比较鲜艳的“哆啦a梦”。
在颜色封面,表现得就有点糟糕了。而且在形状上,“哆啦a梦”居然扁平化了。
难道翻车了?我们接着测。
看一下它在细节处理上怎么样,小便扔给它一个“球鞋”。
在球鞋方面生成的效果就非常不错。不过在鞋带那块,还是有一小点缺陷的,没有视频中呈现的那么好。
要知道,在“真人模型”方面,翻车的可不在少数,同样,也来试一下。
似乎翻车了,出现了颜色渲染不完全。而且看3D图片的侧面,很怪。
不过,人家是开源的呢,而且从数据上看,还比其他的开源3D模型更加厉害。至少可以白嫖一波~~
目前。这两款模型已经全面上线huggingface了,可以直接下载,大家可以去试完一下。
混元Large:
https://github.com/Tencent/Hunyuan-Large
混元3D-1.0:
https://github.com/Tencent/Hunyuan3D-1
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。