实测智谱视频版“Her”:懂论文、会做菜、能教英语,AI助手长“眼睛”了?

科技   2024-08-30 18:18   北京  

出品|搜狐科技

作者|梁昌均

运营编辑|王一晴

再次抢发OpenAI!

8月30日,国内大模型公司智谱AI在智谱清言APP上线视频通话功能,国产视频版“Her”来了。

今年5月,OpenAI推出即文本、图像、音频、视频于一身的GPT-4o,并演示了语音和视频通话功能。

但原本计划在6月底上线的高级语音功能,OpenAI硬是拖了一个月才对Plus用户推出,而视频通话功能和Sora一样又成了期货。

国产大模型拒绝画饼,未经预告直接上!

在近日的AI顶会 KDD 国际数据挖掘与知识发现大会上,智谱AI正式发布新一代基座大模型 GLM-4-Plus等系列模型,并在今日上线国内首个面向C端开放的视频通话功能。

随着视频通话功能的加入,智谱清言APP成为首个可以通过文本、图像、音频和视频来进行多模态互动的AI助手。

搜狐科技拿到了内测资格,一起来看看智谱AI视频版的“Her”表现如何。


视频识别能力较好偶有幻觉,

兼具夸夸体质

从官方放出的演示视频来看,通过视频通过功能,它可以在游戏、办公、生活、教育等领域充当AI助手。

比如,它可以对图像进行识别,能描述出图像内容,并猜出这是画蛇添足的成语;还可以实工作助手,能读英文论文并进行发散性的阐释分析。

它也可以是你的生活助手,比如识别宠物,并告诉你这个宠物的习性、出现了问题怎么办。在孩子不会做数学题的时候,他可以用来辅助引导一步步给出答案,并可以帮助进行英文教学等,中英文都可以。

搜狐科技实测了解到,在清言APP启动视频通话后,不用唤醒词,它会主动跟你打招呼:下午好,有什么想要跟我说的吗?

它还有记忆功能,每次打开后还会聊起上次的内容。如果长时间未跟它进行交流,它会说“似乎有点安静呢,有需要再叫我哦”,自动退出通话。

这款长了“眼睛”的AI助手,它看和理解的能力到底怎么样?

对于最近火爆的《黑神话:悟空》,它能识别出画面内容,并谈自己的感受,但最开始搞错了游戏名字,后来再追问一遍才说对,并对游戏进行了简单介绍,还进行了一顿夸赞。

在图像识别方面,给它一个交通标志,它能识别出来是禁止停车的意思。对于地标建筑物,它也能识别出来。

比如它能识别出番茄,让它给出三个菜的建议,它也爽快给出番茄炒蛋、番茄汤、番茄沙拉三个菜名,结尾还不忘来句“你肯定能做出超棒的菜肴”,情绪价值非常到位。

接下来,上点难度。给它来一篇AI领域的重要论文《Attention Is All You Need》,它光看题目就知道这是关于自然语言处理和机器学习领域的论文,并反问到“你对这篇论文有兴趣吗”,具有一定的主动交互能力。

让它介绍下这款论文的主要内容,它也能侃侃而谈,称其介绍了一款注意力机制的新模型Transformer,并能说出这款模型的优点。

但问到这篇论文有多少位作者时,它却回答11位,实际是8位,可能是数据或识别出现问题。对于作者,如排名第一的Ashish Vaswani,它也能简单介绍,可以说有一定的知识储备。

当然,它也可以是学习或教育的助手。当遇到不认识的英文单词时,可以让它来教你读,并说出意思。

以李白《静夜思》的诗句英文翻译为例,它知道这是英文版。不过,它有时理解似乎有些问题,比如让它读英文时,它却直接读了中文诗句,最后又来了句“多美的诗呀”。

从前述评测来看,清言APP的视频能力在识别方面比较准确,有一定的理解能力和知识能力,但在一些细节问题上会出错,可能还是存在幻觉。

在语音方面,目前它只有女声,说话的时候带有语言词,虽然仍能听出一丝机器味和有些延迟,但比之前的AI语音听起来要自然很多,并能主动交互,同时兼具夸夸体质,情绪价值拉满。

目前,清言的视频功能首批面向部分用户开放,同时开放外部申请。智谱AI称,将持续迭代并逐步放开规模,尽快让全员都可以使用。

基座大模型再升级,

多个能力与GPT-4o相当

作为对标OpenAI的国产玩家,智谱AI如今在AI生成视频和C端AI助手视频功能等方面在进度上赶超,同时在基座大模型上也在持续发力。

智谱AI在KDD大会上推出了新一代基座大模型GLM-4-Plus,其是智谱全自研GLM大模型的最新版本。

大语言基座模型GLM-4-Plus在语言理解、指令遵循、长文本处理等方面性能全面提升,使用了大量模型辅助构造高质量合成数据以提升模型性能,并利用PPO算法提升了模型推理(数学、代码等)表现,更好反应人类偏好。

PPO全称为Proximal Policy Optimization,是OpenAI在2017年提出的一种在线策略优化算法,通过限制策略更新的幅度来提高训练的稳定性和样本效率,可以解决深度强化学习存在的样本效率低、训练不稳定等挑战。

根据智谱AI发布的测评,GLM-4-Plus在语言文本能力、长文本的推理能力等方面,和GPT-4o、405B参数量的Llama3.1相当。

GLM-4-Plus已在智谱大模型开放平台部署,开发者从现在开始就能通过API方式调用。

多模态大模型也迎来升级,最新的GLM-4V-Plus在图像和视频理解能力方面达到全球前列,评测超过GPT-4o和Anthropic当前最强模型Claude 3.5 Sonnet。它还可以理解网页内容,并将其转换为html代码。

GLM-4V-Plus还能够理解并分析复杂的视频内容,并具备时间感知能力,能力远超GPT-4o和谷歌模型。在该模型上下开放平台后,智谱AI将提供国内首个通用视频理解模型API。

文生图模型则升级到CogView-3-Plus,其效果接近目前最佳的闭源Midjourney V6及Stability AI原创团队推出的开源FLUX 等模型,并支持图片编辑功能。

此外,智谱AI还宣布视频生成模型CogVideoX-5B开源,这是是继CogVideoX 2B开源后的最新版本,性能更强,推理显存需求最低仅需11.4GB,且开源协议更加开放,意味着任何企业和个人都可使用。目前,智谱AI开源模型累计下载量突破2000万次。

智谱AI还宣布GLM-4-Flash完全免费,用户可以通过调用其快速、免费地构建专属模型和应用,这是智谱开放平台首个完全免费的大模型API。

目前,随着多款模型推出和商业化应用,智谱AI已经成为国内重要的大模型平台。据IDC报告,去年中国大模型平台市场规模达17.65亿元,百度、商汤、智谱AI位居前三。


搜狐科技
搜狐科技聚焦前沿科学与科技产业报道,深度跟踪基础科学、人工智能、互联网、通信等领域重大事件,洞察科技趋势与商业逻辑。
 最新文章