豆包视觉理解模型发布,比行业价格便宜85%!

科技   2024-12-20 21:00   安徽  

| I | T | 报 | 

聚焦IT.互联网.通信.数码揭示科技潮流最新走向

【微信号:ITnewspaper】

近日消息,继大语言模型价格以厘计算之后,视觉理解模型也宣告进入“厘时代”。

在火山引擎 Force 大会上,字节跳动正式发布豆包视觉理解模型,为企业提供极具性价比的多模态大模型能力。

据介绍,豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%。

火山引擎总裁谭待表示,豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。此外,该模型有着细腻的视觉描述和创作能力。

此前,豆包视觉理解模型已经接入豆包App和PC端产品。豆包战略研究负责人周昊表示:“豆包一直在努力,让用户的输入更快更方便”。为此,豆包产品非常注重多模态的输入和打磨,包括语音、视觉等能力,这些模型都已通过火山引擎开放给企业客户。

会上,豆包3D生成模型也首次亮相。该模型与火山引擎数字孪生平台veOmniverse结合使用,可以高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。

此外,豆包大模型多款产品也迎来重要更新:豆包通用模型pro已全面对齐GPT-4o,使用价格为后者的1/8;音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品;文生图模型2.1版本,在业界首次实现精准生成汉字和一句话P图的产品化能力,该模型已接入即梦AI和豆包App。

火山引擎方面宣布,2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版,豆包端到端实时语音模型也将很快上线,从而解锁多角色演绎、方言转换等新能力。谭待表示,豆包大模型虽然发布较晚,但一直在快速迭代进化,目前已成为国内最全面、技术最领先的大模型之一。 

欢迎小伙伴在底部发表神评,与我们交流!

IT报:大家都在看的公众号,你关注了没

 因为微信更改了推送规则,推文不再按照时间线显示,如果不点『在看或者没有『星标』,可能就看不到我们的推送了!如果不想错过精彩内容,就赶紧星标我们吧

IT报
聚焦IT、互联网、数码等行业新闻,致力于提供最鲜活的IT产业资讯,第一时间报道行业重大事件。以独特视角、犀利风格揭示IT产业走向,众多IT大佬都关注了!你还在等啥呢?投稿或合作请加V yeqw01 或Q 1945507743
 最新文章