在美国当地时间9月25日举行的Connect大会上,Meta推出了Llama3.2,这是Meta研发人工智能以来首个可以理解图像和文本的视觉模型。
Llama3.2包括小型和中型模型(参数分别为11B和90B),以及更轻量级的纯文本模型(参数分别为1B和3B),适合特定的移动设备和边缘设备。Meta首席执行官Mark Zuckerberg在开幕主题演讲中表示:“这是我们首个开源多模态模型,它让人工智能进行视觉理解成为可能。”与前代产品一样,Llama3.2可以理解的上下文长度为128000个字符,这意味着用户可以输入大量文本(相当于几百页的教科书)。更高的参数代表模型会更加准确,也可以处理更复杂的任务。Meta在Connect发布会上还首次分享了官方的Llama堆栈发行版。在此版本的基础上,开发人员可以在各种环境中使用Llama模型,包括内部部署、设备、云和单节点等。
Zuckerberg补充说:“目前,开源已经是最具成本效益的可定制、可信和高性能的选择。我们已经到了行业的拐点,Llama3.2开始成为行业的标准,我们称之为人工智能的Linux。”
Meta在两个多月前发布了Llama3.1,并且表示,到目前为止,该模式已经实现了10倍的增长。
Zuckerberg也表示:“Llama继续快速改进,实现越来越多的功能。”现在,两款最大的Llama3.2型号(11B和90B)都支持图像用例,并且能够理解图表和图形,为图像添加标题,并根据自然语言描述精确定位对象。例如,用户可以询问其公司在哪个月的销售额最高,模型就会根据现有的图表推理出答案。大型模型还能从图像中提取细节,创建标题。
与此同时,轻量级模型可以帮助开发人员在私人环境中构建个性化的代理应用程序,例如总结最近的信息或发送后续会议的日历邀请。
Meta表示,在图像识别和其他视觉理解任务方面,Llama3.2与Anthropic的Claude3 Haiku和OpenAI的GPT 4o-mini相比具有竞争力。
同时,它在指令遵循、总结、工具使用和提示重写等方面的表现优于Gemma和Phi 3.5-mini。
Llama3.2模型可在llama.com和HuggingFace以及Meta的合作伙伴平台上下载。
在Llama3.2发布获得巨大关注的同时,老对手OpenAI的发展似乎并不那么顺畅了。此前有新闻报道,OpenAI一直在与潜在投资者进行接洽,想要进行新一轮70亿美元的融资。但消息人士透露,一直十分支持OpenAI的苹果最近退出了谈判,不再参与融资。加之近期OpenAI管理层发生了众多“洗牌”,暗流涌动的权力斗争不断,一些外界投资者也在质疑这些事件是否会影响其发展。同样是在9月25日,Meta开始投放其商业人工智能广告,以便企业可以在WhatsApp和Messenger中看到。Meta称,有100多万广告客户使用其生成式人工智能工具,上个月使用这些工具创建的广告达1500万条。与未使用GenAI的广告活动相比,使用MetagenAI的广告活动平均点击率高出11%,转化率高出7.6%。
新的Llama3.2支持MetaAI中新的多模态功能,其中最引人注目的是,它可以用名人的声音回话,包括Dame Judi Dench、John Cena、Keegan Michael Key、Kristen Bell和Awkwafina。
Zuckerberg在主题演讲中提到:“我认为,语音将成为一种比文字更自然的人工智能交互方式。”该模型将在WhatsApp、Messenger、Facebook和Instagram上以名人的声音回应语音或文本命令。MetaAI还能回复聊天中分享的照片,添加、删除或更改图片,并添加新的背景。Meta表示,它还在为MetaAI尝试新的翻译、视频配音和唇语合成工具。Zuckerberg满怀信心表示:“MetaAI有望成为世界上使用人数最多的人工智能助手。”原文来源于:
1.https://venturebeat.com/ai/meta-llama-3-2-vision-models-to-rival-anthropic-openai/
中文内容由元宇宙之心(MetaverseHub)团队编译,如需转载请联系我们。
最新行业深度研究报告发放中! 资本实验室全新发布37页量化报告《 2023全球区块链应用市场暨产业图谱报告(2023) 》,收录1000+应用案例 ,探索区块链应用趋势 , 入群即可免费领取 。
Doccla再融4600万美元打造“虚拟病房”,极大缩短患者诊查时间
前Apple设计师与OpenAI合作开发AI硬件,计划年底融资10亿美元
欲融资65亿美元的OpenAI趁热发布o1模型了解10个关键要点