1、字节发布豆包视觉理解、3D生成等新模型 豆包音乐模型可生成3分钟作品
2、阿里云百炼上线音视频实时互动功能 人人都能创建专属多模态应用
3、微信公众号上线作者朗读音色功能 复刻作者的语气和情感
字节发布豆包视觉理解、3D生成等新模型
豆包音乐模型可生成3分钟作品
在火山引擎 Force 大会上,字节跳动正式发布豆包视觉理解模型,为企业提供多模态大模型能力。豆包视觉理解模型千 tokens 输入价格仅为 3 厘,一元钱就可处理 284 张 720P 的图片,官方宣称比行业价格便宜 85%。
豆包 3D 生成模型也在本次活动中正式亮相。将其与火山引擎数字孪生平台 veOmniverse 结合使用,可完成智能训练、数据合成和数字资产制作,官方称之为「一套支持 AIGC 创作的物理世界仿真模拟器」。
豆包大模型旗下多款产品也迎来了更新:豆包通用模型 pro:全面对齐 GPT-4o,使用价格仅为后者的 1/8;音乐模型:可生成 3 分钟的完整作品;文生图模型 2.1 版本:精准生成汉字、一句话 P 图,已接入即梦 AI 和豆包 App。
此外,豆包将于明年春季推出具备更长视频生成能力的豆包视频生成模型 1.5 版,豆包端到端实时语音模型也将很快上线,从而解锁多角色演绎、方言转换等新能力。
阿里云百炼上线音视频实时互动功能
人人都能创建专属多模态应用
近日,阿里云百炼上线了全新音视频实时互动功能,用户可在百炼上自由选择文本、语音和视觉理解等200多款模型,无需代码,数分钟即可搭建一个能听、能看、会说的专属AI助手。阿里云百炼还支持以sdk的形式集成到Web、ioS和安卓应用,可应用于AI虚拟助手、虚拟陪伴和AI老师等场景。
用户在百炼上几分钟即可搭建一个能听、能看、会说的专属AI助手。
过去一年,大模型正在从纯文本模态向语音和视觉等多模态演进,极大地拓宽了大模型应用的想象空间。然而现有单一模型仍旧无法处理复杂的任务,为了进一步加速单一大模型构建成像人一样自然交互的复杂AI应用,阿里云百炼提供了200多款语言模型Qwen、视觉语言模型Qwen2-VL、语音合成模型CosyVoice等全模态全尺寸大模型,同时联合阿里云AI实时互动方案,在国内率先为用户提供了便捷的工作流应用和智能体编排应用,例如支持构建RAG知识库、Prompt调优、sdk集成等。
据介绍,在视觉理解模型方面,阿里云Qwen2-VL具备强大的视觉智能体能力,例如采用多模态旋转位置嵌入(M-ROPE)方法,能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,模型具备更好地理解和建模复杂的多模态数据,该模型一经推出就成为开源社区最受欢迎的多模态大模型;在音频方面,阿里云语音合成模型CosyVoice,通过对生成语音的情感、韵律进行细粒度的控制,情感表现力上得到明显提升,阿里云AI实时互动方案还可提供化智能降噪、智能打断、智能断句等超拟人对话能力。
微信公众号上线作者朗读音色功能
复刻作者的语气和情感
微信派发文,宣布公众号上线「作者朗读音色」新功能。用户点击「🎧 听全文」,就能够「听」到由作者音色朗读的公众号文章。
作者在下载「订阅号助手」APP 后,点击「我-设置-朗读音色」,就可以录制例句,例句会复刻作者的语气和情感。录制完成并点击应用,即可在公众号里拥有自己的个性化语音。并且,每一个公众号都可以创建多个不同的音色。
不过官方表示,目前该功能还在灰度中。
微信小店灰测“送礼物”功能
或复制当年“微信红包”对支付市场的影响
微信团队公告称,微信小店正式开启“送礼物”功能的灰度测试。不过,名虽“灰测”,细读公告能发现,除珠宝、教育培训两大类目外,其他类目微信小店、原价不超过1万元的商品,都将默认支持“送礼物”功能。这和全量上线几无区别。
消息一出,即在微信生态中引发震荡。业内人士认为,这一功能或可复制当年“微信红包”对支付市场的影响。且尤其是在圣诞节、元旦、春节、情人节等密集且系列、重要的节日前开启。
“送礼物”即为字面意思。用户只需点击“送给朋友”,拉起“确认礼物”页面,选择款式、浏览金额。当在“送礼物”页面选择朋友,并完成支付后,礼物将自动送出。
为长城营销打造个人IP
长城汽车董事长魏建军,正在营销业务上做更多尝试。自从小米、华为带着手机圈的营销基因入局,在汽车圈掀起了一波又一波的流量风暴,切实给各位老牌汽车玩家上了一课。于是,越来越多车企老板从幕后走向台前,他们涌进直播间、现身微博与抖音,活跃在大众视野。
一向低调的魏建军更是亲自带队,抓起了营销,不仅走进直播间,还开通了微博、抖音账号。近日,每人Auto从多位独立信源处获悉,魏建军将在近期开通小红书账号,继续发力营销,并尝试持续打造个人IP。
今年初长城汽车中台数量扩充到八个,新增了新媒体直播运营中台、商品管理中台,其中新媒体直播运营中台重点项目直接汇报给魏建军。据长城汽车员工透露,目前公司内部有个专属团队,负责魏建军抖音、微博的策划、运营,小红书也由该团队负责。
魏建军对营销的重视,可见一斑。他曾表示,“把营销作为战略,对于(目前)长城来讲,不过分。”他计划“通过两年的时间扭转(公司营销不力)这个局面”。魏建军还分享过自己的营销理念,他认为汽车营销要有互联网思维,直播可以直接面对用户群体,通过这种方式能够更好地与消费者沟通互动,传递品牌理念和产品优势。“公众愿意听创始人或者一把手聊天,就不要浪费这个资源。”
在汽车圈,魏建军的个人形象经常与“硬汉”、“铁汉”等描述关联,这一次为何盯上女性用户为主的小红书?有内部人士分析,长城方面注意到,汽车内容在小红书上越来越受到关注。据官方透露,和往年相比,小红书平台的汽车博主增长了188%、汽车KOS的月均笔记内容增长了69倍。
OpenAI推出互动新方式
用户可与ChatGPT通电话、发短信
OpenAI重磅推出电话服务。据官方介绍,即日起,美国用户可将 ChatGPT 添加到电话通讯录,然后用智能手机/座机/老人机拨打 1-800-242-8478,它就能回应你提出的问题,比如景点导览亦或者语言翻译等。并且OpenAI 将向美国用户提供 15 分钟的免费通话时间。
直播中,OpenAI 首席产品官 Kevin Weil 表示:
「我们的使命是让通用人工智能造福全人类,部分目标就是尽可能让它向更多人开放。今天,我们迈出了下一步,把 ChatGPT 带到你的电话中。」
与此同时,ChatGPT 也正式「入驻」WhatsApp。届时,GPT-4o mini 将为 WhatsApp 用户提供基础对话服务。虽然无需注册即可使用,但受限于使用额度,建议你还是转向 App 或网页版获取完整体验。
OpenAI 表示,正在为 WhatsApp 开发图像分析和网页搜索等更多功能,但暂未公布这些功能的上线时间。
以下是OpenAI在12天发布会中每天发布的主要内容:
1、发布了全新的o1模型,该模型在数学和科学问题上表现更好,并且回答更准确;推出了ChatGPT Pro订阅服务,价格为每月200美元。
2、发布了AI强化微调(Reinforcement Fine-Tuning,简称RFT),这是一种通过示例改进AI模型推理的方法。
3、发布了Sora视频生成工具,支持文本到视频和图像到视频的生成模式。
4、宣布了Canvas功能,这是一个协作工具,允许用户与ChatGPT一起编写和编码。
5、宣布了ChatGPT与Apple Intelligence的集成,支持iOS、iPadOS和macOS。
6、为ChatGPT的高级语音模式增加了视觉功能,使其能够看到屏幕上的内容以及用户本人。
7、发布了Projects功能,这是一种组织ChatGPT会话的方法。
8、将ChatGPT搜索功能扩展到所有登录用户,并增加了对高级语音模式的支持。
9、宣布了o1 API和一系列新的开发者工具,包括更强大的模型和性能、灵活性、成本效率的提升。
10、引入了电话呼叫功能1-800-CHATGPT,使ChatGPT即使在没有稳定互联网连接的情况下也能使用。
11、发布了Microscope,这是一个神经网络模型可视化工具集。
12、将高级语音模式的时间增加至每天20小时。