Meta AI 推出 Transfusion 新方法 | 腾讯游戏推出AI队友 | 日报

科技   2024-08-26 22:44   美国  

🌐 Meta AI 推出 Transfusion 新方法

🤖 亚马逊 AI 助手 Amazon Q

🚀 Grok-2 mini 推理堆栈重写

🔧 Meshy 3D 生成工具新版本

📢 心辰 Lingo 语音 AI 模型开放内测

🤖️ 商汤科技元萝卜 AI 下棋机器人即将上市

📈 博视像元完成 1.3 亿元 A 轮融资

🌟 千寻位置完成战略融资

🎮 腾讯游戏推出语音指挥 FPS AI 队友

Meta AI 推出 Transfusion 新方法

Meta AI公司最新研发的「Transfusion[1]」方法,通过整合语言模型和图像生成模型,实现了在一个统一的AI系统中处理文本和图像数据。实验显示「Transfusion」在图像生成方面取得了与DALL-E 2等成熟系统相似的结果,同时还能高效处理文本。与同类方法相比,「Transfusion」在扩展效率上表现更优,计算量大大减少,同时整合图像数据还提高了文本处理能力。

「Transfusion」方法结合了语言模型在处理离散数据(如文本)方面的优势,以及扩散模型在生成连续数据(如图像)方面的能力。采用单一的Transformer架构,适用于所有模式,实现端到端训练,使用不同的损失函数处理文本和图像数据:文本使用下一个标记预测,图像使用扩散。

亚马逊 AI 助手 Amazon Q

亚马逊CEO在其领英主页上分享了「Amazon Q」在公司内部系统中的应用成果,通过集成「Amazon Q」,估计节省了约4500个开发人员一年的工作量。

亚马逊在2023年11月的AWS Reinvent大会上推出了「Amazon Q」,作为新型聊天机器人,帮助企业和员工更好地利用AWS。作为GenAI软件开发助手,「Amazon Q」旨在简化和加速重复性工作,能够分析现有代码、提出修改建议并实施修改,更新软件包依赖关系,修改过时和低效的代码,并整合安全实践。

Grok-2 mini 推理堆栈重写

开发人员Igor Babuschkin、Lianmin Zheng和Saeed Maleki利用SGLang语言奋战三天,重写了「Grok-2」的推理技术栈。Babuschkin承诺将继续提升「Grok-2-mini」的处理速度,并透露了关于API的一些消息,预示着xAI在提供高性能、低计算开销解决方案方面的持续努力。

改进后的「Grok-2」在Lmsys Chatbot Arena排行榜上获得高分,与谷歌的「Gemini-1.5 Pro」模型并列第二,仅次于OpenAI的「ChatGPT-4o」,「Grok-2 mini」的排名也上升到第5位,显示出其卓越的性能。

Meshy 3D 生成工具新版本

由胡渊鸣领导的创业公司「Meshy」推出了其3D AIGC工具的新版本,几何更干净、细致,工作流更合理,显著提升了3D生成能力,所有用户都可以免费试用这一先进的3D生成工具。

Meshy-4[2]」版本在3D AI生成技术方面取得了突破,无论是文本到3D还是图像到3D,都能生成具有干净硬表面和复杂细节的模型。用户界面进行了更新,特别是文本到3D工作流,现在分为建模和纹理两个独立步骤,提高了操作的灵活性和结果的可控性。「Meshy-4」扩展了模型选择器功能,用户可以根据需要选择不同的生成模型,以适应不同的建模风格和需求。

心辰 Lingo 语音 AI 模型开放内测

金科汤姆猫投资的西湖心辰于今年8月推出「心辰Lingo」语音大模型,是国内首个端到端语音大模型,已于8月24日正式开启内测预约。

相比于传统文本到语音(TTS)技术,「心辰Lingo」作为端到端模型,集成了语音识别、自然语言处理、意图识别、对话管理及语音合成等技术,实现从语音输入到语音反馈的完整交互。「心辰Lingo」语音模型在技术能力上追齐「GPT-4o」语音能力,是国内首个达到此水平的模型。

商汤科技元萝卜 AI 下棋机器人即将上市

商汤科技家用机器人品牌「元萝卜」即将推出一款专为国际象棋设计的AI下棋机器人,具备0.5mm的极高精度和稳定度,能够进行稳定的垂直抓取操作。此前,商汤科技已发布「元萝卜AI下棋机器人」的象棋版和围棋版,这些版本都具备「落子确认」、方向键和机械臂等功能。

国际象棋的立体棋子造型多样,给机器人的抓取和识别带来挑战。新款机器人根据立体棋子特点设计了4个自由度,模拟人的手臂动作,实现精确抓取。「元萝卜AI下棋机器人」不仅陪伴孩子学习和对弈,还能锻炼思维和保护视力,可用于进行行业象棋技术等级评测,结合了传统象棋文化和人工智能技术。

博视像元完成 1.3 亿元 A 轮融资

博视像元近日完成1.3亿元人民币的A轮融资,本轮融资由中芯聚源、北京5G产业基金、谨孚、北航投资和老股东朗玛峰联合投资。此次融资助力「博视像元」在高性能相机和传感器领域的市场拓展,加速全球业务布局。

「博视像元」成立于2022年,是一家专注于高性能机器视觉核心部件的供应商,主要从事视觉检测与测量系统的研发、生产和销售,并提供3D相机、智能相机、DLP投影以及高速相机等系列产品,产品广泛应用于半导体、新能源、消费电子、汽车等智能行业。

千寻位置完成战略融资

千寻位置,近期完成了新一轮的战略融资,整体估值超过160亿人民币,投资方包括北京信息产业发展投资基金、上海数宇鼎元私募投资基金合伙企业、北京市东城区科技创新产业投资基金、青岛中和星耀创业投资基金。

「千寻位置」成立于2015年,是一家时空智能服务提供商,专注于时空智能基础设施的开发,基于北斗卫星系统(兼容GPS、GLONASS、Galileo)基础定位数据,利用遍布全球的5000多座GNSS星基/地基增强站、自主研发的定位算法及大规模互联网服务平台,为用户提供厘米级定位、毫米级感知、纳秒级授时的时空智能服务。

腾讯推出全球首个语音指挥 FPS AI 队友

在2024年科隆游戏展上,腾讯魔方工作室带来了创新的AI技术——「F.A.C.U.L.」,这是专为《暗区突围》端游海外版《Arena Breakout: Infinite》开发的全球首个语音指挥FPS AI队友。

「F.A.C.U.L.」结合生成式AI技术,提供先进的语音输入和实时语音合成功能,支持环境识别,能够理解玩家的语音指令并推测玩家的意图。与传统的快捷键或指令轮盘不同,「F.A.C.U.L.」允许玩家直接通过语音指挥AI队友,支持同时输入多个指令,提供更自然、直观的游戏体验。AI队友具备识别超过10000个游戏内物体的能力,增强了对游戏环境的理解,实现实时环境感知和自主决策,使AI队友能够更灵活地响应玩家指令。

你终究会成为你正在成为的人,你的每一个选择都来自于你人生的诘问。

——毛姆

编辑团队

编辑:Yuki

设计:Ivan

商务合作请加微信:Rwkfbcianvd

参考资料

[1]

Transfusion: https://the-decoder.com/metas-transfusion-blends-language-models-and-image-generation-into-one-unified-model/

[2]

Meshy-4: https://www.meshy.ai/zh/blog/meshy-4-break-grounds

十字路口Crossing
AI 正在给各行各业带来改变,我们在「十字路口」关注变革与机会,寻找、访谈和凝聚 AI 时代的「积极行动者」,和他们一起,探索和拥抱,新变化,新的可能性。「十字路口」是乔布斯形容苹果公司站在科技与人文的十字路口,伟大的产品往往诞生在这里。
 最新文章