联通开源首个中文原生文生图模型元景;阿里云宣布通义灵码AI程序员全面上线;机器海龟上岗可监测水环境、追踪生物特征|极新早报

文摘   2025-01-09 08:02   北京  

 “ 沉沉的黑夜都是白天的前奏。

文|小鱼

编辑 | 云舒
出品|极新 

要点速览

1、解决“佛跳墙、老婆饼”问题,联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”

2、闪极发布海外全新子品牌 loomos:推出 loomos AI 眼镜,搭载 GPT-4o

3、“机器海龟”上岗:Beatbot 推出 RoboTurtle 机器人,可监测水环境、追踪生物特征

4、AI“造物主”:谷歌招兵买马打造“世界模型”模拟真实世界,剑指 AGI
5、阿里云宣布通义灵码AI程序员全面上线
6、AI势不可挡!亚马逊再砸110亿美元扩建佐治亚州数据中心
▌IPO/投融资
1、AIGC数字人服务商今立智能完成2000万人民币天使轮融资

今立智能是一家AIGC数字人服务商,专注于AI技术深度研发和落地应用,面向企业商家提供智能化升级方案。国内首推短视频矩阵营销Saas平台,深耕AIGC数字人领域,领航K12智能教育革新,并孕育“立可为”“智橡树”等独立商业品牌。

2、新一代AI虚拟互动娱乐平台筑梦岛」完成1000万美元战略投资,投资方为国香资本,阅文集团等

筑梦岛是由阅文旗下女频网文平台潇湘书院孵化的新一代AI虚拟互动娱乐平台,致力于为女性用户打造虚拟世界中的沉浸式陪伴。平台主要通过提供逼真的沉浸式Al对话体验,为用户提供鲜活的AI互动和虚拟人物陪伴。用户可以创造自己的“梦中人”,并与他人创造的“梦中人”互动,通过精准匹配提升亲密度,解锁聊天、打电话、体验互动式剧情、朋友圈等陪伴玩法。

3AI+SaaS消费医疗数智化平台「LinkedCare领健」完成数亿人民币E融资,投资方为无锡创投,滨湖国投

LinkedCare领健是一个AI+SaaS消费医疗数智化平台,通过连接医院、诊所、医生、患者、数据、第三方服务及供应链,主要为口腔诊所、医美机构提供经营一系列解决方案,涉及单店/连锁管理、健康档案/电子病历、社交化客户关系管理、智能营销私域流量解决方案、智能运营、B2B耗材商城、进销存管理、保险支付、影像集成等覆盖诊所业务全流程的管理软件;此外,通过开放平台连接产业上下游,与第三方机构合作,为诊所提供完整配套的解决方案。

4、认知障碍数字疗法产品提供商脑动极光」完成5.83亿港币IPO融资,公开发行

脑动极光为认知障碍数字疗法产品提供商,专注于将脑科学与人工智能结合开发医疗级数字疗法产品,产品管线涵盖多种认知障碍的测评和干预,核心产品已获监管批准并纳入30省份医保报销目录。

▌科技要闻
1、解决“佛跳墙、老婆饼”问题,联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”

1 月 8 日消息,联通数据智能有限公司今日宣布开源首个完全在国产昇腾 AI 基础软硬件平台上实现训练和推理的中文原生文生图模型 —— 元景文生图模型。

  • 在架构上,通过在 SDXL 架构中融合复合语言编码模块,实现了对中文长文本、多属性对应和中文特色词汇的精确语义理解,对应图像的生成效果得到了极大提升。

  • 在昇腾 AI 大规模算力集群上实现了中文原生文生图模型的训练和推理,并将模型和代码对业界开源,以推动文生图领域的国产化进程。

联通数据智能有限公司表示,当前的文生图主流模型以英文输入为主,中文原生的文生图模型研发则相对比较缓慢,这导致了模型对中文语义的理解能力不足,中文特色图片生成能力有限。

对此,元景文生图模型一方面将英文 CLIP 模型替换成中文 CLIP,使得模型中文短文本输入具有更好的理解能力;同时,引入复合语言编码架构,将基于 encoder-decoder 架构的语言模型引入了语言编码器部分,这使得模型能支持超过 CLIP 长度限制的长文本,实现更准确的中文语义理解和判断。

元景中文文生图架构

通过引入复合语言编码模块,元景文生图模型实现了原生中文语义理解,避免了传统的利用翻译插件等作为中介调用英文文生图模型的方法所带来的中文信息损失。

同时通过引入海量中文图文对数据进行预训练,模型对中文专属名词,如鼠标-老鼠、仙鹤-吊车等英文模型易混淆的对象,以及中文菜谱等英文模型无法理解的名词,都能够准确理解并生成对应的图片。

▲ 提示词:鼠标、老鼠(在英文中均翻译成 mouse,易混淆)

提示词:仙鹤、吊车(在英文中均翻译成 crane,易混淆)

提示词:佛跳墙、老婆饼(中文特色词汇)

提示词:一只身体毛发黑白相间的兔子正在草丛间啃胡萝卜

提示词:在绿色的森林中,隐藏着一座白色的哥特式教堂,教堂的尖塔直指蓝色的天空,教堂周围是五彩斑斓的野花和浅黄色的草坪(中文长文本)

中国联通在国产昇腾 AI 基础软硬件平台上实现了元景文生图模型从微调训练到推理的一体化适配。在微调训练方面,用户可使用自定义数据集,实现从其它平台至昇腾的平滑切换;在模型推理方面,接口与 Diffusers 对齐,支持单卡和多卡,单卡推理支持 UNet Cache 加速。

联通数据智能有限公司透露,目前,元景文生图模型已在联通内外部多个项目中成功应用。(IT之家)

2闪极发布海外全新子品牌 loomos:推出 loomos AI 眼镜,搭载 GPT-4o

1 月 8 日消息,闪极今日在 CES 2025 发布了海外全新子品牌 loomos,并推出新品 loomos AI 眼镜。

在硬件配置、特色功能等方面,loomos AI 眼镜基本与国内版闪极 AI 「拍拍镜」相同的配置,支持 4K 照片和 1080P 视频拍摄。

不同于国内版搭载的是科大讯飞、云天励飞、通义千问等大模型,loomos AI 眼镜将从由 GPT-4o 驱动的语音助手获得即时帮助,如文字翻译、物品识别、记忆车位、信息检索等。

据了解,loomos AI 眼镜将于 1 月 21 日左右登陆 Kickstarter 平台开启众筹。官方还透露将在北美及欧洲等区域设立分公司,推动闪极 AI 眼镜业务在全球市场的突破。

在产品造型和佩戴方面,闪极 AI「拍拍镜」携手眼镜品牌 LOHO 进行联名外观设计。结合亚洲人面部特征进行人机工学设计,并引入弹簧镜腿、无感气垫鼻托等人性化设计,做到“舒适不压脸、不压鼻梁”。

产品整机重约 50g,还提供多款磁吸墨镜镜片,并赠送可遮挡摄像头的磁吸前框。

续航方面,闪极 AI「拍拍镜」在机器内置 3 块电池,总容量达 450mAh,并采用 Pogo-Pin 磁吸式接口,支持边充边戴。

拍摄方面,产品搭载索尼 1600 万像素摄像头,首次在 AI 眼镜端实现 1600 万全分辨率照片画质、1600 万像素摄像头低功耗视频防抖、123° 超广角模拟人眼视角等功能。

该产品搭载紫光展锐 W517 芯片,采用 2GB RAM+32GB ROM 存储组合,4  核 CPU。基于该芯片平台,闪极还推出旗下自研 AI 眼镜平台架构 —— 影瞳 1.0,支持全天候佩戴、无限持久续航、独立手机使用、可拓展升级等一系列服务。

声学方面,闪极联合 AAC  瑞声科技团队针对「拍拍镜」的综合声场进行调教,产品首发瑞声超线性 Hi-Fi 扬声器,支持双 DSP 独立功放,可提供高保真双声道立体声,还有低频增强和动态 EQ 双重 AI 算法。此外,产品后续还将开放 Hi-Fi 级无线串流音乐,通过 Wi-Fi 下载音源,实现苹果 HomePod 同源无损播放。

软件和 AI 方面,闪极 AI「拍拍镜」搭载闪极自研 AI 记忆系统 —— Loomo OS(中文名:录眸)。该系统融入 AI 云盘、AI 闪记、Agent Store、云端 AI 中心、数据安全系统、Hi 闪极等服务,可实现对用户的录音、文字和图像等多模态数据的记录、存储和多端同步。

通过内置的 AI 应用商店,眼镜可实现对于各种 AI 能力的灵活调用。在云端 AI 服务方面,闪极「拍拍镜」已经或即将接入云天励飞、讯飞星火、通义千问、Kimi、智谱等国内十余家大模型厂商。通过眼镜摄像头把采集到的图像或视频数据经由 AI 大模型处理,支持物品识别、文本翻译、记忆与查询车位、卡路里计算、烹饪指导等功能。(IT之家)

3、“机器海龟”上岗:Beatbot 推出 RoboTurtle 机器人,可监测水环境、追踪生物特征

1 月 8 日消息,泳池清洁机器人公司 Beatbot 在 CES 2025 大展推出了最新一代两栖机器人 RoboTurtle(机器海龟),专门用于生态研究、水域保护和应急响应。据悉,该设备具备水环境监测、生物特征追踪及 AI 驱动的有害物质采样等功能。

从官方获悉,RoboTurtle 专为水域管理和物种监控而设计,具备多项独特功能,包括:

  • 具身智能技术:配备了高效的感知系统和灵活的运动能力,能实时感知环境并快速响应,确保高效完成任务。

  • 先进浮力系统:使其能轻松在陆地和水面之间切换,适应各种复杂地形和水域环境,能够应对如水流、崎岖地形等动态条件。

  • 仿生多关节肢体:模仿自然海龟的动作,以精准且非侵入性的方式探查敏感生态,最大限度地减少对生态环境的扰动。

  • 高效太阳能电池板:环保且高效的能源来源,确保机器人在低碳环境下自主运行。

  • AI 摄像头:该系统能够自动监测周围环境,提供详尽的生物监测数据,帮助研究人员更好地管理水域资源。

此外,RoboTurtle 能够快速识别并警告用户油污泄漏、灾难损害或濒危物种的出现。(IT之家)

4、AI“造物主”:谷歌招兵买马打造“世界模型”模拟真实世界,剑指 AGI

 1 月 8 日消息,科技媒体 The Verge 昨日(1 月 7 日)发布博文,报道称谷歌 DeepMind 正计划组建一支专业团队,全力打造能够模拟真实物理环境的“世界模型”。

该项目由前 OpenAI Sora 项目联合负责人 Tim Brooks 领衔,他于今年 10 月加入 DeepMind,负责谷歌的视频生成和世界模拟器工作,此举被视为谷歌在通用人工智能(AGI)领域与竞争对手展开角逐的重要一步。

注:世界模型是 AI 中一个新兴的发展方向,拥有巨大的应用潜力。该项目通过预训练扩展视频和多模态数据,并集成多模态语言模型,可用于为视频游戏和电影创建实时交互式媒体环境,以及为机器人和其他 AI 系统创建逼真的训练场景等诸多场景,是通往通用人工智能(AGI,指机器能够理解或学习人类能够执行的任何智力任务)的关键路径。

Brooks 在 X 平台上公布了两个面向研究工程师和科学家的职位空缺,旨在招募人才解决“大规模”训练、数据整理以及与多模态语言模型集成等关键问题。DeepMind 在职位描述中强调,世界模型将为视觉推理和模拟、具体代理的规划以及实时互动娱乐等领域提供支持。(IT之家)

▌股市风云

1、阿里云宣布通义灵码AI程序员全面上线

1月8日,阿里云宣布通义灵码AI程序员全面上线。据介绍,此次升级后的通义灵码AI程序员作为全球首个同时支持VS Code、JetBrains IDEs开发工具的AI程序员,可通过对话协作的方式辅助开发者完成复杂的编码任务。此外,通义灵码AI程序员还首次引入多文件代码修改能力,并新增上下文感知、意图理解、反思迭代、工具使用等多种开发能力。(界面新闻)
2、AI势不可挡!亚马逊再砸110亿美元扩建佐治亚州数据中心
亚马逊云计算部门亚马逊网络服务(AWS)计划在佐治亚州投资至少110亿美元,以扩大其基础设施,并支持各种云计算和人工智能技术。
周二(1月7日),该公司在一份新闻稿中写道,AWS将扩大其在佐治亚州的业务,推动人工智能等下一代尖端技术的蓬勃发展,“我们感谢与我们合作的州和地方领导人,我们期待着让佐治亚州保持在数字时代的前沿。”
AWS还估计,这项投资预计将在该州创造大约550个就业岗位。
值得一提的是,就在大约八个月前,也就是2024年4月,亚马逊曾表示将向印第安纳州的数据中心投入同样数额的资金——110亿美元,这笔投资创造至少1000个就业岗位。当时的投资承诺是建立在AWS在该州已经拥有强大影响力的基础之上的,根据计划新的设施将容纳用于支持云计算和生成人工智能的计算机设备。财联社

▌好文推荐

“ 大模型的时代已经到来,每个人都不可避免地被卷入其中。


更多干货分享敬请关注我们的公众号与视频号~超多精彩对话内容等待您的解锁!


扫码加入【极新】科技行业交流群,探索科技前沿趋势,本群适合创始人、CXO、行业高管。
关于极新:
极新是垂直于产业AI的创投和行业研究媒体,致力于陪伴和记录科技企业进步和产业成长。已与多家平台和创新企业深度对话和合作,包括华为云、阿里云、百度智能云、金山云、飞书、火山引擎、钉钉、东软、Zoho、容联云、百家云等平台企业,以及智谱AI、百川智能、格灵深瞳、深势科技、百图生科、瑞莱智慧、创客贴、生数科技等高成长公司。

推荐阅读

2024投融资趋势追踪:1月 | 2月 | 3月 | 4月 | 5月 | 6月 | 7月 | 8月 |9月 10月 | 11月 | 12月

深度对话·创新&增长的源动力:创元集团 | 八友科技 | 松应科技 | 迁移科技 | 易参 | Databend Labs | 必优科技 | 鹿遥文化 | 卫瓴科技 | 极睿科技 | 新希望 | 微吼 | 致趣百川 | 奇酷网络 | 实在智能 | 演示大师 | 姿美堂 | 青松保 | 顺网科技 | 云蝠智能 | 小仙炖 | 惠买集团 | 菜百 | 宜创科技 | 百家云 | WeShop创客贴 | 行行AI | 一览科技 | 灵犀深智 | 金山云 | 订阅蜂 | 句子互动 | 询盘云 |猎聘出海

极新
企业服务和硬科技垂直媒体,陪伴和记录科技企业创新与成长。
 最新文章