微软开源OmniParser纯视觉GUI智能体;华为云公布两项数字人相关专利丨AIGC日报

创业   2024-10-30 08:01   北京  

1.【梦网科技联合智谱AI推动5G阅信应用再升级,实现“文生文”、语义分析等功能】10月25日,智谱AI推出自主智能体Au-t-o-G-LM。该智能体可以通过语音指令理解用户意图并模拟人类操作手机。据相关资料显示,在实际应用中,梦网科技联合智谱AI推动5G阅信应用再升级,实现了“文生文”、“文生图”以及语义分析、素材分析等强大功能,为企业主带来前所未有的便捷和效率,推动消息服务智能化转型。

2.【华为云公布两项数字人相关专利】10月29日,华为云计算技术有限公司申请的“数字人多媒体资源的生成方法、装置、设备及存储介质”和“数字人视频的生成方法、装置、设备及存储介质”专利公布。“数字人视频的生成”专利提供了一种支持灵活编辑对象属性的数字人视频生成流程,基于输入的单张对象图像,无需更多操作,即可根据用户需求来调整数字人呈现的对象属性,生成自然、真实性强的数字人视频,提升用户体验,降低生成过程中提高真实性所需的操作成本。

3.【微软开源OmniParser纯视觉GUI智能体:让GPT-4V秒懂屏幕截图,可操控手机 / 电脑】科技媒体marktechpost称微软公司宣布开源OmniParser,是一款解析和识别屏幕上可交互图标的AI工具。该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能GUI自动化领域的一项令人兴奋的进展。OmniParser 结合可交互区域检测模型、图标描述模型和OCR模块等,不需要HTML标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作,提高用户界面的解析准确性OmniParser除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。

4.【消息称Meta正开发自家AI搜索引擎:追赶OpenAI,降低对微软、谷歌的依赖】科技媒体The Information 10月28日发布博文,报道称Meta公司一方面为减少对微软、谷歌的依赖,另一方面追赶 OpenAI在AI领域的发展,正开发一款AI搜索引擎。该媒体报道,内置于Instagram和Facebook 的 Meta AI 机器人目前调用谷歌公司的 Google 和微软 Bing 搜索引擎,来回答用户关于近期新闻和事件的问题。而消息称Meta公司早在8个月前就组建了专门的团队,通过网络爬虫收集了大数量网页数据,并建立了一个信息数据库。Meta还在努力构建位置数据,以与Google Maps竞争,显示出其在搜索引擎领域的野心。

更多AIGC资讯……

扫码订阅AIGC产业日报,
精选行业新闻,帮你省时间!👇


此外,如果您还想查公司、找项目、看行业,深入了解人形机器人、商业航天、AGI等热门赛道,欢迎加入睿兽分析会员,解锁相关行业图谱和报告等。(活动期间加入会员可免费获赠一份产业日报)👇👇




快鲤鱼
创业邦旗下AGI矩阵号,寻找海内外创新性的AGI高成长公司,记录AGI商业领袖的成长轨迹。
 最新文章