01 创新之变:从“互联网+”到“人工智能+”
新华社北京12月31日电 《经济参考报》12月31日刊发记者吴蔚采写的文章《中国经济深观察|创新之变:从“互联网+”到“人工智能+”》。文章称,人工智能在2024年迎来“应用元年”。2024年政府工作报告首提“人工智能+”行动,在政策指引下,各行业加快探索“人工智能+产业发展”新模式,各种创新要素加速在人工智能领域集聚。从“互联网+”到“人工智能+”,创新之变正在打开经济增长的更大空间。
从“联接”到“赋能”
“2024年以来,高层数PCB(印刷电路板)订单占比越来越高。”嘉立创集团负责人告诉记者,PCB素有电子硬件创新“风向标”之称,全球大多数电子工程师打样和小批量试产所需定制电路板都在中国进行采购。与互联网时代单层板为主的需求不同,如今高端板的需求越来越旺盛。
在业内人士看来,自2015年开启的“互联网+”行动旨在推动互联网的创新成果与经济社会各领域深度融合,侧重于解决“信息孤岛”问题,而2024年首提开展“人工智能+”行动,强调的则是人工智能技术的“生产力赋能”。正如中国工程院院士、中国科学院沈阳自动化研究所研究员于海斌在2024年中国自动化大会上所言,互联网是“底座”,在底座上还要加上“手段”,就是人工智能。从“互联网+”到“人工智能+”,既顺应了新一轮科技革命和产业变革发展趋势,也标志着我国在科技创新领域迈出了新的步伐。
“人工智能作为新质生产力的重要引擎,不仅代表了科技的前沿趋势,更是未来经济发展的关键驱动力。”中国自动化学会副理事长、青岛科技大学副校长李少远教授表示,各行业正在探索“人工智能+产业发展”的新模式,加速新质生产力的形成与发展。
与2023年“百模大战”比拼理论性能不同,2024年人工智能转向更加实际的应用探索。中国信通院最新发布的《人工智能发展报告(2024年)》认为,当前人工智能应用持续走深向实,行业大模型已在金融、医疗、教育、零售、能源等多个行业领域实现了初步应用,并产生了明显的经济效益和社会效益。
不仅如此,人工智能应用还在向更细分的生产环节渗透。百度智能云智慧工业总经理李超举例说,一个日处理5万吨的污水厂,一年的药剂成本大概是三四百万元,现在应用人工智能技术精准投药可节约15%的成本。据他介绍,百度在全国各地建立人工智能赋能的基地,并把人工智能技术提供给当地的中小企业,比如做玩具、电子元器件、零部件的工厂,在分拣、产品质量检测环节,效率明显提升。
在技术应用快速“下沉”的同时,人工智能还在前沿领域不断“向上”突破。近日,华中科技大学李岩教授团队利用华为云盘古药物分子大模型开发出全球首个利什曼病的预防性抑制剂,药物研发周期缩短至数月,研发成本降低了60%以上,打破了新药研发10年10亿美元的“双十定律”。华为、科大讯飞等科技企业在AI for Science(科学智能)领域的探索,正在将人工智能技术与科学研究相结合,现已涵盖生物医药、计算化学、地球科学、电磁学、流体等科学领域。
创新要素加速集聚
人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应。2017年国务院印发《新一代人工智能发展规划》,提出以提升新一代人工智能科技创新能力为主攻方向,此后,《促进新一代人工智能产业发展三年行动计划(2018-2020年)》《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》等一系列顶层设计相继出台。2024年,“人工智能+”行动首次被写入政府工作报告。近日召开的中央经济工作会议确定了2025年要抓好的九项重点任务,其中之一就是以科技创新引领新质生产力发展,建设现代化产业体系,开展“人工智能+”行动。
在李少远看来,我国人工智能技术发展具备三大显著优势:政策环境持续优化,政府对人工智能技术的扶持力度不断加码;应用场景丰富多元,市场需求潜力巨大,为人工智能技术的实践应用提供了肥沃土壤;科研实力日益增强,我国在人工智能技术研发上取得了诸多突破性进展,科研团队与企业竞争力显著提升。
工业和信息化部最新数据显示,我国已建成1200余家先进级智能工厂和230余家卓越级智能工厂,个性定制、柔性生产、虚拟制造、智慧服务等新模式新业态加快孕育发展。与此同时,我国累计发布469项智能制造国家标准、50项国际标准,6500余家智能制造系统解决方案供应商服务范围涵盖全部制造业领域。
更多的创新要素仍在加速聚集。数据显示,截至2024年6月,我国人工智能企业数量已超4500家,核心产业规模接近6000亿元,初步建成较为全面的人工智能产业体系。在技术领域,世界知识产权组织报告显示,2014年至2023年,中国生成式人工智能专利申请量超3.8万件,居世界第一。在人才方面,工业和信息化部负责人在2024开放原子开发者大会上透露,我国软件开发者数量已经突破940万。我国已经成为全球开源参与者数量排名第二,增长速度最快的国家。在资金方面,数据显示,截至12月17日,我国年内AI领域共发生644起投融资事件,超过2023年全年(633起);涉及金额821.29亿元,而2023年为636.76亿元。
创新空间升维
“人工智能技术正在以惊人的速度改变着世界,人类社会的每一个领域都因其而焕发生机。”中国工程院院士、中国自动化学会理事长郑南宁认为。
北京交通大学中国高端制造业研究中心执行主任朱明皓告诉记者,从人工智能技术发展态势来看,它极有可能成为像物理、数学一样的底层学科技术,将会重造社会发展的物理空间和虚拟空间。2024年诺贝尔三大科学奖项中,物理学、化学两大奖项均与人工智能研究相关。
人工智能正在成为全球科技创新的“角斗场”。中国信息通信研究院发布的《人工智能发展报告(2024年)》显示,大模型领域拉动全球人工智能投融资金额上扬。2024年上半年,全球人工智能投融资金额达316亿美元,同比上升84%。在全球融资紧缩的背景下,受益于大模型发展和企业融资带动,人工智能领域融资占全行业融资比例持续上升,从2022年的4.5%上升至2024年上半年的12.1%。
当前,我国人工智能企业数量、投资金额、科研实力仍处于“追赶”阶段。朱明皓等业内人士建议,加强人才培养,特别是数学、物理、计算机等底层学科高层次人才的培养;从研究到投资,人工智能领域都需要有耐心支持;发挥我国制造业的应用场景丰富优势,鼓励跨行业跨领域协同,以制造业为主体构建人工智能研究体系,在新一轮科技革命和产业变革中抢占先机。(来源:新华网)
02 英伟达计划 2025 年发布新一代具身机器人芯片
近日,据英国金融时报报道,英伟达计划将于 2025 年上半年推出最新一代人形机器人芯片 Jetson Thor。
报道称,英伟达将自己定位为「领先」的具身机器人芯片平台。英伟达将销售一种「全栈」式的解决方案,从用于训练具身机器人的软件层面到机器人内置的芯片均会一同提供。
英伟达机器人业务负责人兼副总裁 Deepu Talla 向媒体表示,物理 AI 领域和机器人领域的「ChatGPT」时代即将到来,并且他认为市场已经到了「转折点」时刻。
Talla 同时表示,目前爆发式增长的生成式 AI 以及通过模拟生成的环境,都将推动甚至突破机器人市场增长。Talla 还强调了模拟环境对机器人的训练将起到很关键的作用,有助于解决机器人学家所说的「模拟与真实的差距」。Talla 透露,过去 12 个月里,英伟达已经能够结合生成式 AI 去进行模拟实验。
据报道,英伟达目前正面临多家公司的 AI 芯片竞争,包含 AMD 等竞争对手和亚马逊、微软等云计算巨头,同时多家厂商都在减少对英伟达的依赖。据悉,今年 2 月,包括微软和 OpenAI 在内的几家公司均投资了具身机器人公司 Figure AI。(来源:爱范儿)
03 鸿蒙原生版搜狗输入法上线
近期,鸿蒙原生版搜狗输入法应用已正式上线鸿蒙应用市场。
此次上线的鸿蒙原生版搜狗输入法,为用户提供了多样化的输入方式,包括拼音输入、手写输入和语音输入,满足了不同用户在各种场景下的输入需求。
在基本的输入功能外,鸿蒙原生版搜狗输入法还提供了丰富的emoji表情和颜文字,增加了聊天场景下的趣味性和生动性。
另外,用户可以轻松管理和使用剪贴板中的内容,提高效率,并且音效与振动功能也进一步提升了输入的手感和体验。(来源:爱范儿)
04 消息称英特尔计划于 2025H1 推出锐炫 B580 24GB 显存翻倍显卡
12 月 31 日消息,台媒 BenchLife.info 表示,英特尔计划在 2025 年上半年推出配备 24GB 显存的 "Battlemage" 架构独立显卡,预计即锐炫 B580 24GB。
报道认为,有鉴于英伟达、AMD 竞争对手专业显卡近年来销售状况不佳,在英特尔深耕专业显示领域时间较晚的背景下“应该再也见不到 Intel Arc Pro 系列产品推出”;同时英特尔也应该会从产品线中移除数据中心 GPU Flex(IT之家注:该系列显卡面向视觉云、媒体和推理应用)。
在此背景下,将由英特尔锐炫品牌完全承接面向生产力应用的“客户端 GPU 型”显卡型号,因此传闻中的显存翻倍显卡也将纳入锐炫产品线中。
该媒体表示,这张 24GB 的显卡将同现有锐炫 B580 12GB 一样基于 BMG-G21 GPU 核心,配备 12 颗 16Gb (2GB) 的 GDDR6 显存,具体推出时间可能会落在 2025 年一季度末~ 二季度初,不过在目前阶段一切尚未定案。(来源:IT之家)
05 AI发展:训练数据即将遭遇瓶颈
得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。“做大做强”的策略,在构建大型语言模型(LLM)上取得了显著成果,ChatGPT就是一个典型的例子。
然而,《自然》《麻省理工科技评论》等多家杂志网站指出,AI扩展正逼近极限。一方面,AI“吞噬”着越来越多的能源;另一方面,滋养无数模型成长的传统数据集,正被LLM开发人员过度开垦。
AI几乎读取了互联网上的所有内容,但仍渴望获得更多数据。为此,开发人员必须寻找变通之道。
图片来源:twistedsifter.com
训练数据即将遭遇的瓶颈已悄然浮现。有研究机构预测,到2028年左右,用于训练AI模型的数据集典型规模将达到公共在线文本总估计量的规模。换句话说,AI可能会在大约4年内耗尽训练数据。与此同时,数据所有者(如报纸出版商)开始打击对其内容的滥用行为,进一步收紧了访问权限,这将引发“数据共享”规模上的危机。为此,开发人员必须寻找变通之道。
数据集供需失衡
过去10年间,LLM的发展显示出了对数据的巨大需求。自2020年以来,用于训练LLM的“标记”(或单词)数量已增长100倍,从数百亿增加到数万亿。一个常见的数据集RedPajama,包含数万亿个单词。这些数据会被一些公司或研究人员抓取和清洗,成为训练LLM的定制数据集。
然而,可用互联网内容的增长速度出乎意料的缓慢。据估计,其年增长率不到10%,而AI训练数据集的大小每年增长超过一倍。预测显示,这两条曲线将在2028年左右交汇。
与此同时,内容供应商越来越多地加入软件代码或修改条款,阻止爬虫及AI抓取其数据。在这些内容中,被明确标记为限制爬虫访问的数量,从2023年的不足3%猛增到了2024年的20%至33%之间。
当前,围绕AI训练中数据使用的合法性,试图为数据提供商争取应有赔偿的多起诉讼正在进行。2023年12月,《纽约时报》向OpenAI及其合作伙伴微软提起了诉讼,指控其侵犯了版权;今年4月,纽约市Alden全球资本旗下的8家报纸联合发起了一起类似的诉讼。对此,OpenAI表示,《纽约时报》的诉讼“毫无根据”。
若法院最终站在内容提供商一方,支持其获得经济赔偿,那么对于AI开发人员,尤其是那些资金紧张的学者而言,获取所需数据无疑将变得更加艰难。
新方法有待印证
数据匮乏对AI的传统扩展策略构成了潜在挑战。
寻找更多数据的一个途径是收集非公开数据,如社交媒体消息或视频文字记录。然而,这种做法的合法性尚存争议。
一些公司选择使用自己的数据来训练AI模型,如Meta利用虚拟现实头显收集的音频和图像进行训练。但各公司政策不同,包括Zoom在内的一些公司则明确表示不会使用客户内容训练AI。
另一种选择可能是专注于快速增长的专业数据集,如天文学或基因组学数据,但其对训练LLM的可用性和实用性尚不清楚。
如果AI接受除文本之外的多种类型的数据训练,可能会为丰富数据的涌入打开闸门。Meta首席AI科学家勒丘恩强调,人类通过观察物体而“吸收”的数据远超用于训练LLM的数据量,机器人形态的AI系统或许能从中获取经验。
此外,制造数据也是解决之道。一些AI公司付费让人们生成训练内容,或使用AI生成的合成数据来训练AI。这已成为一个潜在的巨大数据源。然而,合成数据也存在问题,如递归循环可能巩固错误、放大误解,并降低学习质量。
小模型更专更精
另一种策略是摒弃模型“越大越好”的开发观念。一些开发者已在追求更高效、专注于单一任务的小型语言模型。这些模型需要更精细、更专业的数据以及更好的训练技术。
12月5日,OpenAI发布了新的OpenAI o1模型。尽管该公司未透露模型的规模或训练数据集大小,但o1采用了新方法:在强化学习上投入更多时间,让模型对每个回答进行更深入的思考。这标志着一种转变,即从依赖大规模数据集进行预训练,转向更注重训练和推理。
当前,LLM可能已饱览互联网大部分内容,或许无需更多数据即可变得更智能。美国斯坦福大学一项研究表明,模型从多次读取给定数据集中学到的内容,与从相同数量的唯一数据中学习到的内容一样丰富。
合成数据、专门数据集、多次读取和自我反思等因素的结合,或将共同推动AI的进一步飞跃。(来源:科技日报)