1. 中国互联网络信息中心发布《生成式人工智能应用发展报告(2024)》
11月30日,中国互联网络信息中心发布《生成式人工智能应用发展报告(2024)》,全面分析了我国生成式人工智能的产业发展、投融资、用户使用等情况。报告显示,我国已初步形成高标准的人工智能产业体系,相关企业超4500家,核心产业规模近6000亿元。同时,以大模型为代表的人工智能产品快速发展,用户已达2.3亿。北京、上海、广东等地在生成式人工智能产业上具有区域发展优势。报告还指出,生成式人工智能与各产业融合,推动新型工业化、智慧农业和服务业提质增效,未来将形成“人工智能+千行百业”的产业新格局,并提出了相关发展建议。
简评:该报告全景式剖析了我国生成式人工智能的产业现状与趋势,并通过投融资与用户数据反映出当前的发展热度。内容覆盖范围广,既揭示了北京、上海、广东等重点区域在AI产业上的优势,也从“人工智能+千行百业”的融合视角提出了未来的发展建议。通过解读此报告,可深入了解我国在AI核心产业上所取得的阶段性成果与前沿技术实践,也能预见在新型工业化、智慧农业以及服务业等方面的应用前景。对于AI研发者、企业与相关政策制定者而言,该报告具有重要的参考价值,为进一步推动生成式人工智能的规模化应用提供了清晰的路线图和创新思路。
2. OpenAI进行12天连续直播发布产品
OpenAI通过连续12天的直播,公布了大模型相关的最新进展,包括最新的o1系列人工智能模型,在推理和数学问题解决方面表现卓越,尤其对化学家、物理学家、工程师和金融专业人士等具有重要帮助。这些模型的前身被称为“Strawberry”,在美国数学邀请赛(AIME)中的答题准确率远超前代模型GPT-4o,且在博士水平科学问题上的准确率也高于人类专家。o1模型在减少“幻觉”现象和提高安全性方面也有所改进。然而,o1-preview模型在处理某些任务时仍存在局限性,例如在井字棋游戏和语言任务上的表现不如GPT-4o,且回答问题所需时间更长。尽管如此,o1模型的推出标志着人工智能在复杂任务处理能力上的显著进步。在后续的直播中,陆续发布了o1 Pro 模式,强化微调(Reinforcement Fine-Tuning,RFT)技术,Sora视频生成模型,升级版开放交互界面 Canvas,chatGPT与ios系统等集成工作,AI搜索等全新进展,并在最后一天的直播中对未来的o3模型进行展望。
简评:OpenAI全方位展示了AGI在各个领域的应用潜力,正如之前参与开发了o1的 OpenAI科学家Noam Brown在采访中说的一样,“2024年,OpenAI是在实验,而2025年就是全速前进的一年。”
3. DeepSeek-R1 推理模型上线,实现 o1 推理过程:
11月20日,DeepSeek宣布全新研发的推理模型DeepSeek-R1-Lite预览版正式上线。官方表示,DeepSeek-R1系列模型采用强化学习训练,其推理过程包含大量反思和验证,支持超长的思维链,长度可达数万字。这种设计使其在数学、代码以及复杂逻辑推理任务中,表现出媲美OpenAI o1-preview的推理能力,并进一步展现了OpenAI o1所未公开的完整思考过程。测试结果显示,DeepSeek-R1-Lite在美国数学竞赛(AMC)的最高难度测试AIME,以及顶级编程竞赛平台Codeforces的评测中,均超越了包括GPT-4o在内的多款知名模型。这一成绩证明,DeepSeek-R1在严谨推理任务上的能力已达到行业领先水平。值得注意的是,DeepSeek官方还宣布,正式版DeepSeek-R1模型将会完全开源,同时发布技术报告并提供API服务,方便开发者进一步探索和应用这一模型。
简评:DeepSeek是国内领先的大模型公司,其发布R1模型对标GPT-4o,是国内大模型的重要进展之一。
4. OpenAI视频生成大模型Sora正式上线,火爆致使官网崩溃
OpenAI宣布,其全新人工智能视频生成模型Sora正式向用户开放。这款系统可以根据文本提示生成逼真的视频,从首次公开预览到正式推出,OpenAI用了整整10个月的时间。据官方介绍,Sora已于当天晚些时候向美国及其他市场的ChatGPT付费用户开放使用。Sora的增强版工具“Sora Turbo”支持生成时长最长达20秒的视频,并能够提供多种变体选项。在技术层面,业界普遍认为Sora延续了OpenAI的Scaling Law策略,通过大规模数据、强大算力和超大参数模型的结合,实现了突破性成果。然而,Sora的火爆程度也带来了意料之外的挑战,其官网因访问量过大一度崩溃。
简评:OpenAI的Sora被认为是世界模型,能够帮助人们模拟真实物理世界和进行实验。其正式版本的发布更是受到了全世界的关注。
5. Meta开源Llama3.1,性能超越GPT-4
7月23日晚间,Meta正式发布其最新开源大模型Llama 3.1,引发全球AI开发者热切关注。此次发布的Llama 3.1拥有多个版本,其中参数规模最大的Llama 3.1-405B被视为Meta对标OpenAI和谷歌大模型的全新力作。Meta CEO马克·扎克伯格称其为“艺术的起点”,展现了Meta在AI领域的雄心。测试数据显示,Llama 3.1-405B在多个AI基准测试中表现优异,特别是在GSM8K、IFEval、ARC Challenge和Nexus等测试中超越了OpenAI的闭源模型GPT-4o,这是开源模型首次在性能上击败当前最先进的闭源大模型。值得注意的是,Llama 3.1还搭载了超大的上下文窗口(context window),支持多达128,000个标记,约为一本50页书籍的长度,大幅提升了其在长文本处理和复杂任务中的适用性。
简评:Meta的Llama一直是最重要的开源大模型系列,Llama3.1也展现了非常好的性能表现,受到大家广泛关注。
6.Ilya宣布预训练时代即将迎来终结,AI智能体就是未来的发展方向
在最近的NeurIPS 2024会议上,Ilya提出一个引人注目的观点:预训练模型所依赖的海量互联网数据正逐渐接近其可用极限,这标志着预训练时代的可能终结。为了推动AI技术的进一步发展,我们必须从现有资源中挖掘新的潜力。Ilya认为未来的创新将集中在三个关键领域:智能体、合成数据以及推理计算能力。
他预测,能够独立执行任务的AI智能体将成为行业发展的重要趋势;而通过合成数据来增强或替代传统数据集,可以为训练模型提供一种新颖且高效的方式。此外,强化AI的推理能力对于实现真正的超级智能至关重要。这一转变不仅预示着技术路径的重大调整,也代表着对AI系统性能和效率提出了更高的要求。
简评:Ilya指出了AI下一个时代的发展方向,具有重要的参考价值。智能体、合成数据和推理时计算是当前各团队的研究重点,值得保持关注。
7. 李飞飞组提出World Labs可交互3D世界生成模型:
12月2日,斯坦福大学教授李飞飞创立的World Labs揭晓了一项创新成果:一款能够利用单张静态图片生成具有交互性和可修改性的3D世界的AI产品。这一技术突破了传统的照片到3D模型转换的限制,允许用户“走进”任何一张图像,并在其中以3D形式进行探索。根据World Labs网站的演示,这些由AI创建的场景通过浏览器实时渲染,用户可以通过键盘上的箭头键或WASD键进行移动,同时使用鼠标点击和拖动来进行交互,实现了对虚拟空间的自由探索。这一技术的应用前景广阔,可能会在游戏开发、虚拟现实、建筑设计等多个领域产生深远影响。
简评:World Labs的AI创新成果突破了传统“照片到3D”技术的局限,不仅能从单张静态图片生成可交互、可修改的3D世界,还支持在浏览器环境下实时探索。该能力对于游戏开发、虚拟现实、建筑设计等领域将带来全新思路和更高效的创作方式,值得行业重点关注与推广。该工作目前已获得英伟达等企业投资超2.3亿美元。
8. LeCun团队发布零样本规划世界模型,DINO-WM开启任务无关型智能新篇章
近日,LeCun及其团队公布了他们在世界模型领域的最新研究成果——一种基于预训练视觉特征的世界模型,能够实现零样本规划。该模型的独特之处在于它完全不依赖于专家演示、奖励建模或预先学习的逆向模型,从而突破了传统方法的限制。研究团队指出:“DINO-WM(DINO World Model)在填补任务无关型世界建模与推理控制之间的空白方面迈出了重要一步,为通用世界模型在现实世界应用中展现了广阔的前景。”
通过利用预训练的视觉特征,DINO-WM能够在没有特定任务指导的情况下,自主理解环境并进行规划,这标志着AI系统在复杂环境中独立操作能力的重要进展。
简评:这项研究代表了世界模型领域的一项重大突破,DINO-WM的成功为在那些需要快速适应变化环境的应用场景中,如自动驾驶、机器人技术和个性化服务等,开发更通用、适应性更强的智能体铺平了道路。
9. OpenAI 推出强化微调技术,引领模型个性化与推理能力新突破
在12月7日的最新进展中,OpenAI推出了强化微调(Reinforcement Fine-Tuning, RFT)这一创新技术。RFT允许开发者运用强化学习针对具体任务对预训练模型进行更精细的调整,并且能够根据设定的标准答案评估和优化模型的输出质量。这项技术不仅使模型可以更好地模仿输入数据中的模式,更重要的是,它能指导模型学会在特定领域内以新颖的方式进行推理。
通过这种互动式的学习过程,模型得以不断迭代改进,从而在特定任务上展现出更加卓越的表现。这标志着AI开发进入了一个新的阶段,即不仅限于简单的模式识别,而是向具备更高层次的理解和推理能力迈进。
简评:强化微调技术反映了当前AI研究的一个重要趋势——从大规模预训练转向精细化的任务导向型优化,这对于推动整个行业向前发展至关重要。
AI正当时,中国电信完成全模态体系构建
作为中国电信集团的核心 AI 力量,中电信人工智能科技有限公司和中国电信人工智能研究院(TeleAI)致力成为国内领先的通用人工智能服务提供商,在大模型时代,TeleAI作为最早布局大模型的央企机构之一,坚持全链路自主研发创新,以“星辰”为名片,构建了全模态完备的大模型基础框架。星辰大模型系列的语义、语音、多模态大模型均已完成算法及服务的网信办双备案。标志着可正式对外提供完备的全模态生成式人工智能服务。
12月3日,中国电信“2024数字科技生态大会”在广州召开,主题为“AI赋能,共筑数字新生态”。在本次数字科技生态大会的主论坛上,中电信人工智能科技有限公司董事长兼总经理何忠江重磅发布了首个由央企全自研的视频生成大模型和视觉大模型产用一体化平台,进一步完成了 TeleAI 大模型全模态能力的完整布局。
首个央企全自研视频生成大模型
随着大模型技术的快速发展,文生视频已成为备受国内外AI产业关注的方向之一。而 TeleAI 本次发布的视频生成大模型创新地打造了“VAST(Video As Storyboard from Text)二阶段视频生成技术”,首先通过文本描述精准勾勒出包含视频构图、主体目标位置及人物姿态等关键信息的“故事板”(Storyboard),进而利用这些关键信息生成对应的视频内容。得益于 VAST 的创新能力,TeleAI 的视频生成大模型可以保证单个或多个主体人物在各视频片段中的外观一致性,实现对复杂动作和交互式动作的精确控制,并让角色和目标物体的运动符合物理规律。基于此,TeleAI 目标通过语义、语音、文生图、文生视频等全栈大模型能力打通短剧及影视制作的各个环节,覆盖文字脚本撰写、分镜脚本绘制、视频拍摄及剪辑、配音及音效合成等全流程,实现降本增效。目前,TeleAI 视频生成大模型在权威视频生成评测榜单VBench中排名第一。
基于知识的视图万物布控视觉大模型
TeleAI 还将其视觉大模型从TeleSearch 1.0-自然语言驱动万物检索升级至TeleSearch 2.0-基于知识的视图万物布控,实现动态知识挂载和行业事件认知,并驱动复杂逻辑理解。TeleSearch 2.0目标打破模态间的信息孤岛,支持上百个专业知识文档挂载,在理解文档内容的基础上,可根据复杂长语句精准检索图片和视频,从而完成跨模态复杂语义准确理解及超万种目标精准检索。它实现了对传统检索类目的指数级提升,以及对十亿级目标检索的秒级响应。
基于此,TeleAI 构建了视觉大模型产用一体化平台,通过算法冷启动回流数据,摆脱了传统模型对大量数据的依赖,实现0训练数据直接推理,显著降低算法应用的准入门槛。同时,平台还支持小样本训练,仅需100个样本数据就能训练出高精度模型,实现模型生产的全自动化过程。目前,该平台已成功应用于多省应急项目,沉淀了20余个应急全流程感知场景,提升对灾害研判与应急响应的核心能力。
完全自主研发 / 开源的多尺寸语义大模型
积极通过开源推动大模型技术进步和国产化进程,星辰语义大模型1B、7B、12B、52B、115B模型实现央企率先对外开源,全部开放训练源代码,同时开源高质量1T训练数据,获得3000+Stars,3.6W+下载。其中115B为国内首个基于全国产算力训练的千亿参数级别开源大模型,在保证训练精度的前提下利用多种优化手段提升模型训练效率和稳定性,实现了 GPU 同等算力计算效率的 93% 以上,同时模型有效训练时长占比达到 98% 以上。在今年5月的 OpenCampass 测试榜单中,TeleChat 系列模型的逻辑推理能力名列开源大模型榜单第一,其通用能力较此前版本TeleChat系列模型提升近 30%,特别是在工具使用、逻辑推理、数学计算、代码生成和长文写作等方面能力均有大幅提升。在今年9月,TeleAI完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参)。
星辰“软件工厂”基于语义大模型,构建了软件开发的全自动流水线,只需简单撰写产品文档,甚至画一张草图,就可以自动生成代码,并在软件工厂内一键部署上线,让人人都能开发自己的 APP。
业界首个支持30种方言自由混说的语音识别大模型
星辰语音大模型打破单一模型只能识别特定单一方言的困境,降低开发门槛实现单方言标注需求低至传统方案1%。当前,星辰语音识别及生成能力已广泛应用于12345市政热线、数字人、万号智能客服等领域,极大解决老年人及老少边穷地区人们的信息服务无法触达的问题。
未来,TeleAI将持续围绕具身智能、大模型、AIGC生成技术、AIInfra、智能软硬件一体化等人工智能前沿领域,开展基础研究、技术攻关与应用落地,积极通过开源推动大模型技术的不断进步,并持续推动和引领技术创新向产业落地快速跃迁。
关注公众号了解更多
会员申请 请在公众号内回复“个人会员”或“单位会员
欢迎关注中国指挥与控制学会媒体矩阵
CICC官方抖音
CICC头条号
CICC微博号
CICC官方网站
CICC官方微信公众号
《指挥与控制学报》官网
国际无人系统大会官网
中国指挥控制大会官网
全国兵棋推演大赛
全国空中智能博弈大赛
搜狐号
一点号