从百度 iRAG,看 AI 分野

科技   2024-11-13 17:27   广东  

绘图:82 版西游记里的唐僧,和 87 版红楼梦里的林黛玉,在亭子里,青梅煮酒论英雄,16:9 

 

这张精准生成的图,来自昨天百度发布的 iRAG:先检索,再生图。 

 

技术分野

我是各类 AI 的深度用户,Midjourney 年费会员,OpenAI V5 等级调用,单单自己办公,每天就要消耗几百块的 token。 

 

各类 AI 生图软件都在重度使用,无论 Midjourney、Flux 还是其他,都在打造一个能将文字转化为图像的“端到端”生成系统。它们投入海量算力和数据,进行大规模的图文对训练,就像在培养一个“人工艺术家”:只要数据和算力管够,它就能提笔作画。 


从效果上看,这些方法,时常带来令人惊艳的作品,但也存在明显局限:很多时候,会对事实信息理解出现严重的幻觉,比如我让他给我画一个“日历”,但返回给了我一堆美女图(虽然也挺好... 

 

相比之下,百度选择的 iRAG 走了另一条路:培养一个“研究型画家”:先对生成目标进行知识图谱分析,获取必要的参考信息,然后才进行创作。这带来一个好处:无论我要画什么,都可以进行精准输出


比如,我是三国粉,时叹「时来天地皆同力 运去英雄不自由」。“先主一统天下,孔明辅政其旁」”的场景,除了在游戏里,或许也只存于 AI:


 

从技术原理看,iRAG 更像一个「靠得住的人」:干活不靠猜测(依赖经验),而是先理解,再查资料,最后开始干活。通过提升系统复杂度,生成更可靠的内容。 

毕竟,在实际应用中:一个能够稳定输出、行为可控的方案,也许比一个偶有佳作,但不够稳定的方案更有价值。 

 

 

历史迭进 

说起来,AI 的这种转向,上演过几轮了。 


70s:专家系统

70年代:专家系统基于规则的推理系统 / Rule-Based Expert SystemIF temperature > 38°CIF persistent_cough规则引擎 (Rule Engine)⚙️THEN diagnose_flu()THEN notify_doctor()THEN prescribe_med()简单规则输入规则匹配与推理自动执行相应操作

在半个世纪前,第一批“AI”诞生,当时叫“专家系统”。 

起源来自一个大胆的想法:既然人类专家靠经验和规则来解决问题,那我们就把这些经验和规则都写进电脑里,不就等于复制了一个专家吗? 

 

具体怎么做呢?比如找来一位资深医生,找他去收集一系列的问题和回答,如 

  • “看到什么症状会判断是感冒啊?”

  • “病人发烧超过 38 度,还一直咳嗽,那就得考虑是不是感冒了。”

工程师就把这些经验编成规则:IF(发烧>38 度 AND 持续咳嗽) THEN(检查感冒)。 

 

基于这种思路,斯坦福在 1970 年代初开发了一套专家系统:MYCIN,用来协助医生寻找传染病治疗方案。在测试过程中,MYCIN 在推荐治疗方案时表现出了与斯坦福感染科专家相当的水平。然而,尽管性能良好,但它最终未能在医院落地:现实世界根本不是靠几条规则就能搞定的:有时候,资深老大夫也说不清自己是怎么诊断的,可能就是直觉。 


“人有多聪明,我就写多少规则”的思路,最终被证明过于简单。 



90s:知识库

90年代:知识库人工构建的常识知识库 / Manual Knowledge Base👨‍💻×100s"苹果是一种水果""马上 ≠ 马上""E = mc²"知识库 (Knowledge Base)100万+ 条目100101101101011100110知识关联难以穷尽Context matters人工录入知识结构化存储知识关联复杂

在专家系统失败后,人们开始了新的尝试:如果单纯规则行不通,那给 AI 配一个包罗万象的知识库呢? 

美国 Cycorp 公司的 CYC 项目就在尝试解决这个问题。从 1984 年启动,他们雄心勃勃地要把所有”常识”都输入计算机。为此投入了数百名研究员,花了十多年时间,手工录入了超过 100 万条知识。 

 

但问题是,人类知识远比想象中复杂,比如: 

  • “苹果是一种水果”—— 乔老爷子:“你说的对”

  • “即便偶不变,符号看象限”—— 理解这个,需要经历高中教育


在日常交流里,需要“意会”的东西就更多了,比如女朋友说的: 

  • “随便”(≠随便)

  • “都可以”(≠都可以)

  • “马上”(≠马上)

  • “快好了”(≠快好了)

  • “没事”(≠没事)

  • “你开心就好”(≠你开心就好)

  • “我没生气”(≠我没生气)

 

于是这个项目折戟了:海量信息的关联性,让 AI 无法依仗于人工整理的资料



2010 之后

2010年后:深度学习数据驱动的神经网络 / Data-Driven Neural Networks海量数据 (Big Data)🐱{ }数据规模不断扩大神经网络 (Neural Network)模型输出 (Output)Black BoxAccuracy: 84.7%Scaling Laws大规模数据训练多层神经网络黑盒模型

2012 年,深度学习横空出世。 

说是“横空出世”,但其核心理念“神经网络”,早在 1943 年就被提出来了:AI 可以像大脑的神经元一样:逐层接受信息,处理结果,然后传递给下一层,最终获得答案。 

这是一个非常性感的想法,但在之后很长时间里,都只存在于想象。 

 

转机出现在 2012 年,多伦多大学的 AlexNet 用神经网络的方法,在 ImageNet 图像识别竞赛中取得压倒性胜利:错误率降至 15.3%,比第二名(26.2%)足足领先了 11 个百分点。这个突破证明了两点:一是神经网络确实可行,二是只要数据够多,AI 就能自己学习。

图:Embedding Methods for Image Search


从此,难办的事也能用“堆数据”来解决,比如: 

  • 要识别猫,就给它刷几百万张猫的图片

  • 要下围棋,就让它自己对弈几百万盘

  • 要写代码,就让它学习全网的开源项目

 

这种“大力出奇迹”的方法很快成为了 AI 界的主流。更有意思的是,人们发现了一个规律:只要持续增加模型规模、扩大数据量,AI 的能力就会稳步提升。这个现象被称为“Scaling Laws”(缩放定律)。 

但随之而来的是新的挑战:模型能力惊人,但完全是黑盒,谁也不知道为什么

 

过去的半个百年,其实还发生了更多的趣事,有机会我再单独讲讲(Flag:挖坑)。也发现,AI 的技术演变,就是在不断试错和平衡中摸索。方法各有优劣,未来的方向或许就是将各方强项优势结合:既有深度学习强大的学习能力,也要有知识支撑带来的可靠性。 


想想看,OpenAI 的 o1,不就是融合了多种东西吗?作为另一种纬度的探索,应该对 iRAG 保持关注。 



回归用户

在梳理 AI 技术演进时,总无法规避其核心问题:AI 产品,总满足不了业务需求 

自 ChatGPT 以来,大多数 AI 产品,都在专注于各种吸引眼球的 fancy 功能:比如画一幅梵高风格的星空、生成一段意识流小说、制作一段奇幻视频。效果确实很好,但也很难用于工作,也无法让用户长期买单。 

 

相比之下,一些看似平实但真正困扰企业的场景反而被忽视了: 

  • 建筑设计公司每天要出具大量效果图

  • 电商平台需要持续处理海量产品图片

  • 广告公司面临大规模创意素材产出压力

  • 工业设计院要快速输出多套方案可视化

  • 房地产公司需要批量生成样板间效果图

 

这些需求,有一个共同特点:内容生产必须标准化、规模化,且要确保品质稳定。企业更关注输出的准确性而非创意性,更看重流程的可控性而非自由度。这些都是直接影响业务效率的关键因素。 

🎨✍️🎬🏢📦⚙️🏠

从这个角度看,像 iRAG 这样的技术方向切中要害:它不追求最新最炫,而是专注于提供可靠的解决方案。当大多数技术还在探索“能做什么”时,这种思路已经在思考“该做什么”。企业用户真正需要的是:准确性、可控性、稳定性、可解释性。这恰恰是 iRAG 着力解决的方向。 

这或许不是最引人注目的选择,但却可能是最务实的路径。


毕竟,技术的价值,取决于它解决了多少问题。

赛博禅心
拜AI古佛,修赛博禅心
 最新文章