绘图:82 版西游记里的唐僧,和 87 版红楼梦里的林黛玉,在亭子里,青梅煮酒论英雄,16:9
这张精准生成的图,来自昨天百度发布的 iRAG:先检索,再生图。
技术分野
我是各类 AI 的深度用户,Midjourney 年费会员,OpenAI V5 等级调用,单单自己办公,每天就要消耗几百块的 token。
各类 AI 生图软件都在重度使用,无论 Midjourney、Flux 还是其他,都在打造一个能将文字转化为图像的“端到端”生成系统。它们投入海量算力和数据,进行大规模的图文对训练,就像在培养一个“人工艺术家”:只要数据和算力管够,它就能提笔作画。
从效果上看,这些方法,时常带来令人惊艳的作品,但也存在明显局限:很多时候,会对事实信息理解出现严重的幻觉,比如我让他给我画一个“日历”,但返回给了我一堆美女图(虽然也挺好...
相比之下,百度选择的 iRAG 走了另一条路:培养一个“研究型画家”:先对生成目标进行知识图谱分析,获取必要的参考信息,然后才进行创作。这带来一个好处:无论我要画什么,都可以进行精准输出。
比如,我是三国粉,时叹「时来天地皆同力 运去英雄不自由」。“先主一统天下,孔明辅政其旁」”的场景,除了在游戏里,或许也只存于 AI:
从技术原理看,iRAG 更像一个「靠得住的人」:干活不靠猜测(依赖经验),而是先理解,再查资料,最后开始干活。通过提升系统复杂度,生成更可靠的内容。
毕竟,在实际应用中:一个能够稳定输出、行为可控的方案,也许比一个偶有佳作,但不够稳定的方案更有价值。
历史迭进
说起来,AI 的这种转向,上演过几轮了。
70s:专家系统
在半个世纪前,第一批“AI”诞生,当时叫“专家系统”。
起源来自一个大胆的想法:既然人类专家靠经验和规则来解决问题,那我们就把这些经验和规则都写进电脑里,不就等于复制了一个专家吗?
具体怎么做呢?比如找来一位资深医生,找他去收集一系列的问题和回答,如
“看到什么症状会判断是感冒啊?”
“病人发烧超过 38 度,还一直咳嗽,那就得考虑是不是感冒了。”
工程师就把这些经验编成规则:IF(发烧>38 度 AND 持续咳嗽) THEN(检查感冒)。
基于这种思路,斯坦福在 1970 年代初开发了一套专家系统:MYCIN,用来协助医生寻找传染病治疗方案。在测试过程中,MYCIN 在推荐治疗方案时表现出了与斯坦福感染科专家相当的水平。然而,尽管性能良好,但它最终未能在医院落地:现实世界根本不是靠几条规则就能搞定的:有时候,资深老大夫也说不清自己是怎么诊断的,可能就是直觉。
“人有多聪明,我就写多少规则”的思路,最终被证明过于简单。
90s:知识库
在专家系统失败后,人们开始了新的尝试:如果单纯规则行不通,那给 AI 配一个包罗万象的知识库呢?
美国 Cycorp 公司的 CYC 项目就在尝试解决这个问题。从 1984 年启动,他们雄心勃勃地要把所有”常识”都输入计算机。为此投入了数百名研究员,花了十多年时间,手工录入了超过 100 万条知识。
但问题是,人类知识远比想象中复杂,比如:
“苹果是一种水果”—— 乔老爷子:“你说的对”
“即便偶不变,符号看象限”—— 理解这个,需要经历高中教育
在日常交流里,需要“意会”的东西就更多了,比如女朋友说的:
“随便”(≠随便)
“都可以”(≠都可以)
“马上”(≠马上)
“快好了”(≠快好了)
“没事”(≠没事)
“你开心就好”(≠你开心就好)
“我没生气”(≠我没生气)
于是这个项目折戟了:海量信息的关联性,让 AI 无法依仗于人工整理的资料
2010 之后
2012 年,深度学习横空出世。
说是“横空出世”,但其核心理念“神经网络”,早在 1943 年就被提出来了:AI 可以像大脑的神经元一样:逐层接受信息,处理结果,然后传递给下一层,最终获得答案。
这是一个非常性感的想法,但在之后很长时间里,都只存在于想象。
转机出现在 2012 年,多伦多大学的 AlexNet 用神经网络的方法,在 ImageNet 图像识别竞赛中取得压倒性胜利:错误率降至 15.3%,比第二名(26.2%)足足领先了 11 个百分点。这个突破证明了两点:一是神经网络确实可行,二是只要数据够多,AI 就能自己学习。
图:Embedding Methods for Image Search
从此,难办的事也能用“堆数据”来解决,比如:
要识别猫,就给它刷几百万张猫的图片
要下围棋,就让它自己对弈几百万盘
要写代码,就让它学习全网的开源项目
这种“大力出奇迹”的方法很快成为了 AI 界的主流。更有意思的是,人们发现了一个规律:只要持续增加模型规模、扩大数据量,AI 的能力就会稳步提升。这个现象被称为“Scaling Laws”(缩放定律)。
但随之而来的是新的挑战:模型能力惊人,但完全是黑盒,谁也不知道为什么
过去的半个百年,其实还发生了更多的趣事,有机会我再单独讲讲(Flag:挖坑)。也发现,AI 的技术演变,就是在不断试错和平衡中摸索。方法各有优劣,未来的方向或许就是将各方强项优势结合:既有深度学习强大的学习能力,也要有知识支撑带来的可靠性。
想想看,OpenAI 的 o1,不就是融合了多种东西吗?作为另一种纬度的探索,应该对 iRAG 保持关注。
回归用户
在梳理 AI 技术演进时,总无法规避其核心问题:AI 产品,总满足不了业务需求
自 ChatGPT 以来,大多数 AI 产品,都在专注于各种吸引眼球的 fancy 功能:比如画一幅梵高风格的星空、生成一段意识流小说、制作一段奇幻视频。效果确实很好,但也很难用于工作,也无法让用户长期买单。
相比之下,一些看似平实但真正困扰企业的场景反而被忽视了:
建筑设计公司每天要出具大量效果图
电商平台需要持续处理海量产品图片
广告公司面临大规模创意素材产出压力
工业设计院要快速输出多套方案可视化
房地产公司需要批量生成样板间效果图
这些需求,有一个共同特点:内容生产必须标准化、规模化,且要确保品质稳定。企业更关注输出的准确性而非创意性,更看重流程的可控性而非自由度。这些都是直接影响业务效率的关键因素。
从这个角度看,像 iRAG 这样的技术方向切中要害:它不追求最新最炫,而是专注于提供可靠的解决方案。当大多数技术还在探索“能做什么”时,这种思路已经在思考“该做什么”。企业用户真正需要的是:准确性、可控性、稳定性、可解释性。这恰恰是 iRAG 着力解决的方向。
这或许不是最引人注目的选择,但却可能是最务实的路径。
毕竟,技术的价值,取决于它解决了多少问题。