业界前沿 | AI 技术演进与商业落地:从学术探索到创业实践的全景观察

文摘   2024-06-14 12:00   北京  


导读 本文将深入探讨 AI 技术的演进和商业化落地。文章将分析 AI 技术变迁背后的商业驱动力,揭示生成类模型和推荐系统在推动 AI 发展中的重要作用;分享 AI 在铁谱图像识别等学术领域的研究进展,以及 AI 在智能条款库和火灾识别等产品中的应用实践。还将指出 AI 技术在商业落地过程中面临的挑战,包括技术选择、模型精确度的权衡、以及 B 端创新的难点。


01

AI 技术变迁的商业驱动背景

1. AI 技术的推广需要强大的商业驱动

关于人工智能的研究在很早前就已经开始了,但那时的人工智能和现在人们所熟知的概念有很大的差异。现在大家熟悉的 ChatGPT 推动了整个人工智能领域的全面发展。由于这类生成类模型的出现,很多人基本上把人工智能等同于 ChatGPT。但实际上,人工智能的业务产线至少包括如下图中所示的这些领域。

红框中的两项是人工智能推广最成功的两个领域。一个是生成类,典型的就是现在非常火的大模型;另一个是推荐系统,比如日常浏览短视频,还有购物,每个人看到的页面都是不同的,这就是所谓的千人千面、千买千售,其背后就是推荐算法。

所以,归根结底,人工智能技术的发展过程中不应忽视商业驱动的本质。这一点非常重要,因为只有当商业通畅时,我们才能更有效地实现人工智能技术的真正落地和长期发展。

两个重要观点:

(1)反修昔底德陷阱

通常情况下,当与企业讨论进行人工智能转型时,我们需要企业进行科技投入和创新。客户的选择对技术落地至关重要。比如,我们的 AI 科技公司去找行业的头部企业谈智能化转型,他们通常会很积极地与我们谈合作,但真正落地科技转型就会十分谨慎。因为他们已经在行业中处于绝对领先的地位,选定一个合适的科技转型时点,甚至采用“后发制人”结合自身技术壁垒的策略或许是最优解。

反之,如果我们去找一些行业底部的机构,他们的创新意愿通常是很强的,也更加有落地科技转型技术的意愿。但是这些企业虽然有激情、有动力,但最终仍可能无法真正落地,因为他们缺乏资金和技术实力,数据方面也无法满足要求。

因此我们可以换一个思路,与行业中处于第二梯队的领头企业合作。一方面,他们的创新驱动力强,另一方面,他们有足够的技术和资金支持创新。就像 ChatGPT 一样,为什么它是由微软开发的而不是谷歌,我认为这是一个重要的原因,而这就是反修昔底德陷阱策略。

(2)AIGC 的成功

在人工智能领域其实有许多令人震撼的技术,比如目标检测、图像分类、多语言翻译或者命名体识别,但为什么 AIGC 会脱颖而出呢?一方面有我们上面提到的反修昔底德陷阱策略的原因,另一方面,也存在一个技术预期问题。在人工智能领域存在一个根本性问题,就是人工智能从一开始就是一项模拟人行为的技术研究,即这项技术被提出时,它更多的是在研究如何模仿人类工作行为的科目。而这种技术定位,就带来了一个挑战:AI 能比人类做得更好吗?显然,在目标检测、图像分类等等领域,细微的技术缺陷都会让使用者感受到 AI 的能力不足,进而带来使用者对 AI 整体技术的否定。但是 AI 虽然在学术界是模拟人的工作,偶尔显得笨拙,但是在产业界却应该关注其无限的效能提升,因为产业界的效能意味着更低的成本和更大的竞争优势。AIGC 的成功一个很大的原因就是其在一定可用性的基础上,极大地提升了效能,满足了人们对技术的预期,同时还具有一定的创造性。因此,人工智能的未来推广不应该关注于其准确率与人工相比实现了百分之多少,而应该充分体现其在当下准确率下的效能飞升,这样更容易打动产业界,因为效能提升就意味着成本降低,就意味着生产力和企业收益。

2. AI 的推广困难具有必然性

AI 技术具有很强的普适性,这就是为什么人们认为 AI 可以应用于许多领域的原因。然而,这种通用性必然会引起很大的争议,并且也会增加其应用的难度。与此同时,正是因为 AI 技术具有如此强大的普适性,这也造就了它的伟大。

AI 技术的技术发展历史非常长,在发展过程中出现了几个明显的时代分界线。

在早期阶段,诸如异或问题和 SVM 的崛起都对深度学习技术构成了巨大挑战。甚至在 2010 年之前,通常采用的是符号主义方法。符号主义方法主要是指依托统计学习方法和特征工程形成专家体系实现人工智能,比较典型的产物包括知识图谱等。后来,开始采用深度学习,也就是连接主义。这种方法更多地依靠大量神经元之间的连接来实现相应的效果,即深度学习技术。

再往后,就有像 BERT、pre-train、fine-tune 这样的技术诞生。在大模型出现之前,这是一种非常典型的技术。几乎所有人工智能和深度学习的工作都会使用这种技术。

3. AI 在 C 端的落地实践和重要意义

在人工智能领域,面向消费者(C 端)和企业(B 端)的项目存在着很大的差异。

做 C 端项目,通常是与衣食住行相关的应用,因为这是正常人的生活需求。这类项目的盈利点往往不在于技术本身,也就是说人们不会单纯为一项人工智能技术而付费。例如推荐系统,人们在日常使用某音或某宝购物时,所支付的技术费用都包含在商品费用中,推荐系统会从中占有一部分分成。从这个角度来看,这类项目的盈利点并不在于技术本身,但是技术对 C 端用户的体验提升非常重要。但是如果公司没有 C 端业务,是否就意味着完全不需要布局 C 端的 AI 转型业务了呢?答案是否定的。因为 C 端业务会影响到所有人对 AI 技术和提供 AI 技术的企业的认知,并且能够直接促进 B 端技术的变现。因为一些企业领导在频繁使用某项 AI 技术后,也会希望应用该技术来替代一些日常工作,这样就促进了 B 端业务的推广。

另外,C 端应用人工智能技术,应注重简单性和易知性,不要试图将每个人都培养成 prompt 工程师。

4. AI 在 B 端的落地实践和重要意义

AI 在 B 端的变现同样非常重要,很多科技公司,如果没有与像某宝、某东这样的企业建立合作的技术分成机制,那么它很可能只是一个纯粹的初创公司,只是为了帮助其客户企业实现 AI 转型从而实现自身 B 端业务盈利。举个例子来说,一个金融机构要进行 OCR 技术开发,但自己没有这项技术,就需要与一家企业对接。从这个角度来看,B 端项目的盈利性就在于技术本身。要强调技术的有效性、准确性、召回率等一系列指标,以及并发量和快速性等等,当然也需要建立自身的技术护城河,这些因素是初创企业赖以生存的基础。

从上图中也可以看到人工智能所涵盖的领域非常广泛,有很多技术分支。

5. B 端的创新难在破旧

在 B 端项目中,创新是必不可少的,而创新最难在破旧。通常会涉及以下六个问题。

(1)思维惯性和传统观念束缚。技术创新往往会受到思维惯性和传统观念束缚,这种束缚在公司领导者身上表现得最为明显。因为他们通常是传统经验的集大成者,正是凭借着这些传统经验,他们才能成为公司的领导者。

(2)既得利益者的阻碍。创新往往会带来利益结构的变动,因此这种阻碍会在公司的许多层面体现出来。

(3)技术壁垒和资源限制。涉足人工智能领域时,可能会面临购买 GPU、开发算法、招聘人才等方面的资源限制,动辄数千万的投入成本对于任何一家企业都是需要很大决心的。

(4)市场不确定性和风险。一类新的技术即使被投入了大量资源,是否能够取得特别好的效果?资源的投入的有效性能有多久?这一系列的风险是需要企业来承担的,因此如果无法做足心理准备,技术创新很可能会因此无法开展下去。

(5)文化和社会环境的制约。新的技术时常会带来新的伦理道德上的问题,也会给法律法规和数据安全带来新的挑战。

(6)缺乏敏锐的商业嗅觉和把握入局节奏的能力。这一点实际上非常关键。面对新的技术,企业通常会表现出两种心态,有的老板可能会觉得这件事与我们公司无关,不愿意行动;另一种状态是老板认为与我们息息相关,于是匆忙行动,然而,一旦行动起来,可能会发现这个决定似乎有些仓促。因此,把握好节奏实际上非常困难,就像证券投资一样,必须把握好进场的时机才能成功。

02

AI 在铁谱图像识别方面的学术研究

1. AI 的学术具有多样性、普适性

通用人工智能技术,从学术角度来看,有很多值得研究的方向,包括图像识别、手写文字识别,以及自然语言处理(NLP)和自然语言理解(NLU)等等,都是学术上的前沿问题。这其中也涉及到许多数学问题,比如优化 BP 算法,以及可控性问题等等。另外,深度学习技术本身也一直存在不可控的问题,而形成这个问题的原因是建模过程中的非线性和降维升维。深度神经网络中的神经元是非线性的,难以控制和理解。另外,当输入数据经过深度神经网络时,维度会发生变化,但这些维度的意义并不清晰,这也增加了控制的难度。此外,模型结构的优化、计算优化、权重之间的通信以及 AI 核心范式都是可以研究的方向。

除了这些,还存在一些学术的垂类方向。由于深度学习在学术领域很受欢迎,许多学科都会进行跨学科融合。例如,铁谱图像识别的深度学习,是在润滑油当中对掉落的颗粒进行识别,然后进行智能诊断。

本质上,AI 的学术研究可以归结为两大方向,一个是人工智能本身的学术研究问题,另一个是跨学科融合的学术研究问题。

2. AI 在铁谱图像领域的跨学科研究

AI 在铁谱图像领域的跨学科研究,是通过分析润滑油中的各种颗粒,判断其类别,以及导致它们出现的故障类型的一项研究。在现实研究中,图像中会存在许多杂色背景、表面纹理和边缘等问题需要处理。

我们研究发现,单纯的依赖大模型调优预测效果并不理想。于是,我们就尝试引入了一种新的模型结构,即引入几个固定的边缘和表面强化算子与 ResNet50 结构结合,从而构成多通道编码器,依托迁移学习技术,在增强图像中的边缘和表面纹理信息的同时,强化模型的预测效果。这种方法,使模型能够更好地关注边缘和背景等重要特征。

上图左侧显示的是原图,右侧是经过处理后的图像,可以看到清晰度有所提升。边缘和表面纹理经过特别处理自然会被模型的自主学习检测到,从而使模型整体精确度得到提高。该项研究发表在了 SCI 顶级刊物上。

基于这项工作,针对模型的精度提升和工业化适用,我们展开了一系列相关模型的研究。其中,一些模型旨在以更少的数据量和更快的速度进行运算,同时还致力于提高模型的精确度和召回率,相关的论文也都发表在了 SCI 期刊上。

3. AI 的学术研究和商业落地存在很大的差别

AI 的学术研究和商业落地存在很大的差别。典型的差异之一在于模型精确度和模型算力消耗的权衡。在学术研究中,通常认为模型的精确度越高越好,算力消耗不是重点考虑的问题。但是在商业落地时,如果也持有这样的想法,那项目很可能会失败。因为在商业项目中,选择模型时必须考虑到现实环境的限制。比如选择一个高精度的预训练模型进行微调,但在实际部署中,可能会发现这个模型在工厂环境中根本无法运行,因为工厂使用的是工控机,而不是一般的 GPU 服务器。这意味着你花了几个月时间来调整模型的精确度,最终却无法在现场运行,得不偿失。因此,在选择模型时必须考虑到实际环境,选择更适合的模型架构。

总的来说,AI 的学术研究和商业落地之间存在着相当大的差异,需要在选择模型和解决问题的方法时谨慎考虑。

03

AI 在智能条款库和火灾识别方面的产品落地

1. AI 在产品端的落地要点

下面介绍我们在做 NLP 领域和火灾识别产品中的一些经验。

首先是关于技术选择。我们采用了 LLM+prompt 和 pretrain+fine-tuning 技术,分别应用在相关项目中。这两种技术的使用表明了一个重要问题,就是复制粘贴技术其实是可行的。虽然有些人可能认为这种方法不太好,但实际上迁移学习和无监督学习的底层数学机理告诉我们,只要技术上可以复用数据和权重,就是一个相对稳定且高效的技术。因此,在商业落地时,考虑如何复用技术是很重要的。

其次是关于 B 端项目的策略。我们要记住一句行业常说的话,就是“不要拿着锤子找钉子”。也就是说,在解决 B 端问题时,我们应该先找到业务痛点,然后再考虑使用技术。不能因为我们有了某项技术,就强行将其应用到一个业务场景中。通常情况下,这样的硬套方法很难成功。

做一个项目需要考虑多个方面,以下是项目落地的核心要点:
  • 项目评估。评估一个项目的落地要考虑四大要素:技术可行性、商业可行性、组织可行性和法律合规性。
  • 问题聚焦:当客户提出问题时,需要确定其最关键的核心问题是什么。因为人工智能并非无所不能,但也不是啥也不能,它处于一个中间状态。有些项目本质上是要解决精确性问题,这就与人工智能模型本质上解决模糊性问题存在一定的偏差,不妨使用计算机精准计算来实现。换句话说,针对精确性的问题,使用正则和排序或许比大模型更有效。
  • 问题转化。我们需要将问题分解,确定哪些部分适合使用大模型解决,哪些部分适合使用传统深度学习模型。对于这些模型,需要了解它们的范式和模型结构,以及它们是否有可行的解决方案和相应的预训练模型。
  • 快速落地。无论模型的质量如何,都应该直接着手将其应用,让其运行起来,即使只是一个 demo 也好。因为人工智能的开发通常面临两个问题。首先是要向公司或者客户公司管理层展示,争取更多的资源来支持工作的开展。其次是要获取更多的数据,通过错误的召回以及数据的补充不断优化模型,毕竟深度学习就是依靠数据挖掘特征的过程。
  • issue 和问询。随着人工智能领域不断更新,涌现出了许多框架。然而,更新往往会引发各种奇怪的错误。在这种情况下,你无需怀疑自己,可以坚定地告诉框架提供者,请他们协助解决问题。通常情况下,这可以解决目前市场上 70% 的问题。许多框架的更新速度太快,甚至在框架内部的组件之间也存在兼容性问题,这也是需要注意的。
  • 注意依托部署环境选模型。尽管在整个人工智能开发过程中,部署环境往往被认为是技术含量最低、价值最小的环节之一。然而,事实上,部署环境往往决定了整个项目的成败。
  • 补充图片数据。补充图片和数据通常是非常有效的方法,也是最简单直接,且收益可观的。相反,调整模型结构并不一定会产生特别好的效果,而且这对于团队的要求门槛会非常的高。
  • 换个模型试一试。对于不太熟悉人工智能技术的人来说,如果你的模型效果不佳,不妨考虑尝试其他模型,而不是匆忙调整模型或者自行修改结构。通常情况下,要想得到一个良好且适应任务的模型结构,你需要有扎实的基础,并且可能需要进行二三十次实验。
当然,在处理各种问题时,可以通过练习基本功来提升自己的能力,这一点上学术研究对于商业落地是具有积极意义的。

2. NLP 的应用

接下来介绍一下我们在 NLP 项目中,将大模型应用落地时所面临的挑战。

(1)基于保密焦虑的效率提升的需求

企业之所以选择使用模型,主要是因为相信这种技术能够极大地提高效率。然而,这背后也存在着保密方面的担忧。很多企业都有数据保密的要求,但是如果数据无法传输到模型进行处理,而大模型提供方又不愿意对模型进行开源或者进行本地化部署,那么就会陷入僵局。

目前的解决方案之一是对模型进行加密,然后进行本地化部署。尤其对于金融机构而言,业务数据包含大量公民敏感信息,一旦外泄后果不堪设想,因此,法律法规行业条例都有明文限制。而对于大模型公司而言,将模型加密后部署到本地也存在一定的知识产权风险。因为加密虽然可以提高安全性,但只要看到模型的权重密文,就会存在一定的模型泄露风险。

(2)非通用行业性模型的自主研发

尽管大语言模型在通用领域表现良好,但在专业领域效果却往往不尽如人意,无法满足需求。因为专业领域的用户往往都是行业内的专家,他们对所需信息有着清晰的认知,工作多年的同行会很快辨别出模型的不足之处。

在人工智能领域,目前一个备受关注的方向是 RAG,即在本地知识库中进行信息检索和增强,从而弥补通用大模型知识的不足。国内外已经有专门的公司致力于开发如何使用本地知识库进行信息检索,并将检索到的信息与模型结合,从而提高模型的理解和处理能力。这个过程涉及到多种技术和方法,其中包括相似度计算,如余弦相似度,以及传统的检索技术,如 SQL 等。在金融领域或其他垂直细分领域,几乎肯定会采用这种技术。当然,还有一种思路是随机森林的思路,即同时运行多个模型,将多个模型的结果进行比对,最终输出最佳结果。否则,仅仅依靠一个模型可能无法达到预期的效果。

智能条款库的作用是将所有相关产品报价集中存放在一个库中。用户可以通过文本比对、文本 OCR 等功能进行查询,还可以基于这些知识生成新的产品。我们也在这个库中尝试了 RAG 等技术。

为了解决大模型开发中遇到的问题,我们特意做了一个小示例。我们建议,在开发模型时,最好首先尝试在大模型公司提供的平台上简单运行一下,看看效果如何,是否能够正常运行。如果能够顺利运行,就使用 SDK 进行开发,因为 SDK 能够提供更多的应用开发控制权和灵活度。你可以选择使用 function-calling 或 Langchain 等相关技术,或者自定义开发。

这个例子中,我们尝试创建一个智能天气查询系统时,遇到了模型的各种问题。首先,在 Prompt 编写时,要将工作分解成多个步骤,分步指导模型进行预测。但实施过程中,你会发现,模型产生的天气信息是错误的,完全是模型臆想出来的,即使是告诉大模型需要调用 OCR 技术,它仍然会出现幻觉现象。在这种情况下,我们采用的方法是先强制调用 OCR 技术进行识别,再将 OCR 的结果调入到大模型当中进行推理和识别。依靠这种强限制的方法,能够有效地提高模型的推理效果。

3. 火灾识别

在火灾识别项目的开发中,我们采用了传统的中等规模模型,也就是常用的 pretrain+fine-tuning 的技术。从企业的项目落地角度来看待这个项目,有四个关键方面是不可或缺的。

首先是数据,要对数据进行清洗,构建训练集、验证集和测试集,这是必不可少的。

其次是模型和框架,它们是密切相关的。不论是金融企业还是其他企业,自行开发一个框架或者一系列模型的意义并不是很大,如果你了解迁移学习,就会发现许多底层的神经网络权重并不是轻而易举就能训练出来的,而是需要大量的资源投入才能够训练出一个相对优秀的源域模型。所以没有必要自己去开发,只需要加入到相应的大厂的生态系统中即可。

此外,还要考虑计算资源,根据图像大小、模型的复杂度选择相应的算力。

具体落地过程如下:

(1)准备数据集

这里是我们具体准备的数据集和对应的比例,我们采用标准的 6:2:2 的比例,对数据进行打标,以便于后续的训练。

(2)模型的选择和训练

在大模型时代,预训练+fine-tuning 是一种常用的方式。因为自行开发一个全新的模型,或者从零开始训练,效果通常都不太好。这里有一个关键问题,就是要评估源域和目标域之间是否存在足够的相关性。有些人可能会觉得原理有点复杂,但其实应用起来很简单,可以直接将数据输入模型试一试,如果能够得到大致的结果,就说明该方法可以适用。

(3)框架搭建

简单来说,成熟的大模型公司往往会提供框架,这些框架已经包含了许多底层源码,你无需再自己去编写。毕竟,理解前向传播和反向传播的实现成本相当高,可能需要写上百甚至上千行代码。而实际上,这些都已经由其他人写好并且开源了,只需直接调用即可。现在有很多开源项目,甚至大型公司也提供了相应的生态系统框架,所以只需利用它们即可。

(4)算力供给

(5)模型准确率及预测速度

04

总结和展望

总结本次分享,主要有四个重要观点。

首先,人工智能的应用,无论是面向消费者还是企业,都非常重要。消费者市场决定了人工智能应用的广度,而企业市场则决定了人工智能应用的深度,对企业的生存至关重要。选择合作企业应该遵循反修昔底德陷阱的策略。同时,面向企业市场的 AI 转型难在破旧,而不在创新。

第二,尽管大型模型现在很受欢迎,但它并不是人工智能的全部。在某些项目中,大型模型的效果可能并不好。例如,在我们之前谈到的项目中,还使用了 OCR 等相关技术。此外,人工智能还涉及许多垂直领域,值得尝试。

第三,人工智能的学术研究非常多元化,有很多方向可以选择。但要注意,学术上的成功并不一定等同于商业上的成功。学术关注模型的准确率和创新性,而商业关注模型的可用性和稳定性。

最后,在商业落地方面,前期做好产品规划至关重要,不要拿着锤子找钉子,而且商业落地也有一套成熟的方法论来协助企业实现 AI 转型,不要盲目启动项目。

数据空间技术与系统
数据空间技术与系统全国重点实验室面向国家数据空间建设的中长期战略需求和重大任务,开展数联网基础软件与数据空间操作系统的技术体系、标准规范、核心系统、试验环境、应用示范与开源生态等重点任务研究。
 最新文章