用专有数据训练大型语言模型:打造企业竞争优势的新途径

科技   2024-11-05 16:30   北京  
点击上方“蓝色字体”,选择 “设为星标

关键讯息,D1时间送达!



在数据驱动的时代,利用专有数据训练大型语言模型正成为企业获取竞争优势的关键。尽管多数公司尚未充分发挥数据潜力,但麦肯锡等研究显示,利用内部数据可显著提升市场增长和利润。数据质量优于数量,结合企业独特的专有数据,大型语言模型能提取更多业务价值。微调现有模型是中小企业可行的策略,早期应用已在银行、咨询等领域展现成效。随着开源模型普及,数据的重要性愈发凸显,企业需重视和保护内部数据资产,通过AI利用这些数据创新,从而在市场竞争中脱颖而出。即便是传统产品目录或用户手册,也能成为有价值的数据来源。


用专有数据训练大型语言模型能为你带来竞争优势吗?
尽管我们生活在一个日益数据驱动的世界中,但大多数公司并未采用数据驱动的商业模式。像Alphabet、Meta和亚马逊这样的企业凭借网络效应形成的良性循环而取得成功,但这种模式对于销售传统产品和服务的组织来说却难以实现,然而,如今已能广泛获取各种工具来充分利用日常业务流程中生成的专有数据,这些工具可能帮助你的公司形成竞争优势。
随着市场竞争的加剧,利用数据构建防御性护城河至关重要。麦肯锡估计,利用内部数据来获取销售和营销见解,可以实现高于平均水平的市场增长,并使息税折旧及摊销前利润(EBITDA)增长15%至25%。大型语言模型提供了一种新颖且独特的方法来提取这种价值,并且通过在专有数据上训练它们以实现特定的业务目标,可能会使许多公司发生转变。

数据质量优于数量

正如AI专家、谷歌前研究总监彼得·诺维格(Peter Norvig)所言:“更多数据胜过更好的算法,但更好的数据胜过更多数据。”随着通用AI模型被改编用于企业用途,这一点愈发正确。虽然前沿模型已在从互联网和其他公共来源抓取的海量数据上进行了训练,但它们用于特定业务目的的效用却有限。
为了真正实现实际效益,这些大型语言模型从数据中提取意义的能力需要与企业独有的专有数据相结合。一旦设定了业务目标,确保数据为此做好准备便是一个关键步骤。Gartner估计,为AI准备数据可以使业务成果提高20%,这意味着数据必须适合预期的使用场景,无论是结构化数据还是非结构化数据。据Gartner称,内部AI项目中有30%被放弃的一个主要原因是数据质量输入不佳,这涉及删除损坏的数据和重复数据,并填补输入不完整之处。
虽然质量是关键,但也需要有足够的数量。根据目标和大型语言模型的调整方式,这意味着至少需要数千条记录,甚至可能更多。

进行调整

使用独特的专有数据可能实现最大的竞争优势,这可能包括匿名化的客户数据和购买模式、客户反馈、网络分析以及供应链信息。开源数据也可以作为有用的补充,但顾名思义,它对所有人都是可用的,因此本身并不是区分因素。在符合隐私法规的前提下使用专有数据,还可以减少与数据主权相关的法律复杂性。
但大多数企业没有从头开始构建和训练自己特定领域模型的财力和人力资源。尽管微调现有大型语言模型所需的计算能力和数据比从头构建要少,但这仍然超出了中型企业的能力范围,需要耗费大量的时间和技能。提示微调和提示工程是最常见且最直接的方法,这些方法不需要修改模型参数,因此资源消耗要少得多,尽管需要专业技能,但相对容易采用。

实际应用

一些早期在内部数据上训练大型语言模型的部署来自大型银行和咨询公司。例如,摩根士丹利使用提示微调技术在10万套与投资银行业务流程相关的文档上训练了GPT-4,其目标是帮助财务顾问为客户提供更准确、更及时的建议。波士顿咨询公司(BCG)也采用了类似的方法,帮助其咨询顾问生成见解和为客户提供建议,同时通过一个迭代过程,根据用户反馈微调其模型,这有助于改进输出结果,并减少面向消费者的GPT中更常见的幻觉现象。
我们现在开始看到,一些技术密集度较低、以服务为导向的公司也在利用内部数据定制大型语言模型。园艺护理公司ScottsMiracle-Gro与Google Cloud合作,创建了一个由AI驱动的“园艺品鉴师”,为客户提供园艺建议和产品推荐,该系统已在公司的产品目录和内部知识库上进行训练,并将很快推广至其1000名现场销售人员,以帮助他们就价格和可用性为零售和园艺市场客户提供建议。预计根据结果,该系统随后将面向消费者推出,旨在推动销售和提高客户满意度。
正如ScottsMiracle-Gro利用AI为其传统销售目录增值一样,美国大众汽车也在其汽车手册上这样做。在车辆使用说明书上进行训练,并结合客户的联网汽车数据,这个由AI驱动的虚拟助手可以帮助驾驶员更好地了解他们的车辆,这包括提供更换轮胎的指导以及解释仪表板指示灯的含义。
随着开源模型的崛起,大型语言模型在功能集和处理能力方面日益商品化,从而降低了应用开发人员的进入门槛,数据将变得越来越重要。内容所有者已经开始反对允许OpenAI和Anthropic等公司自由收集他们的数据,这些举措将进一步凸显专有信息的价值。
各规模的公司都应明智地开始更加重视和保护其内部数据资产,并思考如何通过AI利用这些数据来获得竞争优势。正如我们所见,即便是普通的产品目录或用户手册,也是可以加以利用的有价值资产。

版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。



2024全国CIO选型大会 将于11月29-30日在南京盛大召开,欢迎您扫描下方二维码报名↓↓↓。


(来源:企业网D1Net)





关于企业网D1net(www.d1net.com)




国内主流的to B IT门户,同时在运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)



如果您在企业IT、网络、通信行业的某一领域工作,并希望分享观点,欢迎给企业网D1Net投稿。封面图片来源于摄图网

投稿邮箱:

editor@d1net.com

合作电话:

010-58221588(北京公司)

021-51701588(上海公司) 

合作邮箱:

Sales@d1net.com


企业网D1net旗下信众智是CIO(首席信息官)的专家库和智力输出及资源分享平台,有五万多CIO专家,也是目前最大的CIO社交平台。


信众智对接CIO为CIO服务,提供数字化升级转型方面的咨询、培训、需求对接等落地实战的服务。也是国内最早的toB共享经济平台。同时提供猎头,选型点评,IT部门业绩宣传等服务。

扫描 二维码 可以查看更多详情


CIO信息主管D1net
专注于企业IT网络通信领域的媒体。涵盖:云计算;数据中心;数据通信;存储;虚拟化;安全;企业应用软件;UC协作;视频会议;视频监控;呼叫中心;IP语音;服务器;测试;移动办公; 运营商企业业务;渠道等
 最新文章