应用突破还是炫技噱头：大模型能否真正驱动行业升级？

科技 2024-11-13 13:07 辽宁

编辑 | 罗燕珊

策划 | AICon 全球人工智能开发与应用大会

大模型如何驱动行业升级？

近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了商汤科技大模型技术总监张涛担任主持人，与百度灵医大模型底座技术负责人夏源和京东零售 AIGC 技术专家，在 AICon 全球人工智能开发与应用大会 2024 北京站即将召开之际，深入探讨大模型技术在垂直行业落地的见解。

部分精彩观点如下：

代码和大模型的结合能够为团队提供更广泛的支持。
私有化部署的策略可以有效地解决数据隐私问题。
由专业医生进行的真实评估，比榜单排名更能反映模型的实际效果。

在 12 月 13-14 日将于北京举办的 AICon 全球人工智能开发与应用大会上，我们特别设置了【AI Native 产品创新与技术落地】专题，通过业界知名企业专家的分享，了解 AI Native 产品前沿技术、应用实践经验和未来趋势。在该专题论坛中，张涛老师将分享《有用到好用——AI 生产力工具如何放大 AI 能力》。

夏源老师则将在《RAG 在企业落地的难点与创新》专题中分享《在医疗健康领域，企业大模型 RAG 优化实践》。查看大会日程解锁更多精彩内容：https://aicon.infoq.cn/202412/beijing/schedule

以下内容基于直播速记整理，经 InfoQ 删减。

张涛：各位最近主要关注大模型的哪些话题，有没有可以分享的观察或体会？

张涛： 我个人主要关注大模型和生产力工具结合方面，特别关注 Claude 大模型，尤其是针对代码能力的增强。最近，Claude 发布了一个名为“computer use”的产品 Demo，展示了大模型如何接入操作系统桌面并生成操作键盘和鼠标的代码，它展示了大模型在生成代码操作电脑方面的潜力。但是，我对大模型在操作电脑时使用视觉分析屏幕的方式有所担忧。这种方式实际上消耗了很多不必要的资源，因为计算机的很多元素本身就是代码形成的，理论上可以直接定位并操作，我认为这背后有很大的提效空间。

夏源： 最近我特别关注 Claude Sonnet 3.5 新模型和它的 computer use 功能；另外还有 OpenAI 的 o1 大模型，推理能力的巨大提升让我思考如何将这些技术应用于医疗领域。

我们一直在思考如何利用推理技术提升诊断效果。从抽象层面来看，基于推理模型给患者看病的过程类比于在棋盘上下棋，类似于 AlphaGo，模型预测棋子在棋盘的落地空间分布概率和最终输赢的概率分布，而在疾病诊断，我们通过问诊（症状空间预测），不断排除和逐步缩小可能疾病诊断空间，最终得到一个最优的诊断结果分布。最近关于 OpenAI o1 的相关论文解释中提到的推理模型的 Scaling Law，它在推理阶段采样不同的推理路径和思维链，通过过程奖励逐步提升每一步思维的效果，最终提升整体推理能力。这与我们的诊断思路相似，我们也是通过采样成百上千条问诊路径，并通过逐步的过程奖励来提升每一步问诊的逻辑，最终得到更优质的问诊路径，然后通过强化学习进行大模型调优训练。

张涛：大模型技术已经渗透在各个行业，你们认为大模型带来了哪些最显著的变化？

夏源： 医疗领域对大模型的需求复杂多变，通过和业务方沟通我们发现，临床辅助决策系统的病历生成是更符合医院需求的应用落地场景。病历生成虽然看似简单，实际上涉及大量文档处理和医生书写工作，大模型能简化这一过程，极大提升医生的工作效率，减轻他们的负担。

另一方面，在比如病案质控相关问题，我们也遇到了难题，这需要模型有细致发现病历潜在的缺陷问题。尽管尝试了规则和小模型，但效果有限，单纯大模型在这方面的能力也有所不足。因此，我们正在考虑使用 agent 方式来进一步探索解决方案。

张涛： 去年年初，我们已经开始着手开发代码小浣熊。最初，我们的目标是将生成式能力融入代码中，以帮助编程工作。随着项目深入，我们逐渐发现代码的能力不仅仅局限于编程，当代码能力提升到一定程度，其编译运行的概率增大后，我们有能力将其与虚拟环境联合训练，使其成为一个代码 agent。这样的 agent 能够实现更大的能力，比如与其他工具的调用和集成。

现在，我们的团队不仅仅局限于开发人员，运维人员在进行问题筛查、运营人员在处理数据、产品经理在进行产品头脑风暴或编写产品需求文档时，都会利用大模型来生成更好的内容。这表明，代码和大模型的结合不仅能够提升开发效率，还能够扩展到其他工作领域，为团队成员提供更广泛的支持。

张涛：数据隐私和合规性是包括医疗在内的各企业应用中无法回避的挑战，应如何看待大模型和编程助手在确保数据安全性和合规性方面的作用？

夏源： 医疗领域主要关注两个方面：模型训练和实际应用情况。模型训练方面，我们需要大量的医疗数据，这些数据主要来自 C 端和 B 端。C 端数据相对容易处理，包括百度健康平台的 UGC 内容和医生审核的精编内容等，这些高质量的数据可用于预训练。B 端数据则涉及与一些权威数据库合作，用于预训练和内容挖掘。实际应用阶段，在医院数据层面，我们面临的问题较大，因为并非所有医院都愿意分享数据，尤其是涉及隐私问题，尽管数据都会进行严格脱敏。为了解决这个问题，我们采取了 模型私有化部署的策略，这是 B 端尤其是医疗大模型非常重要的一环。

为了适应医院的需求，我们将大模型容量进行蒸馏，将其精简到百亿参数级别甚至更小，以实现病历生成和智能诊断等功能。同时，我们也支持国产芯片，如华为的昇腾 NPU、海光的 DCU 以及百度的昆仑芯片，以实现私有化部署。对于没有能力采购 GPU 的医院，我们提供了 CPU 版本的大模型，并与芯片厂商合作，针对特定模型架构进行专有适配，提升推理效率，确保模型能够私有化部署。通过私有化部署，我们可以有效地解决数据隐私问题，因为所有数据都保留在医院内部，不会外泄，从而消除客户的疑虑。

张涛： 我观察到 Claude 新发布的模型 Demo，以及像 cursor 这样的项目，它们已经开始引入多模态技术。这些技术能够处理如将图片输入后直接复刻网页或 APP 布局的任务。在我的理解中，这种素材生成技术在零售领域可能会有应用。在医疗领域，传统的 AI 或者说 AI 1.0 时代，主要依赖计算机视觉技术来分析病理图片、CT 图像等，进行问题检查。而现在，随着新大模型的出现，医疗领域也拥有了更多前沿的能力。

夏源： 我们没有追求开发一个通用模型来处理所有类型的医疗影像，如肺炎、CT、X 光等，尽管这些在研究领域和学术论文中非常常见。相反，我们结合了百度健康上的用户数据，发现皮肤病相关的图片查询是一个比较高频的场景。因此，我们专门针对皮肤病开发了一个多模态大模型。

传统的计算机视觉方法可能在用户上传图片后立即给出诊断，但这种方法缺乏多轮交互，可能导致信息缺失，影响准确率。而我们的多模态大模型通过询问一些患者信息，结合图片信息，最终给出诊断。这种方法在皮肤病领域会优于单轮仅用视觉模型的图片诊断效果。

此外，我们也在探索中医领域的应用。虽然中医大模型可能没有受到广泛关注，但许多机构和厂商对此有需求。我们之前已经为一家企业开发了中医大模型，同时并在 C 端推出了基于中医的多模态大模型，包括面诊、手诊等模型，通过统一架构以实现这些功能。这些是我们在医疗领域一些更偏向实际应用的探索。

提问： 这个模型是在百度本身的文心一言基础上构建的吗？如果是的话，团队主要的工作是在模型预训练时还是在后续微调中进行的呢？benchmark 有对标吗？

夏源： 我们的工作主要集中在两个方面：预训练和指令微调。预训练阶段，我们依托于百度的文心一言这一基础模型，它已经经过了大量的通用数据语料训练。我们没有必要从头开始训练一个通用大模型，因为文心一言已经为我们提供了一个坚实的基础。在此基础上，我们结合了百度健康上的 C 端数据、权威书籍、B 端的权威数据，以及药企咨询数据等这些数据经过脱敏和处理后。利用这些数据，在文心一言的基础上进行了后预训练，得到了一个干净的医疗基础模型。接下来，我们在这一基础模型之上进行特定应用的 SFT，包括病历生成、辅助诊断、智能问诊、医疗问答、医疗分析以及治疗推荐等业务相关的指令，共同构建起业界首个企业级的医疗大模型。

针对 benchmark，我们刚开始有去对标一些医疗 benchmark。然而，随着时间的推移，我们发现许多医院和企业不再那么关注排行榜，大家逐渐认识到单纯追求榜单排名并不是必要的。我们转变了策略，开始与三甲医院的医生合作，让他们帮助我们评估模型的性能，并为模型的诊断能力提供背书。我们认为，这种由专业医生进行的真实评估，比单纯的榜单排名更能反映模型的实际效果。

张涛： 编程领域现在有一种趋势，即通过识别图像来复刻产品，这已经被许多公司和创业团队作为一种酷炫的演示展示出来。然而，在实际应用中，目前的模型还没有达到在不同维度的数据空间内有效关联信息的水平。对于这些令人印象深刻的演示，我持怀疑态度，我认为可能 80% 都需要在上层进行工程化处理。 我并不是否认它们的通用性有问题，而是觉得这些演示在 AI 能力真正发挥作用的成分上可能并没有大家想象的那么大。它们可能只是恰好发挥了能力，解决了之前大家束手无策的问题。

目前，我们也在探索如何处理多模态数据，例如处理 PDF 文档，其中可能包含扫描文档和图像。我们希望像办公小浣熊这样的工具能够准确地提取这些信息，并将其作为处理的输入，以便根据用户的需求完成任务。

张涛：我们已经看到大模型在各个领域的应用不断深化。未来大模型技术在哪些方面会有突破性进展？是否有尚未被广泛讨论的潜在应用领域？

夏源：我简单分享一下我在业内技术层面上的一些观察。我注意到，像 Hinton 这样的学者认为 AGI 非常危险，因为他们认为在某种程度大模型已经达到了所谓的 AGI。然而，另一派，比如 CNN 的发明者 Yann LeCun，也是图灵奖得主之一，他认为大模型并不是通向世界模型的最终之路，仅靠 next token 预测是远远不够的，他们认为可能还需要考虑物理因素交互等，才可能真正构建一个世界模型。最近，李飞飞也组建了一个团队，旨在开发感知、生成 3D 世界，并与之进行交互的大世界模型（Large World Models）。各位学界大佬自都有其各自道理，我们可能需要在未来，比如 20 年或 50 年后，回过头来看他们的观点究竟如何。

目前，简单来说，我认为像 Transformer 这样的模型，如果你拆开它的代码，其实就是一系列简单的矩阵计算的组合。这样的最本质的矩阵计算能否实现通用人工智能，说实话，我并不知道，不过可能世界就是“大道至简”的，越是简单的东西可能才是真正通往 AGI 的方式。可能很多年后，真的有人会揭开这个谜团。比如我们现在说神经网络是黑盒模型，它背后的物理或数学意义可能就蕴含在这些简单的公式之间，但我们目前还不清楚。

Kubernetes 是一条“死胡同”！？6 年挣扎后，Gitpod 另辟蹊径打造全新开发环境

Linux 版微信正式官宣，居然选了这个 90 年代的“过气”框架

全球超万亿使用量的热门数据库，首次被大模型揪出了严重漏洞

会议推荐

就在 12 月 13 日 -14 日，AICon 将汇聚 70+ 位 AI 及技术领域的专家，深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外，还有丰富的圆桌论坛、以及展区活动，满足你对大模型实践的好奇与想象。现在正值 9 折倒计时，名额有限，快扫码咨询了解详情，别错过这次绝佳的学习与交流机会！

http://mp.weixin.qq.com/s?__biz=MjM5MDE0Mjc4MA==&mid=2651225259&idx=2&sn=b4b375f33fb82518bcafb1f069032f9b

InfoQ

为一线互联网公司核心技术人员提供优质内容。科技圈的观察者，前沿技术的传播者。

Mooncake 分离式推理架构创新与实践

Scaling Law，撞墙了吗？| 直播预告

共话 AI 与出海新趋势，技术领袖探讨未来发展之道

Apache Tomcat 11.0提供了对虚拟线程和Jakarta EE 11的支持

Chrome 被强制出售？谷歌或将抛弃 ChromeOS 全面转向 Android 系统

独家｜腾讯杰出科学家、混元大模型技术负责人之一刘威离职

StarRocks Summit 剧透 | 云原生与 AI 驱动，湖仓落地场景前瞻

ISO C++主席 Herb Sutter 离开微软，并宣布即将发布的 C++ 26 是自 C++11 以来最具影响力的版本

微软在 GitHub Universe 上为开发者推出 AI 增强工具

一朝成名，一夜破产！这家谷歌前高管创立的AI公司突然宣布倒闭，专家：这个行业不适合AI

OpenAI死对头、Claude掌舵人访谈：与Altman分道扬镳不是因为商业化、scaling law不会撞墙

QCon演讲实录 | 赵彦奇：HTTPDNS 边缘下沉，性能、成本和稳定性之间的取舍与思考

极客游学·乌镇互联网大会站启航：共话 AI 与出海新趋势

优步借助 MyRocks 差异备份显著节省了存储成本

一场泰森拳王比赛就能让上云鼻祖宕机，员工：周末不想加班修bug

腾讯发布财报，员工平均月薪超9万！Kimi的瓜太多！杨植麟惨遭前投资人提起仲裁；特朗普如何“拯救”TikTok？| Q资讯

续航超 4 小时、算力 550T，这款国产自研人形机器人让家务更轻松

Cloudflare 使用 OpenTelemetry 彻底检修日志记录管道

别慌，Scaling Laws 的末日还早！“革新版”迅速出现，多位大牛都在叫好

是否应在 Kubernetes上运行Redis？快手这样做！

Safe C++提案能复制Rust的内存安全性吗？

Grab 通过 GPT-4、Glean 和 Slack 实施了利用 LLM 的转换数据发现

“天价”ERP项目导致欧洲最大政府破产：预算涨了10倍，上线半年8000多个错误，一年税收没正常过

B 站轻量级容灾演练体系构建与业务实践

儿歌点点携手火山引擎，共创儿童成长AI伙伴

好未来：多云环境下基于 JuiceFS 建设低运维模型仓库

阿里国际推出全球首个 B2B AI 搜索引擎 Accio

通义灵码 SWE-GPT：从静态代码建模迈向软件开发过程长链推理