文档智能，“AI改变生活”的新注解

财富 2024-12-09 21:29 上海

当代职场人，“随地移动办公”是一种常态。

前一秒还在city walk，下一秒掏出笔记本往台阶上一放、就地办公；候机室里，总有那么几个人直到登机的前一秒还在笔记本上敲字疾书。

这是信息爆炸、连接无处不在的现代社会，在给予人类生活方便之余，随手附赠的无奈。

合同签订前关键信息修改、稿件发布前的查漏补缺，种种突发状况，都让移动办公处理文档成为当下职场人的刚需。

手机屏幕越做越大，给人们在移动中阅读更长的文档提供了方便，但“处理”的步骤仍在困住职场人的手脚，随身携带的笔记本仍然是肩头沉重的负担。

大模型的到来给解放职场人的肩膀带来了可能，也给产学界攻克“难啃的硬骨头”——文档AI，带来了突破口。

难啃的硬骨头

1992年，Adobe联合创始人查尔斯·希莫尼发明了PDF，连同十年前微软的查尔斯·希莫尼发明的Word，联手开启了数字化办公的时代。

堆积如山的纸质文档工作被浓缩在一方屏幕之中，一度将人们处理文档的效率推向了新的层级。但两个查尔斯都不会想到，几十年后的现在，这些数字文档会反过来拖累职场人的工作效率。

工程师敲代码前需要阅读的技术文档动辄几百页，分析师写行业报告需要从几十、上百家公司财报中抽丝剥茧、获取趋势共性，物理世界的纸质文件化身为14寸屏幕堆不下的数字文档，同样可以淹没无数职场人。

人工智能发展几十年，产学界很早就试图用AI技术辅助人们处理文档工作。从最早的规则启发到神经网络引入权重和数据训练，基本的思路都是“人为归纳规则->转换为机器语言（函数和代码）->教授计算机规则”。

然而，随着人们需要在电脑上处理的工作范围越来越广，文档的复杂化发展没有尽头，有限的硬件算力和仍待完善的算法，都使得大部分文档智能不那么智能。

例如一旦文章过长或是包含的图文要素过多，文档智能给出的摘要常常不够准确，甚至和文档内容风马牛不相及；

或是用户希望针对某一问题在文档内容中找到相应的解答，文档智能虽然会给出答案，却不能溯源定位到原文，使得用户无法进一步确定答案的准确性。

同时，随着数字化深入到各行各业，文档类型越发繁杂，每一类文档对应一种处理规则，一种规则再对应一套算法的建立和后续的调试，整个流程逐渐变成了难以负担，并且不具备经济效益的繁重工作。

自动驾驶的难度众所周知，而文档AI面临的挑战并不比自动驾驶少。

一是数据。根据IDC口径，2018年-2025年，全球数据量将从33ZB到增长到175ZB，其中80%是非结构化数据[1]，包括图像、音频、传感器数据等，共同特点是没有统一格式、缺乏定义，难以表征；

二是理解能力。语言中的复杂语义、文档的结构化都需要更强的逻辑演绎能力来理解和解读，比如从“任务很困难，但小明坚持完成了”，推导出“小明持之以恒”，再比如一级标题和二级标题之间的递进、表格表头与数据的一一对应等。

三是专业性。尤其是在专业性极强的垂直行业，例如专业的论文，财经报告，律师卷宗等等，解读这类文档需要专业知识的长期积累。

直到大模型的出现，无需人工标注的数据和自监督学习机制，赋予了计算机自主进化的能力。

作为产学界最难啃的骨头之一，文档AI因此得到了突破的机会，HUAWEI Mate X6的系统级AI助手小艺率先作出了示范。

突破文献综述难题的创新探索

今年10月“原生鸿蒙”HarmonyOS NEXT正式登场，11月华为Mate品牌盛典，软件层焕然一新，再次进化的智能体小艺聚焦了视线。

HUAWEI Mate X6的大屏和轻便为移动办公而生，HarmonyOS NEXT将AI与操作系统深度融合，赋予了小艺处理复杂文档时的突破性表现。

学术论文是典型的复杂文档，其中包含大量抽象概念，混合艰深晦涩的文字表述，加上庞杂的数据图表，依靠肉眼阅读、人脑理解都费时费力。

但论文写作逃不开阅读、引用大量前人论文，尤其是文献综述环节，是学术圈知名“老大难”。

用HUAWEI Mate X6的文件管理器打开一篇学术论文，点击右上角小艺星环呼唤出小艺，先生成一张思维导图，快速掌握文章的逻辑脉络和核心观点。

用户对生疏概念进行提问，小艺会给与解答，利用小艺连续问答精准溯源的能力，通过将相关文字高亮，用户可以直接定位到原文做进一步理解，或是根据解答继续追问。这个举动就像人类写论文标注数据来源和出处的习惯，为的就是追求严谨和准确，打消阅读者对生成内容准确性的顾虑。同时，借助高亮溯源的特性，阅读者也能快速找到想详细了解的段落，进一步提升阅读效率。

阅读过程中，遇到陌生的概念，不用到搜索引擎上搜索，直接问小艺，从“深度学习和神经网络的关系”到“多模态LLM和一般模型的区别”，都能迅速给与解答。

得益于多模态内容感知能力，哪怕是论文包含复杂的图表和大段抽象的文字表述，也可以让小艺将其转换为精美易读的图文摘要，绘声绘色、通俗易懂。比如让小艺进行论文解读，用小艺根据文档生成好看易读的图文编排呈现，能更清晰地给出抽象概念的区别，便于理解。不得不说，在需要处理非结构化、多样化表格或图文混排等复杂文档情况下，华为的版面理解模型在内容解析能力上的提升，让小艺具有了更大的优势。

表格数据也是学术论文中常常出现的表达形式，但其在呈现趋势、差异等方面存在不够直观的问题。

依托于鸿蒙系统打造的系统级文档助手，也让小艺有了智能感知用户意图的能力，在遇到类似“LLM历年参数规模”的表格数据时，就可以复制其中的大部分文字，小艺完整识别后提取数据，生成“LLM参数规模散点图/直线图”，展现趋势，一句话即可根据文档内容生成图表，就省得我们自己倒进数据表再手动拉数据画图了。而这就是系统与AI深度绑定的结果。

小艺之所以能正确识别文档，并给出准确的摘要，这也要归功于华为的版面理解模型，正因为有了这项能力的赋能，小艺才能做到准确的高亮溯源、一句话生成图表等动作，事实上它还可以理解文档的页码，即便是将文档的某一页删掉或保留这种操作，都能动动嘴巴让小艺代劳。

国内学者还经常遭遇全英文文献的困扰，贯穿全文的英文专有名词，即使翻译APP不离手，也免不了阅读速度大大降低。小艺不仅能提供全文翻译，还可以生成中文摘要、提供中文问答来帮助用户更快地领会文献核心。

几十页的学术论文，靠小艺可以极大地缩短阅读时间，将自己从繁杂的信息中解放出来，更高效地获取对自己的研究真正有价值的论据和数据。

财报同样充斥着大量的文字、数据和图表内容。分析师写行业报告，需要梳理几十上百份财报，抽取出关键数据做线性回归分析。

有了小艺，想要对财报中的表格数据进一步分析，同样可以借助小艺的多模内容精准感知解读的能力，获得分析绘图，还可以直接一句话生成自定义表格，例如“把第一季度、第二季度收入画成饼状图”等要求。

小艺能够轻松扮演“研究助手”、“助理分析师”，最关键的就是前面所提到的，其依托的是领先业内的版面理解模型。

版面分析模型是复杂文档处理的基础，它将文档按照区域划分，定位标题、文字、图片、表格等关键信息，再进行解读，是执行表格提取等后续操作的前提，其精度决定了这些操作的准确性。

小艺背后的版面理解模型通过增加长序列、RAG、Grounding等技术办法，提升了解析文档的能力，并实现了端对端的优化。

其中，长序列是指文档中的上下文，也就是“前景提要”和“背景知识”，模型能够利用的上下文越长，对内容的理解能力越强，直接影响摘要生成、翻译等功能。

RAG即检索增强生成技术，当用户向小艺提出一个问题，RAG技术负责从各类数据源检索相关联的信息提供给模型，综合这些信息回答用户的问题。

Grounding则用来引用具体的概念、事件，通过建立与现实世界的联系，确保小艺生成内容的可靠性，更准确地理解、描述图像、视频等多媒体数据。

强大的模型赋予了小艺领先业内的文档处理能力，是其综合能力的其中一隅。

随时在线的文档助手

职场上要求的不只是工作能力，主观能动性、有求必应也被视作责任心的体现。

类似地，用户对于文档智能助手的期待也不只是足够强的处理文档“硬实力”，更容易开启、随叫随到等等“软实力”，也对用户体验至关重要。

而小艺的深厚“内功”就在于此。

与HarmonyOS NEXT的深度融合，使得小艺晋升为系统级AI助手，调配算力、线程、内存等系统资源更加灵活。

相当于跑堂传话的小厮升职成为执掌人事调度、采买等事务的大管家，真正拥有了接管用户生活、工作琐事的能力。

小艺的文档智能也因此实现了“随叫随到”，与用户的交互方式更加自然，将调用方式浓缩为了几个简单而日常的动作：

拖——比如导师通过邮件附件发来的要求阅读的学术论文、在社交软件中与人做学术讨论时对方发来推荐阅读的文献，都可以直接拖拽至屏幕底部的小艺导航条，小艺能够识别并解读、生成总结摘要，用户可以针对摘要进行提问、追问。

圈——阅读文献时，遇到难以理解的理论或专业术语，可以用指关节对内容进行圈选，小艺能识别圈选的内容并快捷地推荐“问问小艺”、“识图搜索”等高频功能，用户点击“问问小艺”就可以针对理论与小艺进行问答。

唤——在图书馆等需要保持安静的环境里阅读材料和论文时，借助“小艺私语”功能，可以在不打扰周围人的情况下使用文档AI功能，只需要抬起手机、在距离麦克风约5厘米左右的区域直接说出需求即可，即使是悄悄说，小艺也能听见。

更自然的交互方式+更强大的处理能力，让小艺的文档能力真正落到了实际，帮助学者、以及更多的职场人从重复而繁重的工作中解放，转而将更多精力放在能够创造更大效益、体现自身独特价值的事务中，提升获得感和成就感。

这些情绪价值被放大到生活中，也将让人们对“AI改变生活”的愿景有了实感。

2024年被视作大模型入端元年，AI助手作为人们调用大模型最直接的媒介被寄予厚望。人们希望AI助手能切实为自己分担琐碎的事务和工作。

处理复杂文档是困扰AI产业多年的疑难杂症，也是现代社会人们繁重和低效率工作的缩影，成为AI终端和智能体绕不开的大山。

小艺文档助手的突破给产业提供了一个全新的范本，也标志着一个隐形的AI超级入口——文档，正在向无数产业参与者，敞开大门。

参考资料

[1]数字化世界—从边缘到核心，IDC

[2]“盘古”开天记，AI落地时，《华为技术》第90期

[3]盘古3.0：中国大模型突围的一个典型样本，远川研究所

[4]文档智能：数据集、模型和应用，BFT智能机器人研究

[5]文档能否成为AI的超级入口？出海同学会

作者：何律衡

编辑：李墨天

视觉设计：疏睿

责任编辑：何律衡

远川研究所

刻画这个时代

最新文章

做不出原神的游戏公司，又盯上了黑神话

大唐不夜城的本质是不卖门票的迪士尼

旧世界走得像梦一样

特斯拉大转型：离中国更远了，离美国更近了

2025新征程：从戈壁到远洋，中国平安无远弗届

远川新年寄语｜愿你我闯过这一道道关

肯德基涨价，鸡肉不背锅

中国人内卷，韩国人怎么先哭了？

换电的难题，宁德时代有了新解法

普通人看见普通人：当探店博主走上台前

陆家嘴没有神话

智驾公司，殊死一搏

为什么大超市和小卖店进入了同一条河流？

中国人打价格战，德国人先裁员

汽车芯片里的隐秘战争

卫生巾为什么越来越贵了？

女装退货率最大的受害者出现了

Jellycat很火，但乐高才是真正赢家

出海品牌，如何走进彼岸的生活？

汽车换芯片，到底贵在哪里？

文档智能，“AI改变生活”的新注解

为什么饮料越来越像中药了？

华夏多元稳健收益团队：像回收火箭一样回收BP

宁德时代在想什么？

贝壳奔跑不停歇

压垮女装的不是退货率

推动电商行业回到良性竞争，阿里迈出关键一步

没有人比亚朵更懂心理学

快手财报里，藏着普通人的消费真相

B站盈利，和在座的二次元没关系

不要低估叶国富的勇气

奈雪的茶为什么掉队了？

盒马来得太晚了

奥运冠军抢救内娱

再忍一下，愚蠢的智能客服就要消失了

当一家百亿量化陷入一场美国官司

中国饮料浮沉录：水大鱼大，奔流不息

狂飙十年，国产CIS挤上牌桌

史上最长双11，品牌老板们都在忙什么？

放弃内卷，是电商平台最大的谎言

迈瑞还能打吗？

从“配角”到“主角”，走向台前的电站技术

京东，换一种方式做低价

汽车经销商走到了悬崖边

郑钦文多风光，谷爱凌就多焦虑

当炒股成为一种流量

营收超越特斯拉，比亚迪的第四次胜利

给企业家一颗备用大脑

国产视频模型，何以风靡美国社交媒体？

直播电商，见证老国货们的突围时刻

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉