当代职场人,“随地移动办公”是一种常态。
前一秒还在city walk,下一秒掏出笔记本往台阶上一放、就地办公;候机室里,总有那么几个人直到登机的前一秒还在笔记本上敲字疾书。
这是信息爆炸、连接无处不在的现代社会,在给予人类生活方便之余,随手附赠的无奈。
合同签订前关键信息修改、稿件发布前的查漏补缺,种种突发状况,都让移动办公处理文档成为当下职场人的刚需。
手机屏幕越做越大,给人们在移动中阅读更长的文档提供了方便,但“处理”的步骤仍在困住职场人的手脚,随身携带的笔记本仍然是肩头沉重的负担。
大模型的到来给解放职场人的肩膀带来了可能,也给产学界攻克“难啃的硬骨头”——文档AI,带来了突破口。
难啃的硬骨头
1992年,Adobe联合创始人查尔斯·希莫尼发明了PDF,连同十年前微软的查尔斯·希莫尼发明的Word,联手开启了数字化办公的时代。
堆积如山的纸质文档工作被浓缩在一方屏幕之中,一度将人们处理文档的效率推向了新的层级。但两个查尔斯都不会想到,几十年后的现在,这些数字文档会反过来拖累职场人的工作效率。
工程师敲代码前需要阅读的技术文档动辄几百页,分析师写行业报告需要从几十、上百家公司财报中抽丝剥茧、获取趋势共性,物理世界的纸质文件化身为14寸屏幕堆不下的数字文档,同样可以淹没无数职场人。
人工智能发展几十年,产学界很早就试图用AI技术辅助人们处理文档工作。从最早的规则启发到神经网络引入权重和数据训练,基本的思路都是“人为归纳规则->转换为机器语言(函数和代码)->教授计算机规则”。
然而,随着人们需要在电脑上处理的工作范围越来越广,文档的复杂化发展没有尽头,有限的硬件算力和仍待完善的算法,都使得大部分文档智能不那么智能。
例如一旦文章过长或是包含的图文要素过多,文档智能给出的摘要常常不够准确,甚至和文档内容风马牛不相及;
或是用户希望针对某一问题在文档内容中找到相应的解答,文档智能虽然会给出答案,却不能溯源定位到原文,使得用户无法进一步确定答案的准确性。
同时,随着数字化深入到各行各业,文档类型越发繁杂,每一类文档对应一种处理规则,一种规则再对应一套算法的建立和后续的调试,整个流程逐渐变成了难以负担,并且不具备经济效益的繁重工作。
自动驾驶的难度众所周知,而文档AI面临的挑战并不比自动驾驶少。
一是数据。根据IDC口径,2018年-2025年,全球数据量将从33ZB到增长到175ZB,其中80%是非结构化数据[1],包括图像、音频、传感器数据等,共同特点是没有统一格式、缺乏定义,难以表征;
二是理解能力。语言中的复杂语义、文档的结构化都需要更强的逻辑演绎能力来理解和解读,比如从“任务很困难,但小明坚持完成了”,推导出“小明持之以恒”,再比如一级标题和二级标题之间的递进、表格表头与数据的一一对应等。
三是专业性。尤其是在专业性极强的垂直行业,例如专业的论文,财经报告,律师卷宗等等,解读这类文档需要专业知识的长期积累。
直到大模型的出现,无需人工标注的数据和自监督学习机制,赋予了计算机自主进化的能力。
作为产学界最难啃的骨头之一,文档AI因此得到了突破的机会,HUAWEI Mate X6的系统级AI助手小艺率先作出了示范。
突破文献综述难题的创新探索
今年10月“原生鸿蒙”HarmonyOS NEXT正式登场,11月华为Mate品牌盛典,软件层焕然一新,再次进化的智能体小艺聚焦了视线。
HUAWEI Mate X6的大屏和轻便为移动办公而生,HarmonyOS NEXT将AI与操作系统深度融合,赋予了小艺处理复杂文档时的突破性表现。
学术论文是典型的复杂文档,其中包含大量抽象概念,混合艰深晦涩的文字表述,加上庞杂的数据图表,依靠肉眼阅读、人脑理解都费时费力。
但论文写作逃不开阅读、引用大量前人论文,尤其是文献综述环节,是学术圈知名“老大难”。
用HUAWEI Mate X6的文件管理器打开一篇学术论文,点击右上角小艺星环呼唤出小艺,先生成一张思维导图,快速掌握文章的逻辑脉络和核心观点。
用户对生疏概念进行提问,小艺会给与解答,利用小艺连续问答精准溯源的能力,通过将相关文字高亮,用户可以直接定位到原文做进一步理解,或是根据解答继续追问。这个举动就像人类写论文标注数据来源和出处的习惯,为的就是追求严谨和准确,打消阅读者对生成内容准确性的顾虑。同时,借助高亮溯源的特性,阅读者也能快速找到想详细了解的段落,进一步提升阅读效率。
阅读过程中,遇到陌生的概念,不用到搜索引擎上搜索,直接问小艺,从“深度学习和神经网络的关系”到“多模态LLM和一般模型的区别”,都能迅速给与解答。
得益于多模态内容感知能力,哪怕是论文包含复杂的图表和大段抽象的文字表述,也可以让小艺将其转换为精美易读的图文摘要,绘声绘色、通俗易懂。比如让小艺进行论文解读,用小艺根据文档生成好看易读的图文编排呈现,能更清晰地给出抽象概念的区别,便于理解。不得不说,在需要处理非结构化、多样化表格或图文混排等复杂文档情况下,华为的版面理解模型在内容解析能力上的提升,让小艺具有了更大的优势。
表格数据也是学术论文中常常出现的表达形式,但其在呈现趋势、差异等方面存在不够直观的问题。
依托于鸿蒙系统打造的系统级文档助手,也让小艺有了智能感知用户意图的能力,在遇到类似“LLM历年参数规模”的表格数据时,就可以复制其中的大部分文字,小艺完整识别后提取数据,生成“LLM参数规模散点图/直线图”,展现趋势,一句话即可根据文档内容生成图表,就省得我们自己倒进数据表再手动拉数据画图了。而这就是系统与AI深度绑定的结果。
小艺之所以能正确识别文档,并给出准确的摘要,这也要归功于华为的版面理解模型,正因为有了这项能力的赋能,小艺才能做到准确的高亮溯源、一句话生成图表等动作,事实上它还可以理解文档的页码,即便是将文档的某一页删掉或保留这种操作,都能动动嘴巴让小艺代劳。
国内学者还经常遭遇全英文文献的困扰,贯穿全文的英文专有名词,即使翻译APP不离手,也免不了阅读速度大大降低。小艺不仅能提供全文翻译,还可以生成中文摘要、提供中文问答来帮助用户更快地领会文献核心。