数据作为新时代的生产要素,深刻改变经济活动的每个环节。9月25日,为期4天的第三届全球数字贸易博览会在浙江杭州开幕,浩鲸科技携“1+1+4+5+X”鲸智大模型体系参展,并重点向行业展示“鲸智文档大模型”。
企业积累的宝贵知识,广泛散布于形式多样的电子文档之中,这些文档不仅格式多样,内容的质量亦呈现出显著的差异性。对海量数据进行精细化的清洗与预处理工作,已成为提升数据价值、确保模型精准高效运行的关键一环。
如何有效提取并利用这些宝贵的知识资源,成为摆在所有企业面前的一道难题。浩鲸科技深刻洞察这一痛点,鲸智文档大模型应运而生,实现从企业文档知识抽取到知识融合,再到知识推理的全面覆盖。
从技术层面来看,鲸智文档大模型分底层、中间层、上层:
底层,精准知识抽取:通过标题提取、表格识别、版面分析等多维度模型,精准捕捉文档中的关键信息,确保知识的有效提取。同时,知识密度分类与语义压缩模型的加入,进一步提升了信息提取的效率与质量。
中间层,深度知识融合:在知识块的基础上,进行抽象总结与多模态数据关联,将碎片化知识整合为系统化的知识体系,并映射至高维向量空间,为后续的知识推理奠定坚实基础。
上层,智能知识推理:面向多样化的任务场景,如知识问答、业务流程优化等,构建专门的推理模型,以高效、精准的方式响应企业需求,实现知识的深度应用与价值转化。
在实际应用场景中,为深度赋能企业用户,浩鲸科技依托先进的鲸智文档大模型,匠心打造了多模态文档工具链——DocChain。
DocChain不仅成功实现了企业文档向宝贵资产的转化,更构建了一个集文档知识精准提取、高效检索与智能问答对话于一体的全方位服务平台。凭借卓越的多模态处理能力、广泛兼容的文档格式支持以及极致的性能优化,成为企业文档处理领域的得力伙伴。其显著特点包括:
智能提取,精准高效:集成前沿NLP算法与模型矩阵,实现文档处理速度与精度的双重飞跃。支持多元模态检索,无论是文找文、文找图,还是图找图,均能游刃有余。更配备图文融合问答功能,内置10+AI模型,抽取精度高达98%,问答响应准确率超越80%,让信息获取更加智能、便捷。
格式兼容,全面广泛:拥抱多样化文档生态,支持超过30种文件格式,特别兼容OFD等国产信创标准,确保各类文档无缝接入,处理高效且精准,满足企业多样化需求。
多模态处理,深度解析:深度解析文档内容,无论是文本、目录、图片、表格、链接还是页码,均能精准拆分与提取。针对常见版面类型进行专项优化,确保处理效果更加贴合实际应用场景,提升信息利用效率。
轻量化设计,灵活部署:采用纯本地化的关系型数据库、向量库及全文检索系统,摆脱对外部数据库的依赖。支持纯CPU运行模式,无需GPU等高成本硬件支持,降低部署门槛。同时,提供基础BASE版快速启动方案,仅含核心功能,便于快速验证与部署。内置模型优化加速机制,加速文档处理与检索流程,进一步降低硬件要求,让智慧文档处理触手可及。
企业文档关乎信息安全,浩鲸科技创新推出DocChain软硬件一体机,专为轻量级场景设计,低成本实现企业内部大模型快速上线,覆盖通用知识检索、文档问答、服务支撑及品牌宣传等,可帮助企业迅速构建专属大模型问答系统,满足私有化部署。
目前鲸智文档大模型产品DocChain及“软硬件一体机”已广泛应用于浩鲸科技内部,并逐渐落地行业客户,得到广泛好评。
AI大模型的迅速发展,为各行业企业的文档知识理解和处理带来了转机,浩鲸科技正通过持续的技术创新与产品优化,推动大模型技术与企业领域知识深度融合,实现企业文档向有价值的资产转化,为企业创造更多价值。