星环科技技术
大数据产业创新服务媒体
——聚焦数据 · 改变商业
随着人工智能的快速发展,机器学习技术也在不断向前推进。从ML(机器学习)到DL(深度学习)再到LM(大规模学习),大模型在机器学习领域泛化和逻辑思考问题上表现出了良好性能,为通用人工智能的实现提供了可能性。
然而,现阶段的大模型在考虑性能时并没有深入探究其输出内容的规范性,当前的大模型往往在数据的预处理上有多种多样的方法,但是它们在输出结果的可信可控性方面并没具有很强的逻辑性,导致以同样数据训练出的不同大模型之间输出的结果从内容到格式上都不够统一,缺乏一致性。大模型的逻辑性和可控可信性常受质疑,给大模型的进一步发展带来了巨大的挑战。
现有技术中提升大模型问题回答逻辑性、规范性的方法主要有如下几种:
1. 对所有数据集手动标注,将问题和规范的回答进行匹配。这样训练模型时就能对模型生成的回答对齐;
2. 训练两个LLM模型,比较两个模型生成的内容标注优劣,实现人工方式的对齐;
3. 在上述两种方法的基础上采用迭代的方法,在每次手动标注优劣或是手动标注规范回答后,建立Loss函数,通过不断调整模型的结构和参数,持续优化模型的生成结果;
4. 将多个模型进行集成和组合(如加权平均等),提高模型规范对齐的准确性。
综上,目前大模型预测方法,模型的训练和规范对齐大多依赖人工的手动标注和判断,不仅费时费力,大模型生成的结果受标注员的主观因素影响而不够准确;自动化程度低、效率低,不利于规模商用,且预测过程和结果不直观不可控。在大模型思考和得到答案的过程中,由于大模型无法自动、高效进行规范对齐,进一步导致了无法准确对数据进行预测,得到准确的答案。因此,在智能问答过程中,如何准确预测,得到可靠的答案,且预测过程直观可控成为有待解决的问题。
针对上述过于依赖人工的方法没有充分利用大模型本身的数据自治等特点,本发明创新地提出一种大模型对比增强学习的问答方法与系统,该方法能够记录完整的大模型思考和得出答案的全过程,并以自动化的方式判断是否保留大模型生成的结果。本发明提出的基于孪生模型对比增强的问答方法,打开了模型学习黑盒,使得中间步骤遵循逻辑规范,实现大模型处理过程可测可控,并以比对学习的方式实现逻辑一致性的强化学习,方法简单易实施,可便捷地应用于实际业务场景中,性能稳定,过程可控。
本发明公开方法区别于现有方法的关键突破性技术在于:
1. 本发明提供了一种过程可控、逻辑自洽,且完全基于大模型本身的数据自治和对比训练的方法;
2. 本发明将两个大模型同时增强学习和推理,通过大模型之间的对比训练和推理得出一致性对齐的结果;
3. 基于CoT思维链方法,可以完整记录大模型的思考和得出答案的过程,利于人机交互和规范准则的落实;
4. 整个流程直观清晰,最终判断是否符合规范采用自动化的方法,效率高,结果准确。
本发明的核心技术概述如下:
● 大模型孪生对比学习技术:本发明通过孪生LLM AB增强学习,实现了数据的自主管理和模型间的对比训练。这种方法通过Loss A、Loss B和Contrastive Loss三种损失函数,度量模型输出与标签的损失以及模型间的对比损失,从而优化模型性能,通过自动化和智能化的模型训练,可以显著提升大模型的智能化水平;
● 大模型一致性对齐技术:本发明将两个大模型同时增强学习和推理,通过大模型之间的对比训练和推理得出一致性对齐的结果。这种通过模型间的对比学习和推理,可以有效地提高模型输出的一致性,从而提升了模型的可靠性和准确性。在行业技术水平提升方面,这种技术可以提高模型的一致性和准确性,增强了人工智能系统的预测和决策能力;
● 基于CoT思维链的推理技术:基于CoT思维链方法,可以完整记录大模型的思考和得出答案的过程,利于人机交互和规范准则的落实。在本发明中,原始训练数据集包含Question、Answer和CoT,CoT部分可以与规定规范显式对齐,增强模型学习的过程可解释性。在行业技术应用方面,CoT技术的应用不仅提高了模型处理复杂问题的能力,还增强了模型的可解释性和透明度,使其在教育、知识检索、自然语言处理等多个领域显示出极大的应用价值。
● 自动化模型优化技术:整个流程直观清晰,最终判断是否符合规范采用自动化的方法,效率高,结果准确。通过Answer A和Answer B的相似性度量,自动化地判断两个Answer的一致性,还可以进一步地通过自动化的增强学习流程,针对低一致性数据集进行训练,实现自动化的模型优化和性能提升。
公司大模型产品曾入围IDC《中国大模型在数字政府应用市场分析,2024》政务大模型厂商图谱、IDC中国生成式AI市场模型构建和编排推荐供应商、《IDC中国数据智能市场趋势分析》LLMOps技术代表供应商、Gartner《Hype Cycle for Data, Analytics and AI in China, 2024》推荐供应商,产品曾获人民匠心产品奖、2023世界计算大会专题展优秀成果等。
1. 星环大模型运营平台Sophon LLMOps
星环大模型运营平台(Sophon LLMOps)是星环科技推出的企业级大模型全生命周期运营管理平台,打通并优化了语料接入和开发、提示工程、大模型训练、知识抽取和融合、模型管理、应用和智能体构建、应用部署、运维和监控,以及业务效果对齐提升的全链路流程。
Sophon LLMOps大模型训练能力模块利用大模型孪生对比学习技术,优化模型性能,实现数据的自主管理和模型间的对比训练,显著提升大模型的智能化水平。在模型评估和模型纳管能力模块,应用大模型一致性对齐技术,确保不同模型版本和模型之间的输出结果具有高度的一致性,从而提升模型的可靠性和准确性。在数据准备和提示工程能力模块,基于CoT思维链的推理技术可以完整记录大模型的思考和得出答案的过程,增强模型学习的过程可解释性,提高模型处理复杂问题的能力。
最后,在模型监控模块和评估模块中,针对低一致性数据集进行训练,实现自动化的模型优化和性能提升。通过本专利技术的应用,Sophon LLMOps能够提供更加智能化、自动化的服务,提高大模型的逻辑性、规范性和可控性,提升大模型在实际业务场景中的应用效果。
2. 星环无涯·问知Infinity Intelligence
星环科技无涯·问知Infinity Intelligence,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品。星环无涯·问知实现了大模型一致性对齐技术和基于CoT思维链的推理技术的结合应用,有效提高模型输出的一致性,从而提升了模型的可靠性和准确性。
同时,基于CoT(Chain of Thought)思维链方法,星环无涯·问知能够完整记录大模型的思考和得出答案的过程,增强了模型学习的过程可解释性。本专利方法不仅提高了星环无涯·问知在企业级应用中的可靠性和准确性,尤其是在需要高度一致性和准确性的金融和法律领域,增强了模型的可解释性和透明度,显示出极大的应用价值。
此外,本专利技术的应用优化了人机交互和规范准则的落实,使得星环无涯·问知在如法律法规咨询、财经分析等实际业务场景中,能够更好地遵循规范准则,实现人机交互的优化,提供更加准确、可靠和可解释的智能问答服务,满足企业级用户对于高性能AI解决方案的需求。
·带队负责人姓名:杨一帆
杨一帆,星环科技技术VP、人工智能产品部研发总监。本科毕业于中国科学技术大学,后续在肯塔基大学获得统计博士学位。曾在美国银行反洗钱部门和阿里巴巴搜索事业部对抗智能团队任职,有丰富的反洗钱、反作弊业务背景和统计学习、深度学习、隐私计算和图计算研究经历。
团队其他重要成员姓名:夏正勋、蒋浩博、罗中岩
·隶属机构:星环科技
星环科技(股票代码:688031)致力于打造企业级大数据和人工智能基础软件,围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件与服务,构建明日数据世界。公司自主研发了大数据与云基础平台(TDH & TDC)、分布式关系型数据库(ArgoDB & KunDB)、数据开发与智能分析工具(TDS & Sophon)、知识平台与领域大模型(TKH & 无涯)的软件产品矩阵,拥有超百项境内外发明专利。公司产品已在十几个行业应用落地,终端用户超1500家。
2016年公司成为中国首个进入Gartner数据仓库及数据管理解决方案魔力象限的厂商,且被评为最具前瞻性的远见者;2017年,被IDC评为中国大数据市场领导者;2018年,成为12年来全球首个通过TPC-DS测试及官方审计的数据库厂商;2022年,被Gartner评为数据中台及图数据库全球推荐供应商。同年,成为全球首个通过TPCx-AI的软件厂商,单节点性能全球第一。2023年,TDH通过 TPCx-BB SF3,000,性能全球第一。2020-2023年,连续4年蝉联IDC中国大数据平台私有化部署市场份额第一的独立软件厂商。
基于星环科大模型运营平台,实现了国产算力池的NPU算力纳管,同时管理开闭源生成式大模型及服务超30余种,具备较好的易用性和系统稳定性。基于分布式和容器化的部署架构,平台持续稳定地为创意中心、研报助手、托管助手和智能询价等场景提供服务。
——某头部证券
宏碁与星环科技从软件到硬件结合,开发了全新的AIPC产品,同时我们内部也部署了星环科技的TKH知识平台,并基于无涯大模型开发了宏碁专属的AI助手A星人专业版,并在多个关键部门投入使用AIPC的产品。在企业管理的过程当中,无涯大模型的数据分析、尽调助手、资讯说明、视频解析等能力,帮助我们在销售、市场、行政、IT等部门显著提高了这些领域的工作效率。
——中国区总经理暨执行董事蓝绍文
提示:了解更多相关内容,点击文末左下角“阅读原文”链接可直达该机构官网。