【金猿案例展】科大讯飞——基于聚合数据平台的通用数据要素服务建设

科技   科技   2024-11-12 18:05   北京  





聚合数据数据要素案例
该数据要素目案例由聚合数据投递并参与数据猿年度金猿策划活动——2024数据要素产业年度优秀企业榜单/奖项”评选




大数据产业创新服务媒体

——聚焦数据 · 改变商业




随着数字经济的蓬勃发展,企业及政府对数据管理与交换服务的需求日益旺盛。弗若斯特沙利文报告显示,预计2027年中国数字经济规模将达到82万亿元,这一宏观趋势为天聚地合提供了广阔的市场空间。其服务对象横跨传统企业、行业机构、政府组织、科技公司、电信运营商、互联网公司等多元主体,几乎覆盖社会经济的各个角落。

在数字经济时代,随着AI及大模型技术的迅猛发展,数据已经成为一种关键且稀缺的生产要素。企业需要高质量、高标准和高可信的数据来推动科技创新,而政府则在寻求更高效安全的数据管理和应用方式,加快公共数据开放的步伐。然而,数据流通和共享面临诸多挑战,包括数据安全、隐私保护以及数据有效性等问题。

科大讯飞作为人工智能领域的领先企业,致力于推动大模型的研发与应用,以满足市场对智能语音和自然语言处理等技术日益增长的需求。然而,在构建高性能的AI模型过程中,数据质量和数据多样性是决定模型成功的关键因素。为了提升大模型的通用性和实用性,科大讯飞需要大量高质量的“数据要素”,包括企业工商信息、IP地址、股票数据、汇率数据等多种类型的基础数据,以支持其模型在广泛场景中的应用和理解能力。

天聚地合(苏州)科技股份有限公司的“聚合数据”平台,作为国内领先的基于API的数据服务提供商,专注于提供一站式的在线数据交易服务。通过与聚合数据平台的合作,科大讯飞能够高效、低成本地获取结构化的“数据要素”,实现实时调用和动态更新,为大模型提供持续丰富的训练数据支持。本次合作不仅帮助科大讯飞有效降低了数据获取成本,还提升了数据获取的时效性和多样性,确保了大模型训练数据的广泛覆盖和高质量,为模型的智能表现和行业应用奠定了坚实基础。

时间周期:

项目开始时间:2024年2月

中间重要时间节点:

2024.2 数据测试

2024.3 数据正式调用使用

项目完结时间:至今

数据要素价值需求


在人工智能和大数据技术迅猛发展的背景下,科大讯飞为其大模型训练提出了高质量、多样化的数据需求,涵盖多个行业和领域的数据要素。这些数据要素对于模型训练和优化至关重要,不仅需要满足模型对海量数据的需求,还要兼顾数据的实时性、准确性和合法合规性,以提升模型在真实应用场景中的表现力。具体而言,科大讯飞在本次项目中提出了十几种以下数据要素类需求,以下为部分数据服务介绍:

企业工商信息:用于支持业务拓展和风险评估,科大讯飞需要最新、详实的企业注册信息,包括企业基本信息、股东结构和运营状态等。这些数据将为大模型在商业和行业知识方面的认知奠定基础,帮助模型更好地理解商业背景和市场动态。

IP地址信息:科大讯飞需要通过IP地址数据来确定用户或网络资源的地理位置和运营商信息,这对于模型的个性化推荐、地域分析和安全防护等应用场景至关重要。

股票数据:科大讯飞的大模型涵盖金融领域的研究和应用,因此实时股票行情和历史交易数据成为必需的数据要素。这些数据不仅可以用于市场预测和趋势分析,还能帮助模型在金融领域的语义理解和决策分析中提供更高的精度。

汇率数据:随着业务的全球化,科大讯飞需要实时获取主要货币的汇率信息,以支持跨国业务的财务结算和成本分析,同时也为模型在金融和经济分析等应用中提供更广泛的支持。

针对科大讯飞的这些数据要素需求,天聚地合的聚合数据平台通过灵活的API接口,以高效的方式提供了全方位的数据支持。天聚地合从数据结构和应用场景出发,对这些数据需求进行了精细的拆解和整合,构建了一套满足多样化需求的数据服务体系:

数据采集与整合:天聚地合通过自主研发的数据采集和处理技术,从多个权威来源获取企业工商信息、IP地址数据、股票数据和汇率信息。利用数据清洗和去重技术,确保了数据的准确性和一致性。同时,平台建立了灵活的数据更新机制,以满足科大讯飞对数据实时性的要求。

API接口服务:为满足不同场景的调用需求,天聚地合设计了标准化的RESTful API接口,支持JSON和XML等多种数据格式,同时提供OAuth2.0和API Key等多种认证方式,确保数据传输的安全性。科大讯飞可通过聚合数据平台的API接口,随时获取所需的数据要素,实现数据的灵活调用和快速集成。

数据处理与分析:在数据的进一步应用上,天聚地合为科大讯飞提供了基础的数据分析功能,帮助其快速获取分析结果,从而为大模型的训练和优化提供支持。同时,天聚地合的聚合数据平台还支持将数据转化为模型需要的格式,简化了数据预处理的工作量。

数据合规与隐私保护:天聚地合深刻理解数据合规在当下的重要性。聚合数据平台严格遵循相关法律法规,确保数据的合法合规使用。通过数据脱敏和加密传输等技术,保障了数据的隐私安全,为科大讯飞提供了值得信赖的数据服务。

天聚地合通过灵活的技术和全面的解决方案,为科大讯飞提供了符合其业务和模型需求的“数据要素”服务。此次合作不仅满足了科大讯飞对多样化、高质量数据的需求,还帮助其大幅降低了数据获取的成本和时间,提升了大模型的训练效率。

面临挑战


1. 数据需求高:客户的大模型训练对所需的垂类数据要求较高,需要有丰富但专业的数据种类,对数据格式有一定要求,能适用于大模型运行。高要求、大规模的精密训练对聚合数据清洗校验工作不仅提出了更高效率要求,也制定了较高的数据标准。

2. 数据安全难:客户大模型训练伴随着大量多行业多领域数据高速流转,数据在各个节点中进行共享、交换、计算、流通的过程中不可避免会出现数据漏洞,导致数据泄露风险。甚至会因为恶意数据的污染导致大模型系统输出错误结果,造成较为隐蔽但影响深远的后果。在数据管理方面,聚合需要针对客户具体的个性化需求系统化检测预警所有数据流通,同时对敏感数据加大防护力度、加强防护措施。

3. 隐私保护弱:为了更好服务用户,推荐个性化功能和服务,大模型在训练过程中涉及大量的用户隐私数据。例如个人姓名、联系方式、车辆登记、社交媒体等。这就要求需要对这部分数据进行适当的专门化管理,在确保数据流通顺畅的同时,严格管理私人数据的调用和分享,避免公共安全问题的出现。

4. 数据有效性:为了促进更规范准确的数据管理,减少不必要的数据错误,达到更高效和更智能的数据分析,聚合帮助客户大模型的数据有效性学习提供助力。将数据整理成有条理的数据集提供学习,优化数据的使用效率,减少数据存储和计算资源的需求,同时又能提高模型训练的效率和质量。

数据处理


在科大讯飞的大模型训练项目中,天聚地合的“聚合数据”平台提供了涵盖企业工商信息、IP地址信息、股票数据、汇率数据等多领域的高质量数据,满足了科大讯飞对多样化数据的需求。在本项目中,聚合数据平台提供的数据主要包括以下几类:

企业工商信息:平台从权威的政府和商业数据源获取全国范围内的企业工商信息,包括注册资本、经营范围、股东结构等关键信息。当前数据总量超过1亿条,且日更新量约10万条,以确保数据的时效性和准确性。这些数据为科大讯飞的大模型在商业分析和企业画像构建方面提供了坚实的基础。

IP地址信息:天聚地合每天从多个全球IP地址数据库中采集和更新数据,覆盖全球70万条IP地址的地理位置和网络运营商信息。通过日处理量约5万条的实时更新,科大讯飞能够快速调用最新的IP数据,以支持其模型在个性化推荐和地理位置分析中的需求。

股票数据:平台提供了覆盖国内主要证券市场的股票数据,涵盖股票行情、历史交易记录和市场指标等信息。此数据的日处理量超过5000万条。这些数据帮助科大讯飞的大模型在金融预测和经济趋势分析中保持数据的高度时效性和准确性。

汇率数据:平台从国际金融数据源获取多国货币的实时汇率信息,覆盖全球主要货币对,数据总量约为2000条。汇率数据实时更新,每分钟同步一次,确保科大讯飞的金融模型可以及时反映外汇市场的动态变化。

聚合数据平台的高性能数据处理架构支持科大讯飞在本项目中对大规模数据的调用需求。数据处理流程包括数据采集、清洗、格式化、存储和更新。在数据清洗阶段,平台通过算法去重和标准化,确保数据的准确性和一致性;在数据格式化阶段,平台根据模型需求将数据转换为适合训练的结构化格式,简化了科大讯飞的数据预处理工作。此外,平台的分布式存储系统和多级缓存设计,有效地提升了数据的查询和调用速度,为大模型的实时训练提供了高效的数据支持。

应用技术与实施过程


在本项目中,天聚地合的聚合数据线上交易平台通过高度灵活的数据服务技术架构,为科大讯飞提供了全方位的数据支持,以满足其在大模型训练和优化方面的多样化需求。以下是项目的具体实施过程,包括所采用的核心技术、模型、算法和具体的数据处理流程,以确保科大讯飞能够高效利用数据进行模型训练。

1. 数据采集与集成

多渠道数据采集:聚合数据平台采用分布式数据采集系统和API集成技术,从多个权威渠道实时采集数据,涵盖企业工商信息、IP地址、股票、汇率等多种类型。分布式数据采集系统可以根据需求高效地获取来自不同来源的数据,并对采集频率和数据格式进行灵活调整,以确保数据的时效性和完整性。

数据清洗与标准化:由于数据来自不同来源,其格式和质量参差不齐,因此在采集完成后进行数据清洗和标准化处理。通过自动化的数据清洗流程,系统会对数据进行去重、格式化和异常值检测,确保数据的准确性和一致性。例如,工商信息数据可能存在企业名称重复或地址格式不一致的情况,系统会使用正则表达式和标准化字典进行规范化处理。

数据仓库与数据湖整合:为了满足不同类型数据的存储需求,聚合数据平台采用了混合架构,将结构化数据存储在关系型数据库(如MySQL)中,非结构化或半结构化数据存储在数据湖(如Hadoop或Amazon S3)中,以支持高效的数据调用和查询。这一架构不仅增强了数据的管理和存储能力,还便于后续的深度数据分析和模型训练。

2. 数据处理技术

实时数据处理框架:对于股票、汇率等实时性要求高的数据,平台采用了基于Apache Kafka的流数据处理框架。Kafka作为消息队列,将采集到的实时数据推送到流处理系统中,再利用Flink或Spark Streaming对数据进行实时计算和清洗处理,确保数据的高效处理和实时更新。这一流程极大地提高了数据处理的吞吐量,能够满足科大讯飞大模型的实时训练需求。

数据清洗与ETL(Extract, Transform, Load):天聚地合的聚合数据线上交易平台设计了高效的ETL流程,利用Python和SQL编写的数据清洗脚本,执行数据抽取、转换和加载。该流程对数据进行深度清洗,包括字段填充、格式转换、异常处理和业务逻辑校验。例如,在汇率数据处理中,系统会校验汇率是否符合预期范围,并在发生波动异常时进行标记处理。

数据分层管理:为了确保数据在各个阶段的准确性,聚合数据线上交易平台采用分层数据架构,包括ODS(原始数据层)、DWD(明细数据层)、DWS(服务数据层)和ADS(应用数据层)。每一层数据均经过相应的处理与优化,逐步提升数据的结构化程度,以满足不同场景的需求。ODS层存储原始采集数据,DWD层进行数据清洗与去重,DWS层根据业务需求进一步聚合,而ADS层则是直接用于大模型训练的数据来源。

3. 数据存储与管理技术

分布式存储架构:为满足科大讯飞对大规模数据的高效查询需求,聚合数据线上交易平台采用了Hadoop和HBase相结合的分布式存储系统。Hadoop负责存储海量的历史数据,HBase则负责存储实时性较强的数据,如股票和汇率信息。通过这一架构设计,平台能够实现对大规模数据的快速读写操作,提升了数据查询的效率。

多级缓存技术:为进一步加速数据的调用响应,聚合数据线上交易平台在HBase和业务系统之间设置了Redis作为中间缓存层。在数据访问高峰期,系统会优先从Redis中读取数据,从而减少数据库的访问压力,提高响应速度。这一设计在科大讯飞的多次测试中显示出显著的性能提升,使大模型在调用数据时获得了更高的效率。

数据库优化与索引设计:在MySQL和HBase中,通过设计合理的索引结构,优化了数据查询的性能。例如,在企业工商信息查询中,系统为企业名称、注册地等常用查询字段建立了复合索引,使数据的检索速度显著提高。同时,平台采用了水平分区的技术,将大量数据按照字段拆分至不同的分区表中,以进一步提升查询效率。

4. 数据安全与隐私保护

数据加密与脱敏:在数据传输和存储过程中,聚合数据线上交易平台使用了AES加密技术对敏感数据进行保护,如IP地址和企业股东信息等,以确保数据的安全性。同时,为了满足隐私保护要求,对部分敏感信息进行了数据脱敏处理,如将电话号码显示为部分遮掩的形式,确保数据的合规使用。

访问控制与日志记录:聚合数据线上交易平台严格控制数据访问权限,采用基于角色的访问控制(RBAC)机制,确保不同用户只能访问其权限范围内的数据。同时,系统设置了详细的日志记录,对所有数据操作进行监控和记录,以便追溯任何异常操作,确保数据使用的透明性和安全性。

5. 实施过程及模型应用

数据API接口开发与测试:为了实现数据与科大讯飞大模型的无缝对接,聚合数据线上交易平台提供了RESTful API接口,支持多种数据格式(如JSON和XML)。接口开发完成后,平台团队进行了严格的接口测试,包括功能测试、性能测试和安全测试,确保数据传输的可靠性和稳定性。在测试过程中,通过模拟高并发场景验证了API的稳定性,使系统能够在数据调用高峰期保持稳定响应。

数据模型与算法应用:在数据的分析和处理过程中,平台运用了多种机器学习算法,以提升数据的精准度。例如,采用决策树算法对企业工商信息数据进行分类,以识别不同类型的企业;使用KNN算法对IP地址数据进行地理位置分类,以支持科大讯飞在个性化推荐中的应用。通过这些算法的应用,数据得到了进一步优化,为大模型的训练提供了更加精确的数据支持。

(技术架构图与数据流程图)

6. 项目成果与优化

项目成果:通过本项目的实施,聚合数据平台为科大讯飞提供了高质量的数据服务,大大提升了其大模型训练的效果。在项目结束后的性能评估中,科大讯飞发现模型在知识广度、应用准确性和响应速度方面得到了显著提升。这不仅帮助科大讯飞优化了大模型的效果,还增强了模型在金融、商业和地理位置等多个应用场景中的表现力。

后续优化:天聚地合在项目结束后进行了深入的数据分析与总结,并对系统的性能提出了进一步的优化计划。例如,通过引入更高效的数据压缩算法,减少数据存储占用;通过优化API接口的负载均衡策略,提高并发响应能力;计划引入更多的机器学习算法,以提升数据清洗和分类的自动化程度。

服务效果


聚合数据通过构建可信的数据流通服务体系,在聚合搜集整理的庞大安全合规数据库基础上,提供给科大讯飞旗下讯飞星火近百种高质量数据,这样不仅降低了垂类数据集的数据采集成本,也节省客户全生命周期的数据安全维护成本,兼顾了安全与发展。

同时,一方面因为保证了大模型中垂类数据集的多样性,丰富了大模型的知识储备,大大增强了大模型的通用常识能力,有效缩短了应用开发时间,在为客户降低时间和人力成本的同时更大范围拓展大模型产品在各个生活场景中的适用能力。另一方面,聚合提供了大量API接口数据,通过实时API调用,讯飞星火能确保大模型信息实时更新,敏锐反映用户习惯,快速进行有效性推荐,更新数据流行趋势,从而洞察用户喜好,实现用户转化。在合作中对科大讯飞企业创新发展提供强有力的支持!

相关企业介绍


·科大讯飞

科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。自成立以来,一直从事智能语音、计算机视觉、自然语言处理、认知智能等人工智能核心技术研究并保持国际前沿水平。科大讯飞积极推动人工智能源头核心技术研发和产业化落地,致力于“让机器能听会说,能理解会思考,用人工智能建设美好世界”。

·聚合数据

天聚地合(苏州)科技股份有限公司是一家综合性API数据流通服务商。致力于为客户提供标准的API服务和企业、政府机构提供定制化的数据治理解决方案,专注于使用数据技术赋能数字经济,聚合数据为旗下品牌。至今,公司开发过超790个专有API,年API调用量超1200亿次,赋能了百万用户。打造了API数据应用服务专家-APl Market Place、API全生命周期管理专家-APIMaster、数据敏捷治理专家-DataArts、高效率数字化员工-QuickBot、隐私计算工具-SmartShield、联盟区块链工具-AnchorChain等数字技术综合服务产品,全面助力政企数字化转型升级。

数据猿
关注大数据产业的技术应用新媒体。数据猿致力于以大数据的产业应用视角,关注报道金融、工业、医疗、消费等为代表的全行业,并以大数据视角,重点关注人工智能与云计算领域。数据猿也将持续关注物联网、半导体、新能源等重要领域的大数据技术应用及发展情况。
 最新文章