向量数据库的性能、数据安全和隐私保护机制（同行交流共识）

科技 2024-10-25 07:36 北京

议题说明：

在智能投研、智能客服场景中，向量数据库需要处理海量的金融数据，包括文本、图像和时间序列数据等。这些数据的高维度特性对数据库的存储和检索性能提出了高要求。难点在于如何优化向量数据库的索引结构，以提高查询速度，同时保证数据的准确性和一致性。此外，数据的安全性和隐私保护也是不可忽视的问题，需要在系统设计中综合考虑。

议题主持人：

王晴证通股份云网事业部副总经理

参与议题交流嘉宾：

朱祥磊山东移动系统架构师

苟志龙某股份制银行高级工程师

金海波昆仑银行数据架构师

詹智财苏宁易购高级算法工程师

胡越某大型车企 AI算法工程师

董生某大型银行软件开发工程师

徐园园秦皇岛银行数据架构师

张志强大型车企数据安全专家

议题主持人：王晴证通股份云网事业部副总经理

在当今数字化金融的浪潮中，智能投研和智能客服场景正逐渐成为金融领域的重要发展方向。然而，在这些场景中，向量数据库面临着巨大的挑战。海量的金融数据，如文本、图像和时间序列等，其高维度的特性给数据库的存储和检索带来了诸多难题。如何优化向量数据库的索引结构以提升查询速度，如何确保数据的准确性和一致性，以及如何在保障数据安全和隐私的前提下进行高效处理，已成为亟待解决的关键问题。为了探寻有效的解决方案，我们汇聚了众多行业专家的智慧，期待能为这一复杂问题找到清晰的解决路径。

朱祥磊山东移动系统架构师：

大模型的数据安全和隐私保护是一个复杂而重要的议题，涉及多个层面和多种技术手段，分享一些处理方法和建议：

1.技术层面

（1）联邦大模型：采用分布式差分隐私的方法，即将模型的参数分散到多个参与方中进行训练，然后通过加噪声等方式使得参与方之间互相隔离，并保证模型的训练和推断结果不会泄露用户隐私数据。在大模型场景下，联邦学习可以有效保护用户数据的隐私，同时实现模型的协同训练和优化。

（2）对于大模型而言，将模型参数进行同态加密，然后交由云端进行训练和推断，可以保证用户数据不会泄露。然而，同态加密的计算效率较低，因此需要结合模型压缩、量化等技术来提高计算效率。

（3）数据脱敏与匿名化：数据脱敏一般是对数据进行替换、隐藏等操作，以防止敏感数据泄露；数据匿名化则是通过删除或替换数据中的个人标识信息，使得数据无法被识别或关联到特定的个体。在大模型训练前，可以对原始数据进行脱敏和匿名化处理，以降低数据泄露的风险。

（4）数据备份与恢复：对于大模型训练过程中的数据，应定期进行备份，以防止因意外情况导致的数据丢失。

2.管理与政策层面的处理

（1）严格的访问控制策略：通过实施严格的访问控制策略，限制对AI大模型的访问权限，防止未经授权的访问和数据泄露。

（2）定期的审查和审计：对AI大模型处理的数据进行定期的审查和审计，以确保数据的合规性和安全性。

综上所述，大模型的数据安全和隐私保护需要从技术、管理和政策等多个层面进行综合考虑和处理。结合严格的访问控制策略、定期的审查和审计等措施，以及遵守相关的数据保护法规和政策，可以最大程度地保护大模型中的数据安全和隐私。

苟志龙某股份制银行高级工程师：

1. 优化索引结构

选择LSH、ANN等高维数据索引算法。

设计分层索引，平衡查询速度和准确性。

动态索引调整，监测性能指标优化。

利用GPU、FPGA等硬件加速计算。

2. 保证数据准确性和一致性

数据预处理和验证，提高数据质量。

数据同步和事务管理，确保一致性。

定期数据校验和修复，维护数据准确性。

3. 数据安全性和隐私保护

访问控制和权限管理，限制数据访问。

数据加密，保护敏感信息。

隐私保护技术，防止隐私泄露。

安全审计和监控，实时监测安全事件。

此方案框架可优化向量数据库性能，保证数据准确性和一致性，同时加强数据安全性和隐私保护，满足智能投研和智能客服等场景需求。

金海波昆仑银行数据架构师：

可以考虑以下方法来优化向量数据库的索引结构：

选择合适的索引算法：针对金融数据的高维度特性，可以选择适合的索引算法，在高维空间中快速找到近似最近邻，提高查询速度。

分层索引结构：构建分层的索引结构，将数据划分为多个层次进行索引。在不同层次上进行粗粒度和细粒度的索引，以提高查询效率。

压缩和量化：对向量数据进行压缩和量化处理，保持一定的准确性，减少数据的存储空间和计算量。

分布式架构：采用分布式向量数据库架构，将数据分布在多个节点上进行存储和处理。

缓存机制：建立缓存机制，将频繁访问的数据缓存到内存中，减少磁盘IO操作，提高查询速度。

数据分区和索引分区：对数据进行分区存储，并为每个分区建立独立的索引。这样可以减少查询时的搜索范围，提高查询速度。同时，可以根据数据的特点和查询需求，合理划分索引分区，以提高索引的效率。

定期更新和优化索引：随着数据的不断增加和变化，定期更新和优化索引结构，以确保其始终保持良好的性能。可以根据数据的分布和查询模式的变化，调整索引参数和算法。

詹智财苏宁易购高级算法工程师：

在大模型场景中，数据安全和隐私保护主要还是集中在数据上，而通过流程位置的不同可以分为：

1）模型训练，微调等场景下的训练数据的隐私和保护，这一方面是如何保护数据不泄露，另一方面是如何保护当大模型上线后，如何不让用户从大模型口中问出这些原始数据，第二个问题也是大家容易遗忘，以及关注度不够的地方，这最好通过引入旁支大模型进行判定或者关键字过滤等等辅助手段进行保护；

2）在大模型推理时候，顾客传输给大模型的数据如何具有隐私性和保护性，这个主要还是从日志保护，网络保护等方向下功夫。

董生某大型银行软件开发工程师：

1.数据传输风险：采取适当的安全措施来保护数据的机密性和完整性，以防止传输过程中被截获和篡改的风险，例如传输加密，增加校验码等

2.训练过程中风险：例如联邦学习中的同态密码学，大模型接受密态化的数据输入，整体精调和推理过程完全是密态化的进行，最终的结果也是以密态的形式返回给客户端。

3.执行环境风险：选择TEEE的执行环境，保护数据不被窃取。

4.选择沙箱环境，分离模型、数据使用权和所有权，既能提供模型精调计算所需的算力管理和通信等功能，又能保证模型拥有方的预训练模型在不出其定义的私有边界的前提下，数据拥有方可以完成模型精调任务。

张志强某大型车企数据安全专家：

数据的安全性和隐私性无论在大模型的场景中还是传统的信息系统架构中都要充分考虑。

1.数据安全一定要从数据采集、数据传输、数据存储、数据交互、数据消亡的生命周期进行技术考虑，充分结合数据安全法和个人信息保护法的要求进行技术把控；

2.无论国内还是国外，数据的出入境问题都要考虑，管理方面一定要和服务方（律所）做充分沟通，解读属地法律，配合技术把控。

3.技术一定要与业务沟通，在系统设计阶段，就要把数据安全考虑进去，避免亡羊补牢。

徐园园秦皇岛银行数据架构师：

在数字时代，面临数据合规治理和隐私保护的挑战，企业可以从两个方面做好隐私保护工作：

1.在模型训练阶段可以使用匿名化的工具，防范未来模型本身带来隐私泄露或者个人信息被滥用的风险；

2.在大模型的商业化应用落地时，要把服务他方产生的数据和自营业务里使用到的数据进行隔离。

胡越某大型车企 AI算法工程师：

如果不是专业性特别强的场景，不需要重新训练大模型的，考虑数据安全时可以把向量数据库本地构建，这样对应的知识库也就本地化了，同时大模型本地化，这样一整套都是在本地了。

如果是涉及到专业性比较强的，需要重新训练大模型的，则需要结合企业内是否有对应的大模型调优训练所需的人力资源和硬件资源，如有则也可以在本地完成，如没有则需要考虑借助外部资源并签订保密协议等。

议题共识综述

针对智能投研和智能客服场景中向量数据库所面临的问题，专家们提出了丰富而全面的见解。

在数据安全和隐私保护方面，从技术层面来看，可采用联邦大模型的分布式差分隐私方法、模型参数的同态加密，以及数据脱敏与匿名化处理等手段，并做好数据备份与恢复。管理与政策层面则要实施严格的访问控制策略，进行定期的审查和审计，同时遵守相关法规和政策。

优化索引结构方面，专家们建议选择高维数据索引算法，设计分层索引，动态调整索引，利用硬件加速计算，或构建分层的索引结构，对向量数据进行压缩和量化处理，采用分布式架构、缓存机制、数据分区和索引分区，并定期更新和优化索引。

保证数据准确性和一致性的方法包括数据预处理和验证、数据同步和事务管理以及定期的数据校验和修复。

在数据安全性和隐私保护措施上，要进行访问控制和权限管理、数据加密、采用隐私保护技术以及安全审计和监控。同时，对数据进行安全等级区分，提升用户安全意识，分级存放数据，防止数据泄露，建立完备流程。

此外，还需考虑数据传输、训练过程、执行环境等方面的风险，采取传输加密、联邦学习中的同态密码学、选择合适的执行环境和沙箱环境等措施。从数据的生命周期进行技术把控，做好数据合规治理和隐私保护，在模型训练阶段使用匿名化工具，商业化应用时做好数据隔离。

点击文末阅读原文，可以到社区原文下留言交流
觉得本文有用，请转发、点赞或点击“在看”，让更多同行看到

资料/文章推荐：

欢迎关注社区 “AI”技术主题 ，将会不断更新优质资料、文章。地址：https://www.talkwithtrend.com/Topic/116059

下载 twt 社区客户端 APP

长按识别二维码即可下载

或到应用商店搜索“twt”

长按二维码关注公众号

*本公众号所发布内容仅代表作者观点，不代表社区立场；封面图片由版权图库授权使用

http://mp.weixin.qq.com/s?__biz=MjM5NTk0MTM1Mw==&mid=2650700982&idx=2&sn=6216ff52e1a689eb948ef3569c8f24aa

twt企业IT社区

talkwithtrend.com社区（即twt社区）官方公众号，持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群，让您时刻和国内企业IT同行保持信息同步。

最新文章

金融行业国产数据库容灾建设五大难点及解决方案（多位专家观点可供参考）

Kubernetes / OpenShift 日常巡检（非常详细）

一文读懂虚拟 GPU（vGPU）技术

中小城商行如何选择合适的“小云”来适应一云多芯？

金融行业关键系统信创数据库备份选型需要关注的难点问题（同行交流共识）

信创（麒麟）操作系统选型适配、运维实施难点及应对方案

详解Kubernetes控制器

金融行业云原生应用趋势及建设优化合集（2024年度）【联盟专属资料放送】

星期五招聘日 | 北京上海福州顺德等6市20余岗，中国银联、中信建投证券、顺德农商银行、福建海峡银行、兴业银行信用卡中心等招聘

某银行开发测试准生产机房基于虚拟卷技术实现“信创数据库+信创虚拟化+信创SAN存储”实践分享

金融企业数据湖建设难点和解决思路（同行交流共识）

从办公管理系统信创应用改造看运维体系的变化

信创异构环境下审视云原生二层和三层容器网络

某银行权益类系统基于“业务容器化+数据库多租户”架构实现Oracle信创替换并建设同城双活实践分享

金融行业系统可观测性建设思路和难点

开源生态是一把双刃剑，风险挑战怎样应对？

金融行业私有云上业务系统混合部署的五个关键难题（同行交流共识）

DBA 定制自动化巡检工具（附参考脚本）

存储 IO 性能优化方案与瓶颈分析（15图干货）

金融行业VMware虚拟化替换策略及实践经验合集【联盟专属资料放送】

星期五招聘日 | 北京上海海口苏州等6市20岗，交通银行招聘高层次人才，苏州银行、海南农商银行、成方金信等企业急聘

金融行业信创运维体系建设

金融企业如何进行大数据平台信创整体规划实现平稳迁移与架构优化？| 11月9日·杭州站，报名中

大模型技术在金融领域数据挖掘场景中的运用【大模型行业应用实践系列】

信创数据库环境下如何确保备份解决方案的合规性？（同行交流共识）

某银行日志平台 Elasticsearch 运维（动态配置篇）：集群、索引GC等方面

金融企业为什么有建设数据湖的必要性？价值如何体现？（同行共识总结）

（麒麟、统信）信创操作系统与非信创操作系统稳定性、性能、故障率以及运维难度对比差异（同行交流共识）

结合大语言模型与 Zabbix API 实现 Zabbix 模板自动化翻译

“PostgreSQL技术路线+集中式存储”平滑替换Oracle后，如何开展IT架构高效运维？

某银行基于全闪NAS双活统一高性能文件共享存储实践分享

某金融企业生产环境下信创数据库运维管理规范

存储架构技术发展演变30年：从原始时期到 SAN & NAS 共存阶段；从SDS兴起、百花齐放，到沉淀并分类聚焦的时代

制造行业VMware虚拟化替换策略探讨合集【联盟专属资料放送】

星期五招聘日 | 深圳上海郑州沈阳等城市岗位，中信银行信用卡中心、兴业银行上海分行、河南农商联合银行等企业招聘

向量数据库的性能、数据安全和隐私保护机制（同行交流共识）

如何评估可观测性建设的成效？有哪些关键指标？

信创虚拟化资源池支撑银行重要交易类系统多类信创数据库稳定运行实践分享

十年历程：某三甲医院网络系统的三次改造

企业Centos操作系统迁至（麒麟、统信）信创操作系统迁移成本对比及如何控制（同行交流共识）

《中小银行行业重要及关键系统信创数据库备份软件选型参考共识》（来自中小银行行业群体投票及建议，可下载）

数据库平替的不同场景下，如何选择计算与存储平台的组合？

算力未来，GPU or CPU ？

基于三层模型构建自研存储自动化（实践干货分享）

详解“三保一评”：分保、等保、关保、密评之间的联系与区别

企业信创操作系统落地实践经验合集（下）【联盟专属资料放送】

星期五招聘日 | 上海沈阳柳州江阴东莞精选十余岗，中国工商银行辽宁分行、江阴农商银行、柳州银行、东莞农商银行、华富基金招聘

PB级数据量下的MPP数仓+Hadoop的传统大数据平台向信创环境迁移，有哪些难点？

如何设计智能投研系统，从海量、多源、非结构化的数据中自动提取价值线索，生成投资分析报告？（同行交流共识）

以系统工程思想构建 DevOps 体系

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉