如何使用大模型进行数据分类分级

2024-11-27 07:46 北京

数据分级分类，是数据治理，数据安全的基础。长期以来，针对数据分级分类，有许多的探索，包括各种机器学习的方法，都有一定的效果。大模型出现后，许多搞数据安全相关的公司纷纷宣布，使用大模型进行分级分类取得非常好的效果，包括效率大幅提升，准确率提高等。

大模型如何用来对数据进行分类分级？我们从大模型能力，Prompt提升，微调等方面，详细看看。

大模型的能力

大模型类似人脑，本身具备逻辑分析能力，可以直接用于数据分类，举个简单的例子：

也可以要求它直接输出JSON格式，便于代码解析

{"患者基本信息": {"姓名": "张三","性别": "男","年龄": "35岁","联系方式": "13812345678"},"就医信息": {"入院日期": "2024年11月15日","入院原因": "肺炎"},"医疗信息": {"诊断结果": "双侧肺炎","治疗方案": "抗生素治疗"},"状态信息": {"病情状态": "稳定"}}

Prompt增强

以上的分类，基于直觉虽然没什么错误，但离商用还远，实际上，分类的标准并不固定，有各种各样的要求，这种情况下，需要把分类标准直接告诉大模型，按需要的标准分类。

以下是一个简单的例子：

大模型有个神奇咒语，叫 think step by step,在数据分类的时候也可以应该，包括指定它的处理步骤，比如：

整体分类结果还是很清晰的。

指令微调

实际的数据分类非常复杂，有各种各样的要求，还有许多国标和行标，以及企业针对自身情况制定的一些分类标准，要求大模型按这些标准进行分类，需要准确告诉大模型这些分类标准。而要准确描述这些分类标准，可能需要几千字甚至更多，这个会带来效率的降低和成本的提升（需要很多Tokens）。解决这个问题的方法是使用指令微调。
当有大量领域特定数据，不太容易描述时，也可以使用微调。

指令微调比较简单，象openai,claude,千问等，都开放了微调API, 所有的开源模型都支持微调，但需要准备微调数据集，数据的内容大体是这个样子：

training_data = [{"instruction": "判断以下医疗文本的科室分类","input": "患者出现头痛、恶心、视物模糊等症状","output": "神经内科"},# 更多训练样本...]

微调后可以大幅简化Prompt,理论上也可以提高准确率（主要取决于数据集的质量）。

更复杂的形式

实际的分类工作会更复杂，在问题优化时不断强化能力，结合各种手段的使用，取得更好的效果。以下是论文提到的一种方法

框架的步骤可以包括：（1）从数据源收集数据以建立领域数据库；（2）将特定领域的数据发送到预先训练的 LLM 模型，如 GPT-4、Llama-3 等；（3）使用一些特定领域的数据进行微调或小样本学习；（4）将微调或小样本学习应用于预训练的 LLM 模型；（5）（可选）利用领域知识专家设置提示以提高 LLM 性能；（6）在预训练模型中应用提示；（7）评估整个专家系统的性能；（8）非专家用户通过用户界面向专家系统查询任务；（任务可能包括分类、情绪分析、预测、推荐等。在本文中，我们以分类和情绪分析为例。）（9）LLM API 与用户界面和预训练的 LLM 模型交互，为用户界面提供建议。

大模型用于分类的实际效果

以下是一个安全公司提供的流程图和效果图，看上去用大模型分类的结果很好，并且效率提升也很好。

总结

以前的分类流程，复杂且难以实现：

现在的分类流程，简单直接：

基于大模型开发分类的代码，大约只需要几十行。

原来非常复杂的软件，现在变得极其简单，只能说，软件的世界正在发生剧变。

END

注：
1.文中的大模型例子用的是Claude的免费版本
2.Github上使用大模型分类的例子
https://github.com/jeffheaton/app_generative_ai/blob/main/t81_559_class_03_4_classification.ipynb

3.论文地址：

https://arxiv.org/html/2405.10523v1

AI与安全

理清逻辑，找到规律，看清趋势。作者前华为云高级安全专家，现为独立顾问。

最新文章

智谱，豆包，及国外大模型的发展路线分析

都用AI了，IT的有些分工是不是可以合并？

花了VC的钱，该算帐了

通俗地说说RAG及其与大模型的结合

如何使用大模型进行数据分类分级

一文讲清楚大模型在网络空间安全里的应用

AI大模型用于Fuzzing测试

2024年融资超过1亿美元的AI初创公司

深入分析Wiz的平台和三个产品系列

Reducto 用AI解析复杂非结构化文档，种子轮840万美元

Patronus.ai,用大模型测试大模型,很好的创新方向

大模型的评估方法

目标1000亿$,Wiz看好云安全市场

Socket.dev 获4000万美元投资，供应链安全又前进一步

软件供应链安全级别定义SLSA介绍

Cyberstarts 投资模式争议

数据安全很火还是以色列很火？Cyera 1.62亿美元收购Trail Security

微软安全大模型的应用架构

问七个问题完成事件调查，微软 Security Copilot的大模型经典用例

CrowdStrike 的NG-SIEM，是如何使用AI的？

CrowdStrike的AI能力分析

云备份态势管理，产品还没出来，一年三轮融资1.27亿美元

安全公司，9个月完成两轮融资,1.1亿美元

安全合规独角兽 Drata 裁员 9%

老旧软件的漏洞处理方法，米国军方的

两高一弱问题，想根治，很难

安全公司：战略选择

网络安全产业：真正的狼，是云厂商

DevSecOps里的安全活动

网络安全产业，甲方弱，乙方菜，资本乱灌水

内生安全概念梳理

大模型发展到哪个阶段了？

软件开源新模式

主机安全软件，自研还是外购？

干掉防火墙，大家都轻松

云中凭据管理的步步进化

国外很火，国内没有的安全产品

人话版安全概念(2) 供应链安全SAST,DAST,SCA…

人话版安全概念：CWPP，CSPM与CNAPP

如何安全地使用公有云-数据安全

安全公司，种子轮能融5300万美元?

那些被收购的以色列安全公司(2)-Demisto

那些被收购的以色列安全公司(1)-Cybellum

大规模蓝屏事件，甲乙方都该关注的五个问题

华为云的软件供应链安全

CrowdStrike的大规模蓝屏与华为的升级管控

如何安全地使用公有云3--虚拟网络

Wiz凭什么卖这么贵？

H云安全组织设置及投入情况

如何安全地使用公有云2--IAM，身份认证与访问管理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉