Piiranha-v1 - 使用 AI 模型保护你的个人信息 - 本地安装

科技 2024-09-15 18:25 湖南

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

如果你正在寻找保护个人可识别信息（PII）的解决方案，那么可以看看这个只有2.8亿小型编码器的开源模型，名为 Piranha v1。这个模型专注于 PII 检测，仅此而已。该模型支持六种语言，检测精度接近完美，并且以 MIT 许可证发布。

在构建AI和机器学习模型时，企业往往需要大量数据进行训练，而这些数据可能包含大量PII。Piranha v1 可以用于数据集清理，在将数据用于机器学习训练之前，清除或遮蔽所有敏感信息，确保数据合规并符合隐私保护标准。

在客户服务业务中，企业往往通过电话、邮件或在线聊天与客户互动，客户在交谈过程中可能会泄露敏感信息。Piranha v1 可以嵌入到客户服务系统中，实时检测并遮蔽客户或客服在对话中提到的个人信息，确保这些信息不会被记录到日志或历史记录中。

我们将在本地的 Notebook 环境中安装它，然后看看它的运行效果。在这之前。

这个模型能够检测17种个人可识别信息，支持六种语言，标记检测率为 98.27%，非常惊人。这意味着它的精度超过98%，即98%被分类为PII的标记实际上确实是PII。另外，它的召回率也是98.27%，这意味着它能正确识别98.27%的PII标记。第三，它的特异性为99.84%，这意味着它能正确识别99.84%的非PII标记。

Piranha 模型尤其擅长检测密码、电子邮件、电话号码和用户名，准确率达到100%。该模型是微软 mdta V3 基础模型的精调版本，能够处理256个 Deberta 标记的上下文长度。如果文本超过这个长度，你可以将其拆分。

支持的语言包括英语、西班牙语、法语、德语、意大利语和荷兰语。支持的 PII 类型包括账户号码、楼号、城市、信用卡号码、出生日期、驾驶证、电子邮件、名字、姓氏、身份证号、密码、社会安全号码、街道地址、税号、电话号码、用户名和邮政编码。它们还在模型卡中分享了一些基准测试信息。

现在让我们尝试在本地安装这个模型。首先创建一个虚拟环境，命名为 PII。

虚拟环境已经创建完成，接下来我们安装 torch 和 Transformers。

安装完成后，启动 Jupyter Notebook，在浏览器环境中运行模型。

Notebook 已经启动。

让我粘贴代码，代码（官方的）非常简单，主要是导入我们刚才安装的库：torch 和 Transformers，指定模型名称和分词器，

!pip install transformers

!pip install transformersimport torchfrom transformers import AutoTokenizer, AutoModelForTokenClassification
model_name = "iiiorg/piiranha-v1-detect-personal-information"tokenizer = AutoTokenizer.from_pretrained(model_name)model = AutoModelForTokenClassification.from_pretrained(model_name)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")model.to(device)
def mask_pii(text, aggregate_redaction=True):    # Tokenize input text    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)    inputs = {k: v.to(device) for k, v in inputs.items()}
    # Get the model predictions    with torch.no_grad():        outputs = model(**inputs)
    # Get the predicted labels    predictions = torch.argmax(outputs.logits, dim=-1)
    # Convert token predictions to word predictions    encoded_inputs = tokenizer.encode_plus(text, return_offsets_mapping=True, add_special_tokens=True)    offset_mapping = encoded_inputs['offset_mapping']
    masked_text = list(text)    is_redacting = False    redaction_start = 0    current_pii_type = ''
    for i, (start, end) in enumerate(offset_mapping):        if start == end:  # Special token            continue
        label = predictions[0][i].item()        if label != model.config.label2id['O']:  # Non-O label            pii_type = model.config.id2label[label]            if not is_redacting:                is_redacting = True                redaction_start = start                current_pii_type = pii_type            elif not aggregate_redaction and pii_type != current_pii_type:                # End current redaction and start a new one                apply_redaction(masked_text, redaction_start, start, current_pii_type, aggregate_redaction)                redaction_start = start                current_pii_type = pii_type        else:            if is_redacting:                apply_redaction(masked_text, redaction_start, end, current_pii_type, aggregate_redaction)                is_redacting = False
    # Handle case where PII is at the end of the text    if is_redacting:        apply_redaction(masked_text, redaction_start, len(masked_text), current_pii_type, aggregate_redaction)
    return ''.join(masked_text)
def apply_redaction(masked_text, start, end, pii_type, aggregate_redaction):    for j in range(start, end):        masked_text[j] = ''    if aggregate_redaction:        masked_text[start] = '[redacted]'    else:        masked_text[start] = f'[{pii_type}]'

运行代码，模型下载完成了。模型非常小，只有大约1.1GB。现在我们看看如何使用它。

我们测试的文本中指定了名字、地址和电话号码，所有这些都是个人可识别信息。

模型有两种方式处理：一种是聚合遮蔽，另一种是详细遮蔽，后者会告诉你具体遮蔽了哪些PII。

运行代码后，结果非常快，模型已经遮蔽了名字、地址和电话号码。在详细遮蔽中，它告诉我们遮蔽的具体内容，如名字、姓氏、楼号、城市、街道和电话号码。

让我们再试一个例子。这段文本提到了 Dr. Emily J. Chen 的工作地址及其他一些信息，如电子邮件和电话号码。运行后，模型很快遮蔽了所有PII，地址的具体公寓号没有遮蔽，因为它不重要，但其他信息都被遮蔽了。

详细遮蔽告诉我们哪些具体内容被遮蔽，如电子邮件、电话号码等，非常智能。

现在我们给模型一个更具挑战性的任务。这段文本提到 "John Smith 是 John Mayer 的大粉丝"，John Smith 是素人，而 John Mayer 是公众人物，模型需要区分两者。运行后，模型正确地遮蔽了 John Smith 的信息，而没有遮蔽 John Mayer 的信息，非常令人印象深刻。

总的来说，这款模型非常令人惊艳，特别适用于网络安全场景。

🌟希望这篇文章对你有帮助，感谢阅读！如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我，以便我用来评估创作方向。

参考链接：

[1] 代码：https://colab.research.google.com/github/williamgao1729/piiranha-quickstart/blob/main/piiranha_quickstart%20(1).ipynb
[2] huggingface：https://huggingface.co/iiiorg/piiranha-v1-detect-personal-information

知音难求，自我修炼亦艰

抓住前沿技术的机遇，与我们一起成为创新的超级个体

（把握AIGC时代的个人力量）

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzkyMzY1NTM0Mw==&mid=2247493605&idx=3&sn=4f2b870d1b539b4813bac86e3e497486

AI进修生

AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯，提升技术效率。

Memfree：一个混合 AI 搜索引擎，输入输出支持多模态内容（知识库+联网混合Rerank）

面试大厂被怼：怎么连Attention都不会？

GPTMe：这个 AI 代理最简单，可以做任何事情！（控制浏览器、搜索、代码、视觉）

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）

Bolt.new：这款全新免费编码代理太棒了！轻松超越 v0 和 Cursor！（告别 ChatGPT、Claude）

Flux-1.1 Pro 免费体验：AI绘画最先进的模型刚刚问世！（击败 Flux-1、SD-3！）

Vertex AI + ClaudeDev + Aider：谷歌300美元额度，免费体验 Claude-3.5 API ！

刚刚！最佳语音识别 Whisper-large-v3-turbo 上线，速度更快（本地安装 + Whisper-web）

Aider（已升级）：Aider利用双模型架构做到85% SOTA得分！（架构师/编辑师助你实现编程新高度）

免费工具！如何用Napkins和Llama-3.2快速生成网页应用？

Molmo ：开源多模态LLM超越 GPT-4o（实际测试）

Ai-artifacts：免费使用o1模型！还有Claude Artifacts 功能，几秒生成全栈APP（10+编程任务测试）

全新Llama 3.2系列：性能提升明显，但真的是最优选择吗？（已测试)

谷歌 Gemini 1.5 Pro-002 与 Flash-2 发布：快速、优质、低价的AI新选择！

OpenMusic：新手友好！用AI轻松创作、普通GPU+几行代码生成高质量音乐 - 本地安装

本地AI文件管理器：AI驱动+私有LLM，免费整理你的文件库

Claude Dev（最新升级）：新增文件引用、视觉捕获和更多自定义功能

Qwen-2.5 + ClaudeDev + Aider：这套免费的AI编程工具链，简直太棒了！

快速打造AI应用！Taipy：只用Python，轻松构建生产级AI Web应用，功能强大还简单!

Mistral Small-2 全新发布！API免费用，商业模型大降价50%

Qwen2.5：13个新模型来袭！开源通用、编码、数学模型全解读，72B超越Llama 405B - 本地安装测试

g1：o1推理链开源实现，原理竟如此简单！解决 60-80% 的困扰LLM的简单逻辑问题

Vchitect 2.0：开源文本到视频生成模型，创作20秒高质量短视频 Vs Gen-3、Kling、CogVideoX-5B

Sentient Agent：让 AI 控制你的浏览器，一键完成任务！三行代码自动控制浏览器（填表、查股票、播放视频）

Llama 3.1 70B AQLM-PV版发布！大模型压缩后可在24GB显存GPU上本地运行！！

GameGen-O来了！只需一句话，生成你的梦幻开放世界游戏，AI一键生成“ 类黑神话 ”？

ClaudeDev 升级：全面支持 o1 & Gemini，升级你的开发体验！

DataGemma RAG 27B - 第一款挑战幻觉的模型 - 本地安装

Piiranha-v1 - 使用 AI 模型保护你的个人信息 - 本地安装

Pixtral 12B：本地部署、图像分析和OCR功能全解析

Chai-1模型助力药物研发！一键本地安装，让AI预测分子结构（生物学多模态LLM）

Amica 与 Ollama：语音识别与3D渲染结合的AI聊天助手 - 本地安装

LLaMA-Omni ：Llama-3.1构建的低延迟、高质量端到端语音交互模型，旨在实现 GPT-4o 级别的语音能力

KAN 2.0：MIT 的 “ AI炼金术 ” 能否让科学发现像刷抖音一样快？

升级Ollama！MiniCPM-V2_6图像识别模型上线，适用于手机上单张图片、多张图片和视频的 GPT-4V 级 MLLM

VSCode+Aider+Supermaven：打造免费开源的顶级AI开发环境，别再为Cursor花钱了！

每日AI 9/10：DeepSeek-Coder再进化！音频驱动Loopy、KubeAI Kubernetes 上私有化AI部署

Dark Idol Llama-3.1 8B：最强角色扮演AI，未审查版助你尽情创作、不受限制的互动体验

Crawl4AI：AI驱动的网页抓取神器，结合LLM实现自动化数据提取与处理

Deep Seek V2.5：新一代上线！结合编码与通用能力，超越前作

Yi-Coder 9B、1.5B：最佳小型开源编码LLM就在这里！（击败 DeepSeek、Qwen 及其他）

Reflection 70B（已全面测试）：这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O？

ClaudeDev（已升级）：Ollama、Groq全面支持！轻松集成AI工作流

首个100%开源专家混合模型，7B参数仅1B推理成本、开源MoE新选择！（附安装教程）

我的世界中诞生AI文明！1000个自主智能体协作建立经济、文化、宗教和政府

Composio神器登场！为AI代理提供100+集成工具，代码、搜索、API全搞定

Aider （升级版）：最强AI编程助手新版发布！更强大、支持Shell命令、剪切和缓存！

时序+大模型火了！67篇研究洞察，ICLR等顶会热议新方向（LLM Prompt、Agent、视觉）

每日AI：Vercel v0 太棒了！！MLE-Agent、专注RAG与工具调用优化的Command R+

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉