在英特尔 Gaudi 2 上加速蛋白质语言模型 ProtST

文摘 2024-07-24 10:30 广东

引言

蛋白质语言模型 (Protein Language Models, PLM) 已成为蛋白质结构与功能预测及设计的有力工具。在 2023 年国际机器学习会议 (ICML) 上，MILA 和英特尔实验室联合发布了ProtST模型，该模型是个可基于文本提示设计蛋白质的多模态模型。此后，ProtST 在研究界广受好评，不到一年的时间就积累了 40 多次引用，彰显了该工作的影响力。

ProtSThttps://proceedings.mlr.press/v202/xu23t.html

PLM 最常见的任务之一是预测氨基酸序列的亚细胞位置。此时，用户输入一个氨基酸序列给模型，模型会输出一个标签，以指示该序列所处的亚细胞位置。论文表明，ProtST-ESM-1b 的零样本亚细胞定位性能优于最先进的少样本分类器 (如下图)。

为了使 ProtST 更民主化，英特尔和 MILA 对模型进行了重写，以使大家可以通过 Hugging Face Hub 来使用模型。大家可于此处下载模型及数据集。

模型地址https://hf.co/mila-intel

本文将展示如何使用英特尔 Gaudi 2 加速卡及 optimum-habana 开源库高效运行 ProtST 推理和微调。英特尔 Gaudi 2是英特尔设计的第二代 AI 加速卡。感兴趣的读者可参阅我们之前的博文，以深入了解该加速卡以及如何通过英特尔开发者云使用它。得益于optimum-habana，仅需少量的代码更改，用户即可将基于 transformers 的代码移植至 Gaudi 2。

英特尔 Gaudi 2https://habana.ai/products/gaudi2/
大语言模型快速推理：在 Habana Gaudi2 上推理 BLOOMZhttps://hf.co/blog/zh/habana-gaudi-2-bloom
英特尔开发者云https://cloud.intel.com
optimum-habanahttps://github.com/huggingface/optimum-habana

对 ProtST 进行推理

常见的亚细胞位置包括细胞核、细胞膜、细胞质、线粒体等，你可从此数据集中获取全面详细的位置介绍。

数据集地址https://hf.co/datasets/mila-intel/subloc_template

我们使用 ProtST-SubcellularLocalization 数据集的测试子集来比较 ProtST 在英伟达 A100 80GB PCIe 和 Gaudi 2 两种加速卡上的推理性能。该测试集包含 2772 个氨基酸序列，序列长度范围为 79 至 1999。

你可以使用此脚本重现我们的实验，我们以 bfloat16 精度和 batch size 1 运行模型。在英伟达 A100 和英特尔 Gaudi 2 上，我们获得了相同的准确率 (0.44)，但 Gaudi 2 的推理速度比 A100 快 1.76 倍。单张 A100 和单张 Gaudi 2 的运行时间如下图所示。

复现脚本https://github.com/huggingface/optimum-habana/tree/main/examples/protein-folding#single-hpu-inference-for-zero-shot-evaluation

微调 ProtST

针对下游任务对 ProtST 模型进行微调是提高模型准确性的简单且公认的方法。在本实验中，我们专门研究了针对二元定位任务的微调，其是亚细胞定位的简单版，任务用二元标签指示蛋白质是膜结合的还是可溶的。

你可使用此脚本重现我们的实验。其中，我们在ProtST-BinaryLocalization数据集上以 bfloat16 精度微调ProtST-ESM1b-for-sequential-classification。下表展示了不同硬件配置下测试子集的模型准确率，可以发现它们均与论文中发布的准确率 (~92.5%) 相当。

复现脚本https://github.com/huggingface/optimum-habana/tree/main/examples/protein-folding#multi-hpu-finetune-for-sequence-classification-task
ProtST-BinaryLocalizationhttps://hf.co/datasets/mila-intel/ProtST-BinaryLocalization
ProtST-ESM1b-for-sequential-classificationhttps://hf.co/mila-intel/protst-esm1b-for-sequential-classification

下图显示了微调所用的时间。可以看到，单张 Gaudi 2 比单张 A100 快 2.92 倍。该图还表明，在 4 张或 8 张 Gaudi 2 加速卡上使用分布式训练可以实现近线性扩展。

总结

本文，我们展示了如何基于 optimum-habana 轻松在 Gaudi 2 上部署 ProtST 推理和微调。此外，我们的结果还表明，与 A100 相比，Gaudi 2 在这些任务上的性能颇具竞争力: 推理速度提高了 1.76 倍，微调速度提高了 2.92 倍。

如你你想在英特尔 Gaudi 2 加速卡上开始一段模型之旅，以下资源可助你一臂之力:

optimum-habana代码库https://github.com/huggingface/optimum-habana
英特尔 Gaudi文档https://docs.habana.ai/en/latest/index.html

感谢垂阅！我们期待看到英特尔 Gaudi 2 加速的 ProtST 能助你创新。

英文原文: https://hf.co/blog/intel-protein-language-model-protst
原文作者: Julien Simon，Jiqing Feng，Santiago Miret，Xinyu Yuan，Yi Wang，Matrix Yao，Minghao Xu，Ke Ding
译者: Matrix Yao (姚伟峰)，英特尔深度学习工程师，工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。

http://mp.weixin.qq.com/s?__biz=Mzk0MDQyNTY4Mw==&mid=2247492217&idx=1&sn=7b5d6814f2784f7916903db2e2d9f6ff

Hugging Face

The AI community building the future.

为数据集而生的 SQL 控制台

Hugging Face 与 TruffleHog 合作，实现风险预警

社区供稿｜还在 GPT-4o 进行评测么？快来试试开源评价大模型 CompassJudger

顶点着色网格转换为 UV 映射的纹理化网格

使用 Optimum-Intel 和 OpenVINO GenAI 优化和部署模型

社区供稿 | 为什么我们需要 Hugging Face 的 Safetensors？

Hugging Face 与 Wiz Research 合作提高人工智能安全性

更快的辅助生成: 动态推测

现在 Llama 具备视觉能力并可以在你的设备上运行 - 欢迎使用 Llama 3.2

揭秘 FineVideo 数据集构建的背后的秘密

Gradio 5 稳定版正式发布

社区供稿 | 元象发布 XVERSE-MoE-A36B，多快好省！

将 LLMs 精调至 1.58 比特: 使极端量化变简单

HuggingChat macOS 版现已发布

对 LLM 工具使用进行统一

Accelerate 1.0.0

Hugging Face 论文平台 Daily Papers 功能全解析

社区供稿 | Reader-LM: 将原始 HTML 转换为干净 Markdown 的小型语言模型

社区供稿｜上线即 Trending, OCR-2.0 助力多模态大模型更快更强

通过打包 Flash Attention 来提升 Hugging Face 训练效率

社区供稿 | 全球首个多语言 ColBERT: Jina ColBERT V2 和它的“俄罗斯套娃”技术

Falcon Mamba: 首个高效的无注意力机制 7B 模型

LAVE: 使用 LLM 对 Docmatix 进行零样本 VQA 评估 - 我们还需要微调吗？

一次失败的实验 - 无限注意力，我们为什么坚持实验

Docmatix - 超大文档视觉问答数据集

ggml 简介

社区供稿 | 如何让大模型输出 10k+ 字长文？

社区供稿 | 使用 Hugging Face 和 Milvus 构建 RAG 系统

基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型

社区供稿 | 智源千万级指令微调数据集 Infinity-Instruct 持续迭代，Llama3.1 仅微调可接近 GPT-4

社区供稿 | 仅8B，全面对标 GPT-4V ！单图、多图、视频理解端侧三冠王！

社区供稿 | 开源 AI 视频工具，你只需要当导演，Hugging Face 工程师打造

TGI 多-LoRA: 部署一次，搞定 30 个模型的推理服务

XetHub 加入 Hugging Face！

社区供稿 | 面向多样应用需求，书生·浦语 2.5 开源超轻量、高性能多种参数版本

NuminaMath 是如何荣膺首届 AIMO 进步奖的？

SmolLM: 一个超快速、超高性能的小模型集合

Google 最新发布: Gemma 2 2B、ShieldGemma 和 Gemma Scope

在 Hub 上使用 Presidio 进行自动 PII 检测实验

Llama 3.1 - 405B、70B 和 8B 的多语言与长上下文能力解析

在英特尔 Gaudi 2 上加速蛋白质语言模型 ProtST

为视觉语言多模态模型进行偏好优化

微调 Florence-2 - 微软的尖端视觉语言模型

GAIA: 一个严苛的智能体基准

社区供稿 | Jina Reranker v2: 多语言支持、函数调用、代码搜索，超快推理！

Hugging Face 全球政策负责人首次参加WAIC 2024 前沿 AI 安全和治理论坛

Cosmopedia: 如何为预训练构建大规模合成数据集

OpenBMB × Hugging Face × THUNLP，联袂献上经典大模型课

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉