端侧视觉模型推理的考量：Phi3-Vision

文摘 2024-06-24 19:34 美国

本文涉及到的代码已经上传到如下repo，本文不再直接粘贴源码。欢迎关注、给这个repo点亮Star。

https://github.com/davidsajare/david-share.git

一、Phi3-Vision的得分

之前我们使用AI计算机视觉，主要使用类似Llava、GPT-4o之类的模型。在5月份Phi3-Vision发布以后，它在很多方面的能力都已经超过了Llava：

https://azure.microsoft.com/en-us/blog/new-models-added-to-the-phi-3-family-available-on-microsoft-azure/

由于Phi-3的能力比较强，在HF上甚至出现了用它来训练llava的模型，并且下载数量还不少：

https://huggingface.co/MBZUAI/LLaVA-Phi-3-mini-4k-instruct

具体能力测试本文不展开。

Phi3-Vision除了能力强，由于参数量比较小，适合于在边缘端推理：

从上图可以看到不同数据类型的phi3-v加载模型所消耗的内存。

之前我录制过用Phi3-v推理电影图片的demo，在我的github：LLMs/模型即服务Model as a Service以及大小模型配合的最佳实践/demo中。

可以看到识别准确率极高。

二、边缘端推理需要考虑的点

那么，如果Phi3-v在边缘端推理，需要考虑什么呢？

是否需要做微调模型以满足特定的业务需要。微调的方法见我的repo：

https://github.com/davidsajare/david-share/tree/master/Multimodal-Models/Phi3-vision-Fine-tuning

2.边缘端推理的时候，运行模型的硬件。例如GPU还是CPU。

3.资源是否够，尤其是内存。

三、实测效果

目前Phi3-v只有128K的上下文，有HF和ONNX两种格式。

https://huggingface.co/microsoft/Phi-3-vision-128k-instruct

验证的环境是A100。

本文中我使用HF格式进行验证。

针对测试护照：

1、bnb动态量化是否会造成推理精度的下降，答案是没有。

2、bnb动态量化是否会造成推理速度的下降，答案是有。

针对英文，是否动态量化都很准确，无论是图片意图识别、图片描述还是OCR（例如针对护照），都很准确，也不需要写太多的提示词。

针对中文，OCR准确率有待提升，意图识别尚可。

使用A100的话，量化后一张图片的推理（以护照举例），在27秒左右。内存6G：

不量化的话，一张图片的推理（以护照举例），在13秒左右，内存接近12GB。

3、关于中文识别遇到的问题。

以中文测试身份证为例：

识别结果：

我们看待姓名和住址，都不是十分准确。

此外，针对一个图片做总结和意图识别，用英语描述比较清楚，用中文就不成。

"Please describe the image and then analyze whether there is a danger.\n"

推理结果：

Inference time: 4.555504083633423

The image shows a white truck driving on a road with trees on both sides. There is a car in front of the truck, and the truck appears to be in motion. The road seems to be in a rural or less-traveled area. There is no immediate indication of danger, but the truck's position and the car's proximity suggest caution is advisable.

手工翻译成中文：

画面显示一辆白色卡车行驶在道路上，两边都是树木。卡车前方有一辆汽车，卡车似乎正在行驶。道路似乎位于农村或人迹罕至的地区。虽然没有直接的危险迹象，但卡车的位置和汽车的距离都表明最好小心谨慎。

如果prompt要求用中文回复：

"Please describe the image and then analyze whether there is a danger, reply in Chinese.\n"

推理结果：

这是一幅摄像机摄像的图片，显示了一条很长的道路，它通过了一个很长的森林。道路上有车辆，它是一辆车辆，它在道路上停留了。道路上还有一些车辆，它们在道路上往往停留。道路上还有一些车辆，它们在道路上往往停留。道路上还有一些车辆，它们在道路上往往停留。道路上还有一些车辆，它们在道路上往往停留。道路上还有一些车辆，它们在道路上往往停留。道路上还有一些车辆，它们在道路上往往停留。道路上还有一些车辆，它们在道路上往往停留。道路上还有一些车辆，它们在道路上往往停留。道路上还有一些车辆，它们在道路上往往停留。道路上还有一些车辆，它们在道路上往往停留。道路上还有一些车辆，它们在道路上往往停留。道路上还有一些车辆，它们在道路上往

目前vLLM也支持Phi3-Vision，后面我会在repo中进行代码的更新。公众号文章不再进行展示。

http://mp.weixin.qq.com/s?__biz=MzAwMDc2NjQ4Nw==&mid=2663561075&idx=1&sn=c9332a968a726778ae9c45c2c6fd0f18

大魏分享

https://github.com/davidsajare/david-share.git

最新文章

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

图解AI训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

LLM的视频、文本和图片过滤

PTQ量化哪家强？

如何为预训练创建高质量的数据集

一句话说清预训练和微调的本质区别

HuggingFace推出小模型SmolLM

Llama-3.1 70B在两卡A100上微调

使用合成指令对 LLM 进行预训练

困惑度的正确用法

多LoRA适配器的原理、方法、实现及优势

Llama3.1-8B微调

图生图-Stable Diffusion在H100上的测试

LLM中EOS的作用

H100学习笔记#July, 2024 github开源文章与代码

Phi-3微调与量化

拓展模型的Function call能力

LLama3.1之我见

Ph3 rag的实现

GPU怎么选？微调与推理

视觉模型小钢炮：Florence-2

重量选手：FlashAttention-3

推理圈的沙皇核弹？

graphrag来啦！

如何用NVIDIA GPU运行分布式训练

Florence-2的威力

解密推理训练中的内存消耗：本周github开源代码#Week1 July, 2024

很有意思的phi3量化后的四个尝试

本周github开源代码#Week4 June, 2024

端侧视觉模型推理的考量：Phi3-Vision

我在微软AI Day上做的分享

开源一个AI知识的repo: david-share

详解视觉Transformers

继续预训练(CPT)的本质与代码实现

LLM 进 KV 缓存的量化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉