微软最新开源了多模态模型:Florence-VL,核心是看图能力特别强

科技   2024-12-09 07:04   浙江  

微软刚刚最新开源了他的多模态模型:Florence-VL,核心是"看图"能力特别强,看得仔细,能看到更多细节,可以从不同角度理解图片内容并准确回复。

  • 3B、8B两个版本,对于需要AI理解图片的场景,智能助手、图片搜索、自动图片描述等等比较实用

  • Florence-VL比现有视觉编码器的视觉-语言对齐能力更强

  • 在视觉问答(VQA)、视觉感知、幻觉检测、文字识别(OCR)图表理解、知识密集型理解任务等多个基准测试中表现优秀

  • Florence-VL视觉编码器进行了升级,不同于传统的CLIP式视觉Transformer模型,它能捕获多层次、多方面的视觉特征

  • 给合"深度-广度融合(DBFusion)"机制,可以融合不同深度层次的视觉特征,支持多个提示下的特征提取和融合

参考文献:
[1] github:https://github.com/JiuhaiChen/Florence-VL
[2] https://huggingface.co/jiuhai/florence-vl-8b-pretrain
[3] https://huggingface.co/jiuhai/florence-vl-8b-sft
[4] https://huggingface.co/jiuhai/florence-vl-3b-pretrain
[5] https://huggingface.co/jiuhai/florence-vl-8b-sft



欢迎大家支持我的知识星球(NLP工程化):Dify源码剖析及答疑,Dify对话系统源码,电子书籍报告下载,公众号所有付费资料。如果微信群二维码过期,可加个人微信(buxingtianxia21)进群。

NLP工程化知识星球

NLP工程化分享群

NLP工程化
专注于对话系统领域的技术分享,重点写《Dify应用操作和源码剖析》专栏。
 最新文章