微软最新开源了多模态模型：Florence-VL，核心是看图能力特别强

科技 2024-12-09 07:04 浙江

微软刚刚最新开源了他的多模态模型：Florence-VL，核心是"看图"能力特别强，看得仔细，能看到更多细节，可以从不同角度理解图片内容并准确回复。

3B、8B两个版本，对于需要AI理解图片的场景，智能助手、图片搜索、自动图片描述等等比较实用
Florence-VL比现有视觉编码器的视觉-语言对齐能力更强
在视觉问答(VQA)、视觉感知、幻觉检测、文字识别(OCR)图表理解、知识密集型理解任务等多个基准测试中表现优秀
Florence-VL视觉编码器进行了升级，不同于传统的CLIP式视觉Transformer模型，它能捕获多层次、多方面的视觉特征
给合"深度-广度融合(DBFusion)"机制，可以融合不同深度层次的视觉特征，支持多个提示下的特征提取和融合

参考文献：
[1] github：https://github.com/JiuhaiChen/Florence-VL
[2] https://huggingface.co/jiuhai/florence-vl-8b-pretrain
[3] https://huggingface.co/jiuhai/florence-vl-8b-sft
[4] https://huggingface.co/jiuhai/florence-vl-3b-pretrain
[5] https://huggingface.co/jiuhai/florence-vl-8b-sft

欢迎大家支持我的知识星球（NLP工程化）：Dify源码剖析及答疑，Dify对话系统源码，电子书籍报告下载，公众号所有付费资料。如果微信群二维码过期，可加个人微信（buxingtianxia21）进群。

NLP工程化知识星球

NLP工程化分享群

NLP工程化

专注于对话系统领域的技术分享，重点写《Dify应用操作和源码剖析》专栏。

最新文章

5ire：一款跨平台的LLM桌面客户端

AI读书利器：PDF智能阅读与知识提取工具

AI模型接口管理与分发系统，支持将多种大模型转为OpenAI格式调用

ExtractThinker 是一个灵活的文档智能工具

Anki AI Utils：一套能让你的复习事半功倍的AI工具集

厦大和网易开源的一款统一的故事可视化AI模型：StoryWeaver

NuxtBase 为付费用户提供了一个免费的 Dify 应用模板

Python 项目工程化开发指南

Tiny LLM zh：从零开始的小参数量中文大语言模型

TTPlanetPig Comfyui_TTP_Toolset：提供了一个用于图像平铺和高级控制修改

RVC3-python：《机器人学、视觉与控制（第三版）》的Python代码实例库

南京大学的计算机问题求解课程wiki

讨论如何复现OpenAI的o1模型的论文

一款适合需要实时数据处理或构建AI应用场景的数据处理工具：Pathway

《算法（第4版）》一书中用现代C++实现的算法代码库

语音转博客工具：Robo Blogger，它会自动把你说的内容形成博客文章

LOTUS 数据处理神器：用大型语言模型（LLM）轻松处理数据

FastVideo，用于加速大型视频扩散模型的开源框架

一款在浏览器本地自动实时语音识别系统：Moonshine Web

LLM Confabulation Benchmark：减少产生不存在答案（幻觉或虚构）能力评估工具

一篇以浅显易懂地方式介绍图神经网络（GNNs）的文章

A Survey on LLM Inference-Time Self-Improvement

elizaOS agent-twitter-client：一款无需API密钥的Twitter客户端

《RAG-Driven Generative AI》随书代码

Parlant：面向客户服务的大型语言模型（LLM）智能Agent的行为控制系统

YuLan-Mini：数据高效的开源语言模型

Aria-UI：视觉定位GUI指令，一款能够理解和执行图形用户界面指令的智能工具

RAG应用的日志记录工具：RAG Logger

AIGC工具导航：AI工具大全，分类清晰，应有尽有

smol agents：让AI Agent变得超简单

实用开源的 Chrome 插件：FastURL通过快捷键粘贴到网页正文 Markdown 格式的内容

awesome-llm-apps，精选的 LLM 应用集合

AI工程领域的50篇论文、模型和博客文章

一些OI（信息学奥林匹克竞赛）课件

OrionChat：一个简化与多个AI模型提供商交互的网页聊天界面

专家混合研究库：汇集了关于专家混合（Mixture of Experts）最新研究的精选论文和资源

基于DeepSeek v3 API的一个编程助手

BetterWhisperX：自动语音识别工具WhisperX改进版

个英伟达（NVIDIA）开源的 LLMs 漏洞扫描工具：garak

Triton Deja-vu：旨在将 Triton-lang 自动调优开销降至零的框架

Context is Key：一个基于关键文本信息进行预测的基准测试平台

教程：如何编写一个虚拟机（只用大约 250 行C语言代码）

基于Vision LLM把PDF转为Markdown的一款工具：vision-parse

微软开源的一个视频分词器：VidTok

怎么计算跑LLM服务需要多大显存的GPU

推荐 GitHub 上一款高颜值的可视化实时监控工具：Checkmate

PeterCat：GitHub项目库的智能问答机器人

新书《通用人工智能导论》

电子书《Elements of Data Science》

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉