探索 mcdse-2b-v1：全新高效的多语言文档检索模型

文摘 2024-11-12 21:58 福建

.01

概述

在信息时代的浪潮中，各类数据以惊人的速度不断产生，涵盖文档、演示文稿、图像等多种格式。这些信息的多样性为有效检索带来了巨大的挑战。传统的检索模型在处理纯文本查询时表现良好，但面对复杂的多模态内容（如截图或幻灯片）时，却往往力不从心。这对于需要从包含文本和视觉元素的文档中提取信息的企业、研究人员和教育工作者来说，尤为棘手。因此，迫切需要一种能够高效处理这些多样化内容的模型。

.02

引入 mcdse-2b-v1：文档检索的新方法

今天，我们要向大家介绍 mcdse-2b-v1，这是一款全新的人工智能模型，能够嵌入页面或幻灯片截图，并通过自然语言进行查询。与依赖文本进行索引和搜索的传统检索系统不同，mcdse-2b-v1 让用户可以处理包含文字、图片和图表的截图或幻灯片，这为经常处理非纯文本文档的用户打开了新的可能性。用户只需截取一张演示文稿的截图或信息图文档，将其嵌入模型中，就能通过自然语言搜索获得相关信息。

mcdse-2b-v1 架起了传统文本查询与更复杂视觉数据之间的桥梁，非常适合那些需要频繁分析演示文稿、报告或其他视觉文档内容的行业。这一能力使得该模型在信息丰富的环境中显得尤为重要，因为手动浏览这些视觉密集的文档往往耗时且效率低下。与其费力寻找那一张特定的幻灯片，或是逐页翻阅密集的报告，不如利用自然语言直接搜索嵌入内容，既节省了时间，又提升了工作效率。

.03

技术细节与优势

mcdse-2b-v1（🤗）基于 MrLight/dse-qwen2-2b-mrl-v1，并采用 DSE 方法进行训练。它是一款高效、可扩展且多语言的文档检索模型，能够无缝处理混合内容源。该模型提供了一种嵌入机制，有效捕捉文本与视觉成分，使得在多模态数据类型之间进行强大的检索操作成为可能。

mcdse-2b-v1 最显著的特点之一是其资源效率。例如，它可以在仅 10 GB 的空间内嵌入 1 亿个页面。这种优化水平使其非常适合数据存储紧张的应用场景，如本地解决方案或边缘计算部署。此外，该模型的体积可以缩小至原来的六分之一，且性能损失极小，这使其能够在资源有限的设备上运行，同时保持高检索准确性。

另一个优势是 mcdse-2b-v1 与常用框架如 Transformers 或 vLLM 的兼容性，这使得其对广泛用户而言变得更加可及。这种灵活性使得开发者和数据科学家可以轻松将该模型集成到现有的机器学习工作流中，无需进行大幅修改，极大地方便了使用。

#如何使用

初始化模型和处理器

from transformers import AutoProcessor, Qwen2VLForConditionalGeneration
from PIL import Image
import torch
import math

model = Qwen2VLForConditionalGeneration.from_pretrained(
    'marco/mcdse-2b-v1',
    attn_implementation="flash_attention_2",
    torch_dtype=torch.bfloat16,
    device_map="cuda:0"
).eval()

min_pixels = 1 * 28 * 28
max_pixels = 960 * 28 * 28

processor = AutoProcessor.from_pretrained(
    'marco/mcdse-2b-v1',
    min_pixels=min_pixels,
    max_pixels=max_pixels
)

model.padding_side = "left"
processor.tokenizer.padding_side = "left"

document_prompt = "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n<|vision_start|><|image_pad|><|vision_end|>What is shown in this image?<|im_end|>\n<|endoftext|>"

query_prompt = "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n<|vision_start|><|image_pad|><|vision_end|>Query: %s<|im_end|>\n<|endoftext|>"

对查询进行编码

def encode_queries(queries: list[str], dimension: int):
    dummy_image = Image.new('RGB', (56, 56))
    inputs = processor(
        text=[query_prompt % x for x in queries],
        images=[dummy_image for _ in queries],
        videos=None,
        padding='longest',
        return_tensors='pt'
    ).to('cuda:0')

    cache_position = torch.arange(0, len(queries))
    inputs = model.prepare_inputs_for_generation(
        **inputs, cache_position=cache_position, use_cache=False)

    with torch.no_grad():
        output = self.model(
            **inputs,
            return_dict=True,
            output_hidden_states=True
        )
    
    embeddings = output.hidden_states[-1][:, -1]
    return torch.nn.functional.normalize(embeddings[:, :dimension], p=2, dim=-1)

对文档进行编码

def round_by_factor(number: float, factor: int) -> int:
    return round(number / factor) * factor

def ceil_by_factor(number: float, factor: int) -> int:
    return math.ceil(number / factor) * factor

def floor_by_factor(number: float, factor: int) -> int:
    return math.floor(number / factor) * factor

def smart_resize(height: int, width: int) -> tuple[int, int]:
        h_bar = max(28, round_by_factor(height, 28))
        w_bar = max(28, round_by_factor(width, 28))
        if h_bar * w_bar > max_pixels:
            beta = math.sqrt((height * width) / max_pixels)
            h_bar = floor_by_factor(height / beta, 28)
            w_bar = floor_by_factor(width / beta, 28)
        elif h_bar * w_bar < min_pixels:
            beta = math.sqrt(min_pixels / (height * width))
            h_bar = ceil_by_factor(height * beta, 28)
            w_bar = ceil_by_factor(width * beta, 28)
        return h_bar, w_bar

def resize(image: Image.Image):
    new_size = smart_resize(image.height, image.width)
    return image.resize(new_size)

def encode_documents(documents: list[Image.Image], dimension: int):
    inputs = processor(
        text=[document_prompt] * len(documents),
        images=[resize(x) for x in documents],
        videos=None,
        padding='longest',
        return_tensors='pt'
    ).to('cuda:0')

    cache_position = torch.arange(0, len(queries))
    inputs = model.prepare_inputs_for_generation(
        **inputs, cache_position=cache_position, use_cache=False)

    with torch.no_grad():
        output = self.model(
            **inputs,
            return_dict=True,
            output_hidden_states=True
        )
    
    embeddings = output.hidden_states[-1][:, -1]
    return torch.nn.functional.normalize(embeddings[:, :dimension], p=2, dim=-1)

对比结果

.04

mcdse-2b-v1 的重要性

mcdse-2b-v1 的意义不仅在于其高效的信息检索能力，更在于它如何使复杂文档分析变得更加平易近人。传统的文档检索方法往往需要精确的结构化，并且常常忽视现代文档中丰富的视觉元素。而 mcdse-2b-v1 的出现，让用户可以像进行文本查询一样，轻松访问嵌入在图表、图示及其他非文本组件中的信息。

初步结果显示，即使在压缩至原始大小的六分之一时，mcdse-2b-v1 依然能够持续提供高检索准确率。这种性能使其适合于大规模部署，而不必担心典型的计算开销。此外，其多语言能力意味着它可以为全球范围内的用户提供服务，对于在多个语言环境中运作的跨国组织或学术机构而言，尤其宝贵。

对于那些从事多模态检索增强生成（RAG）工作的人员来说，mcdse-2b-v1 提供了一种可扩展的解决方案，能够为包含文本和视觉内容的文档提供高性能的嵌入。这种结合增强了下游任务的能力，如回答复杂用户查询或从多模态输入中生成详细报告。

.05

结语

mcdse-2b-v1 通过嵌入页面和幻灯片截图，具备了可扩展性、效率和多语言能力，从而解决了多模态文档检索的挑战。它简化了与复杂文档的互动，使用户免于繁琐的手动搜索过程。用户将获得一种强大的检索模型，有效处理多模态内容，认识到现实数据的复杂性。这一模型重新定义了我们如何访问和与嵌入文本和视觉知识互动，为文档检索设定了新的标准。

通过以上的介绍，相信大家对 mcdse-2b-v1 有了更深入的了解。这一模型不仅将推动文档检索技术的发展，也将改变我们处理信息的方式，让知识获取变得更加高效和便捷。欢迎大家继续关注这一领域的最新动态！

参考：

https://huggingface.co/marco/mcdse-2b-v1

http://mp.weixin.qq.com/s?__biz=MzI0NTg0Njk1OQ==&mid=2247487423&idx=1&sn=7da6711adb24679e954595ccb9d478a1

Halo咯咯

专注于技术知识整理，包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识，以及各种开源的内容～

BLIP3-KALE：包含 2.18 亿个图像文本对的开源数据集，通过知识增强的密集描述转换图像字幕

TabM：一种新的高效深度学习模型，专门针对表格数据处理

高效信息检索新方法：LangChain中Retriever的多种高级策略

Hugging Face 发布 SmolTools：使用 LLaMA.cpp 和小语言模型构建的轻量级 AI 驱动工具集合

LLM-KT：利用嵌入式 LLM 生成的功能增强协作过滤模型的灵活框架

ChatGPT Search：AI搜索引擎如何挑战Google霸主地位？

Run AI 开源 Run:ai Model Streamer：专门构建的解决方案，使大型模型加载更快、更高效

全新MaskGCT模型：中英文合成与声音克隆的完美结合

提升RAG性能的全攻略：优化检索增强生成系统的策略大揭秘 | 深度好文

OptiLLM：一个与 OpenAI API 兼容的优化推理代理，可以提高 LLM 的准确性和性能

12百万YouTube音频链接来袭：LAION AI的LAION-DISCO-12M如何重塑基础模型的机器学习研究

LLaVA-o1：第一个能够进行自发、系统推理的视觉语言模型，类似于 GPT-o1

平衡 RAG 系统的准确性和速度：优化检索技术的见解

以AlphaFold3为标杆：麻省理工学院的Boltz-1如何重塑生物分子预测

Qwen开源强大、多样、实用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Llama OCR：简简单单几行就可将图片或文档转成Markdown格式

Janus 系列：统一多模态理解和生成模型

OuteTTS-0.1-350M 发布：一种新颖的文本到语音 (TTS) 合成模型，利用纯语言建模，无需外部适配器

从此告别延迟！Hertz-Dev开创高效音频交互新模式

慕尼黑工业大学的这篇人工智能论文介绍了一种新颖的机器学习方法，通过模拟器反馈改进基于流的生成模型

YOLOv11：实时目标检测的新飞跃

LLMWare 发布 Model Depot：为 Intel PC 提供的 SLM 大集合

COMandA：一个用命令行简化大型语言模型操作的工具

从RAG到TAG：探索表增强生成（TAG）的力量

NotebookLlama：Meta 推出的开源交互式数据分析新工具

Promptwright：一个可以生成大规模合成数据集的Python库

HtmlRAG：利用 HTML 结构化信息增强 RAG 系统的知识检索能力和准确性

Hugging Face 发布 Sentence Transformers v3.3.0：NLP 效率的重大进展

Snowflake 和 CMU 的研究人员推出 SuffixDecoding：一种通过推测解码加速LLM推理的新型无模型方法

LLM微调的关键要点：如何打造高效、可靠的AI模型

TinyTroupe ：微软提供的一个实验性 Python 库，可以模拟具有特定个性、兴趣和目标的人。

LLM提示工程手册：如何优化LLMs以获得最佳结果

RAGCache：让RAG系统更高效的多级动态缓存新方案

LocalAI：免费开源的OpenAI替代品，轻松实现本地推理

探索 mcdse-2b-v1：全新高效的多语言文档检索模型

LOTUS：一个将自然语言与数据查询完美结合的创新引擎

超越 Text2SQL：TAG 如何解决复杂查询挑战

解锁图像数据的商业价值：Cohere推出Multimodal Embed 3

Weaviate：开源向量数据库重塑AI应用开发

Chai-1：一种用于分子结构预测的多模态基础模型

如何让大型语言模型部署更高效？Run:ai Model Streamer的革命性突破

Mixture of Experts模型面临安全挑战：新型泄漏攻击解析

突破传统！MIT的HPT模型助力机器人适应多任务环境

引入上下文检索(Contextual Retrieval)：提升AI模型的精准度与效率

实现上下文检索：提升文档处理的智能化的开源代码

AMD 发布 AMD-135M：AMD 第一个小型语言模型系列。

DeepSeek AI发布Janus：一款拥有图像生成能力的1.3B多模态模型

Llama 如何帮助 CodeGPT 成为顶级人工智能编码助手之一

提升开发效率：CodeGPT 为程序员提供全方位支持，让编程变得更简单、更高效

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉