OpenaAI 的 Assistants API 推出文件搜索增强控件，以帮助提高 assistant 响应的精准度

文摘 2024-08-30 07:21 爱尔兰

在人工智能领域，OpenAI一直是引领创新的先锋。最近，他们推出的文件搜索（File Search）功能无疑是又一次重大突破。这个功能不仅仅是简单的文档检索工具，更是一个能够显著增强AI助手知识储备的革命性解决方案。让我们深入探讨这个令人兴奋的新功能，一起领略它所带来的无限可能。

文件搜索：AI的知识跃迁

文件搜索功能堪称是AI助手的"知识引擎"。它能够让AI不再局限于预训练模型中的知识，而是可以实时地从外部文档中汲取信息。这就好比给AI装上了一个超级图书馆，随时可以查阅并运用各种专业资料。

智能解析：系统会自动解析并分割上传的文档。
向量化存储：将文档内容转化为高维向量，实现语义层面的理解。
精准检索：结合向量搜索和关键词搜索，确保找到最相关的信息。

这种方法不仅提高了AI回答问题的准确性，更赋予了它处理专业领域问题的能力。想象一下，一个AI助手能够即时阅读并理解数千页的财务报表，然后为你提供精准的财务分析，这简直就是每个金融分析师的梦想！

实战案例：打造金融分析超级助手

让我们通过一个具体的例子来感受这个功能的强大之处。假设我们要创建一个专门用于分析公司财务报表的AI助手。

创建助手：首先，我们创建一个具备文件搜索能力的助手。

assistant = client.beta.assistants.create(
  name="财务分析大师",
  instructions="你是一位顶级财务分析专家。运用你的知识库来解答有关审计财务报表的问题。",
  model="gpt-4-turbo",
  tools=[{"type": "file_search"}],
)

上传文件：接下来，我们上传公司的财务报表并创建向量存储。

vector_store = client.beta.vector_stores.create(name="财务报表库")
file_paths = ["edgar/goog-10k.pdf", "edgar/brka-10k.txt"]
# ... 上传文件并添加到向量存储

更新助手：将向量存储与助手关联。

assistant = client.beta.assistants.update(
  assistant_id=assistant.id,
  tool_resources={"file_search": {"vector_store_ids": [vector_store.id]}},
)

创建对话：用户可以上传额外的文件，比如苹果公司的最新10-K文件。

thread = client.beta.threads.create(
  messages=[
    {
      "role": "user",
      "content": "截至2023年10月底，苹果公司有多少流通股？",
      "attachments": [
        { "file_id": message_file.id, "tools": [{"type": "file_search"}] }
      ],
    }
  ]
)

运行分析：最后，我们创建一个运行实例，让AI助手发挥its魔力。

通过这个过程，我们的AI助手就变身为一位无所不知的财务专家，能够从海量的财务报告中瞬间找到关键信息，为用户提供精准的分析和见解。这简直就像是给每个投资者配备了一个24小时待命的顶级分析师！

技术魔法：文件搜索的核心秘密

文件搜索功能的背后，是一系列精妙的技术组合：

查询重写：系统会智能地重构用户的问题，使其更适合搜索。
并行搜索：复杂查询会被拆分成多个子查询同时进行。
多模态搜索：同时进行关键词和语义搜索，确保不遗漏任何相关信息。
结果重排：对搜索结果进行智能排序，只选取最相关的内容。

默认设置下，每个文档块大小为800个标记，重叠400个标记，使用text-embedding-3-large模型进行256维度的嵌入。这些精心调教的参数确保了搜索的高效性和准确性。

突破局限，开启无限可能

尽管文件搜索功能已经如此强大，OpenAI仍在不断推进其边界：

支持自定义分块、嵌入和检索配置
引入确定性预搜索过滤
解析文档中的图像（包括图表、图形等）
支持结构化文件格式（如CSV、JSONL）
优化摘要生成功能

这些未来的改进将进一步扩展文件搜索的应用场景，使其成为各行各业不可或缺的智能工具。

向量存储：知识的数字化宝库

向量存储是文件搜索功能的核心组件，它就像是一个超级智能的数字图书馆：

自动处理：上传文件后，系统自动进行解析、分块、嵌入和存储。
强大容量：每个向量存储可容纳多达10,000个文件。
灵活附加：可以轻松地将向量存储附加到助手或对话线程上。

vector_store = client.beta.vector_stores.create_and_poll(
  name="产品文档库",
  file_ids=['file_1', 'file_2', 'file_3', 'file_4', 'file_5']
)

这种设计不仅提高了系统的灵活性，还大大简化了知识管理的复杂度。

成本控制：智能过期策略

为了帮助用户控制成本，OpenAI引入了向量存储的过期策略：

vector_store = client.beta.vector_stores.create_and_poll(
  name="产品文档",
  file_ids=['file_1', 'file_2', 'file_3', 'file_4', 'file_5'],
  expires_after={
    "anchor": "last_active_at",
    "days": 7
  }
)

这种机制确保了用户只为实际使用的存储付费，大大提高了成本效益。

结语：开启AI辅助决策新纪元

OpenAI的文件搜索功能无疑是AI领域的一次重大飞跃。它不仅仅是一个简单的文档检索工具，更是一个能够显著增强AI决策能力的革命性解决方案。通过将海量的专业知识转化为AI可以即时访问和理解的形式，这项技术正在重新定义AI在各个领域的应用边界。

无论是金融分析、法律咨询、医疗诊断还是科研探索，文件搜索功能都能让AI助手成为各行各业专家的得力助手。它不仅能提高工作效率，更能为决策提供更全面、更深入的信息支持。

随着这项技术的不断完善和拓展，我们可以预见，AI辅助决策将在未来扮演越来越重要的角色。OpenAI的这一创新，无疑为我们开启了一个充满无限可能的新纪元。在这个新时代，知识的获取和应用将变得前所未有的便捷和高效，推动人类社会向更智能、更高效的方向发展。

AGI01

专注AGI技术研究、最新AGI技术分享给大家，欢迎来讨论AI业务需求、及落地方案。

Perplexity AI：黄仁勋最爱，ChatGPT的最大对手！今天确认进军电子商务行业！

AI信息差 | 微信AI音色克隆上线， OpenAI推出桌面版，DeepL Voice发布，点进来看更多产品信息（一）

Claude3.5Sonnet上新：传统PDF文本阅读器倒霉了！

AI为艺术插上科技翅膀：谷歌如何在文化之夜揭示未来艺术新玩法？

全面解读：OpenAI 全新推理模型o1

2024 年融资 1 亿美元或以上的 35 家美国人工智能初创公司的完整名单

AI 帮我在阿里云域名维权成功，挽回46073元损失

OpenaAI 的 Assistants API 推出文件搜索增强控件，以帮助提高 assistant 响应的精准度

七大LLM部署框架深度解析：全面对比大模型服务的核心差异

解锁你的生产力：Quivr，让AI成为你的第二大脑！

GitHub Copilot的竞争对手Anysphere 以4亿美元的估值从a16z Thrive获得了6000万美元的a轮融资

Groq完成6.4亿美元融资，AI推理技术迎来新机遇

掌握AI应用：Sentry LLM监控如何提升性能与控制成本

OpenAI扩展GPT-4o Mini模型微调访问，开发者限时免费获200万训练Token

OpenAI 现已支持 Go 语言SDK

通过GPT-4o的内置提示词，全面掌握ChatGPT的高级功能

Meta Llama 3：迄今为止功能最强大的公开可用的 LLM

复盘大模型的一次成功落地，代替了百万年薪的人

360智脑评测：是一个非常有潜力的产品，继续维持其一贯的优秀风格，并保持生态的繁荣！

【我与GPT】给出很好产品定位与低成本的落地方案

让GPT4作为企业家AI，从1000元到70万的财富之路：第一次对话就给出了比较好落地的方法论。

小西AI支持GPT4了

小西AI在线使用地址

使用AI ChatGPT学习英语，记忆单词爽翻了

埃隆 · 马斯克成立了新的人工智能公司 X.AI

Open AI ：我们对人工智能安全的态度-构建越来越安全的人工智能系统

如何使用GPT-4？及和百度的文心一言使用体验对比

OpenAi的新模型 ChatGPT(gpt-3.5-turbo) 已发车。

ChatGPT Plus 将以每月20美元的价格提供新的订阅计划

ChatGPT教你如何用ChatGPT来研究ChatGPT

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉