Search Anything: 给本地搜索插上大模型的翅膀—语义搜索你的电脑、手机和云端的任何信息

创业科技 2023-07-04 12:02 北京

哎？我前几天和同事讨论的关于「LLM的总结」放哪啦？我记得是放XXX文件夹的呀...🤨

该写论文了，想找出「所有关于LLM prompt的文献」，但有的没有打标签，该怎么寻找呢？😮‍💨

女朋友叫我做一个VLOG纪念三周年，要找出「我们的所有合照」，一张一张找好费时间呀...🥺

你是否正为大量信息的检索而苦恼？我们的开源项目：「SearchAnything」，将成为你的解决方案。SearchAnything利用最尖端的AI大模型，采用「语义搜索」的方式，彻底改变处理和获取信息的方式！对于文本和图像的内容，SearchAnything基于其语义进行索引和搜索，而不仅仅是基于关键词。这一创新性的设计，使得无论你在寻找具体信息，还是在寻找含义相关的上下文，SearchAnything都能够提供准确而高效的结果。

现在，SearchAnything支持的文件类型包括PDF、TXT、MD格式的文本，以及JPG、JPEG、PNG格式的图像。我们的目标是让SearchAnything成为处理任何类型文件的强大工具，未来我们将加入对PPTX，WORD以及音频的支持！我的SearchAnything可以帮助文字工作者、视频创作者快速的检阅想要的内容，更高效的进行创作！本项目旨在推动大模型相关的科研和开发工作，为“大模型时代，普通人的科研何去何从”中“基于大模型的人机交互”部分的相关扩展。也希望能给社区带来更多的启发。我们希望Search Anything项目可以驱动手机、电脑、以及云端的语义搜索。

开源地址：https://github.com/Immortalise/SearchAnything

本开源项目的主要作者是中科院自动化所硕士生朱凯捷，其也是大模型Prompt鲁棒性评估基准 PromptBench 的主要作者（PromptBench: 首个大语言模型提示鲁棒性的评测基准）。其他参与作者包括微软应用科学家侯汶昕、新加坡国立大学博士生张储祺。微软亚洲研究院王晋东担任指导教师。

🎉 DEMO 体验

文本搜索：

图片搜索：

🤖 工作流程

下图展示了Search Anything的工作流程。

Search Anything主要涉及两个步骤：

嵌入(Embedding)

给定一个文本或图像，首先将它们处理成一个矢量（Embedding）。主要的AI模型基于setence-transformer库。

文本语义搜索：All-mpnet-base-v2
图像语义搜索：clip-ViT-B-32

保存

在为每个图像和文本生成Embedding之后，我们将Embedding与文件路径等一系列的元数据（Meta data）一起保存到数据库中。

检索

当给定一个查询和一个搜索类型时，首先将查询处理成一个Embedding ，然后检索数据库内关于类型的所有Embeddings 。最后计算查询和每个的余弦相似度，按降序排序，并返回结果。

隐私保护

SearchAnything将最先进的AI模型下载至本地运行，因此，无需担心您的隐私数据会被泄露！文字语义检索仅需要约400MB的内存空间，而图像语义检索需要4GB内存。未来我们将加入更多的模型以方便不同内存大小的用户都可以使用。

🛠️ 安装

本地计算机需要下载conda环境。

接着，通过github下载我们的代码仓库：git clone git@github.com:Immortalise/SearchAnything.git

然后使用如下的conda命令创建本地environment：

conda env create -f env.yaml
conda activate anything

💡使用方法

加载&处理文件

打开命令行，运行python anything.py来启动命令行应用程序。

运行后，你会看到以下说明：

[nltk_data] Downloading package punkt to /xxx/nltk_data...
[nltk_data] Package punkt is already up-to-date! 
Adding text embedding model 
Adding image embedding model 
SearchAnything v1.0 Type 'exit' to exit.   
Type 'insert' to parse file.   
Type 'search' to search file.   
Type 'delete' to delete file. 
Instruction:

键入insert并回车，然后输入需要处理的文件地址/文件夹地址，如果给定的是一个文件夹地址，则该文件夹中所有支持的文件类型的文件都将被解析并保存到数据库中。

检索

我们推荐使用网页端的可视化来进行检索，在命令行中键入streamlit run app.py。然后，会在本地浏览器中打开一个界面。

最新文章

美国"公立常春藤"威廉玛丽学院王晋东老师招收25 Fall全奖PhD/实习生

AgentReview: 利用 LLM Agents 探究同行评审机制

ICML 2024 Oral | CompeteAI: 从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ICML 2024 | GLWS: 一个通用高效的框架统一弱监督学习

ICML 2024 | DyVal 2: 更加通用和自动的大语言模型的动态评测和洞察协议

ICLR 2024 spotlight | 基础模型时代的全新研究方向：灾难性继承与噪音模型学习

ICLR 2024 Spotlight | DyVal: 首个大语言模型的动态测试评测协议

2023年度盘点：这一年发过的那些技术文章

写在ChatGPT发布一周年之际

[征稿] ACM TIST special issue征集大模型评测方面的论文

ICCV 2023 | RiFT: 通过鲁棒关键微调提升对抗训练的泛化性

风靡朋友圈的妙鸭相机，到底用了哪些底层技术？

“评测即科学”：首篇大语言模型评测的综述，一文带你全面了解大模型评测的现状、方法和挑战

GLUE-X：基于分布外泛化的自然语言理解模型测试集 (ACL'23 Findings)

Search Anything: 给本地搜索插上大模型的翅膀—语义搜索你的电脑、手机和云端的任何信息

PromptBench: 首个大语言模型提示鲁棒性的评测基准

怎么借助ChatGPT快速肝一篇学术论文？

《大模型时代的科研》之2: Prompt Engineering (提示词工程)

PandaLM: 评估大模型的大模型：保护隐私、可靠、可复现，三行代码即可调用

大模型时代，普通人的科研何去何从：读《一本书读懂AIGC》有感

迁移学习导论英文版终于问世

ICLR 2023 | DIVERSIFY: 针对动态数据分布外泛化的表征学习新范式

ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off

ICLR 2023半监督学习最高分论文FreeMatch: 自适应阈值法

2022年终盘点：这一年发过的那些技术文章

COLING'22 | 用于细粒度情感分类TOWE任务的多粒度半监督算法

三行代码解决长尾不平衡类别分类：间隔校准算法Margin Calibration

NeurIPS 2022 | USB: 统一、任务多样化、对学术界更友好的半监督学习算法库

你们喜欢的迁移学习开源项目，现在收获了1万星标

为什么越来越多博士逃离科研？

TMLR 22 | 充分挖掘域不变特征的域泛化框架DIFEX

什么是个性化联邦学习？简单易用、面向研究的代码库PersonalizedFL开源啦！

《迁移学习导论》第2版，重磅升级上市！

西湖大学NLP实验室招收PhD、RA、博后和实习生

ICML-22 | 通过忠诚度违规测试重新思考注意力模型的解释能力

打开人工智能“黑盒”，发展可解释、可扩展、可信赖、安全可靠的人工智能

深度学习中创新点比较小，但是有效果，可以发（水）论文吗?

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉