AI热门项目分享-双周报第四期

文摘科技 2024-01-19 12:21 山东

CAMEL-AI热门项目双周报主要介绍与LLM、AI Agents相关的热门项目与资讯，每两周更新一次。

往期推荐：

双周报

双周报第一期

双周报第二期

双周报第三期

内容一览

Preview

^{热门项目介绍}

MLX示例库：提供了关于在MAC上部署LLM的示例
CopilotKit：集成AI功能到到网页和APP的开源库
SeeAct：帮你处理Web任务，网购、买机票，通通搞定
audio2photoreal：双人对话音频驱动3d数字人
AgentSearch：集成RAG-specialized LLM的搜索引擎框架
MathPile：专注数学的语料库，包含大量高质量教科书
TogetherAI：超越OpenAI和Cohere的文本嵌入模型，其平台集成了8个领先模型
TOFU：CMU发布为LLM设计的遗忘任务测试基准

^资讯

1月10日GPT Store正式上线支持中文搜索

MLX示例库：提供了关于在苹果芯片上部署LLM的示例

MLX框架的示例库提供了一系列关于如何在苹果芯片上使用MLX框架开发和部署AI模型的示例。

🤖 什么是MLX框架？

MLX是一个为苹果芯片设计的机器学习数组框架，由苹果机器学习研究团队提供，具有NumPy风格的Python API和完整的C++ API。

MLX为机器学习研究人员提供一个用户友好且高效的训练和部署模型的框架，灵感来自NumPy、PyTorch、Jax和ArrayFire等框架。

🌐 MLX示例库

MLX示例库提供了各种示例，包括Transformer语言模型训练、大规模文本生成、图像生成和语音识别。

🎨示例模型

🟢文本模型📖包括：Transformer语言模型训练、LLaMA、Mistral、Phi-2等LLMs目录中的大规模文本生成、Mixtral 8x7B的专家混合语言模型、使用LoRA或QLoRA进行参数高效微调、T5的文本到文本多任务Transformer、BERT的双向语言理解。
🟢图像模型🏞️：使用Stable Diffusion生成图像。
🟢音频模型📞：使用OpenAI的Whisper进行语音识别。
🟢其他模型⚙️：使用GCN在图结构数据上的半监督学习。

Mlx的github：ml-explore/mlx

示例库的github：ml-explore/mlx-examples

CopilotKit：集成AI功能到到网页和APP的开源库

CopilotKit是一个可以让你轻松集成AI功能到React Web应用程序中的开源库。

🦾这个库有两个组件（功能）：

👉第一个组件是 CopilotTextarea，它提供文本生成和文本自动补全功能
👉第二个组件是 CopilotPortal，这是一个嵌入任何app里的 AI 聊天机器人。它能够利用你的应用的当前状态，执行应用内部和后端的操作。它还支持插件，增加了更多可能性。

🧐CopilotKit兼容任何大型语言模型，包括 GPT-4，适用于各种需求，可以自行托管，该库目前适用于所有 React 应用。

github: CopilotKit/CopilotKit

SeeAct：帮你处理Web任务，网购、买机票，通通搞定

SeeAct是一个能够帮你在任何网站上执行特定任务的多模态智能体助手。

👁️项目介绍

SeeAct 是基于 LMM（如 GPT-4V）构建的通用Web Agent。具体来说，给定任何网站上的任务（例如在苹果主页上“比较 iPhone 15 Pro Max 和 iPhone 13 Pro Max”），智能体首先执行动作生成，以产生完成任务每一步的文本描述（例如，“导航到 iPhone 类别”），然后执行动作定位，以识别网页上相应的 HTML 元素（例如，“[按钮] iPhone”）和操作（例如，点击、输入或选择）。

📈主要结果

🟢如果提供了准确的动作定位，SeeAct 可以在实时网站上成功完成高达 50% 的任务，显著优于 GPT-4（20%）和 FLAN-T5（18%）。
🟢然而，定位仍然是一个主要挑战。事实证明，GPT-4V 通常可以准确地用文本描述应采取的动作，但在将动作定位到网页上的确切 HTML 元素和操作方面存在困难。现有的定位策略（如标记提示集）对Web Agent不是很有效。最好的定位策略利用了视觉与 HTML 之间的对应关系。
🟢结合 GPT-4V 的 SeeAct 展现了许多有趣的能力，如推测性规划、世界知识（例如，机场代码），以及某种“世界模型”（至少适用于网站），它可以正确预测网站上的状态转换（例如，如果我点击这个按钮会发生什么）。

😮惊喜发现

最初研究团队认为即使是 GPT-4V 也不足以成为通用Web Agent，可能仍然需要微调，但研究人员不断被它作为Web Agent的惊人能力所震撼。研究团队表示也期待测试 Gemini Ultra，并看看其在 MMMU 上的强劲表现是否可以转移。

github:https://github.com/OSU-NLP-Group/SeeAct

官方介绍：https://osu-nlp-group.github.io/SeeAct/

audio2photoreal：双人对话音频驱动3d数字人

Meta发布了audio2photoreal：给它一段双人对话的音频，就可以驱动3d数字人，并且有着逼真的面部、身体和手部手势。

🤖 项目介绍

这个项目名为 "从语音到真人：创造会话中的真实人物"，是由加州大学伯克利分校和Meta Reality Labs Research共同开展的。这个项目引入了一种新型框架，能够根据对话动态生成全身和真实视频一样逼真的虚拟人物，包括面部、身体和手部的手势。

🔧 技术核心

技术关键在于结合向量量化的样本多样性和通过扩散技术获得的高频细节，以生成更具动态性和表现力的动作。团队利用高度真实的虚拟人物来可视化生成的动作，这些虚拟人物能表达手势中的重要细微差别（例如嘲笑和微笑）🎭。

📊 研究贡献

为了推动这一领域的发展，团队创造了一个首创的多视角（multi-view）对话数据集，支持高逼真度数字人重建。研究表明，该模型在生成适当和多样的手势方面超越了其他方法。

github: facebookresearch/audio2photoreal

官方介绍：https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/

AgentSearch：集成RAG-specialized LLM的搜索引擎框架

AgentSearch是一个可以为llm增加搜索功能的框架，其设计目的是为了使LLM可以高效地结合 AgentSearch 数据集和多种搜索引擎的托管搜索 API来帮助生成强大的Agent🧩。

这款开源工具允许你探索超过十亿的高质量嵌入内容，🥇涵盖了丰富的信息源，特别适合与 RAG（检索增强生成）类型的专业语言学习模型（如 Sensei-7B）一起使用，从而增强搜索Agent在不同应用场景中的功能。

💁‍♂️AgentSearch的特性包括：

👉搜索Agent：能够与任何专门化的RAG（检索增强型生成）语言模型（如Sensei-7B）无缝集成。
👉可定制搜索：部署您自己的本地搜索引擎，使用AgentSearch数据集，或者引入自定义数据集以满足特定需求。
👉API端点：连接SciPhi和其他搜索提供者API，以便于部署。

👨🏼‍💻其作者Owen Colegrove在X上分享了他自己使用AgentSearch来生成GPT的案例：

github：SciPhi-AI/agent-search

官方介绍：https://agent-search.readthedocs.io/en/latest/

体验地址：https://search.sciphi.ai

MathPile：专注数学的语料库，包含大量高质量教科书

MathPile是一个多样化且高质量的以数学语料库，包含大约 95 亿个token，以下是其特点。

🧠 聚焦数学:

MathPile 作为一个专注于数学的大规模高质量语料库，与一般领域或多语言语料库不同，致力于数学推理能力的提升。

🌟 多样性与高质量

MathPile 汇集了来自广泛来源的内容，包括教科书（含讲义笔记）、arXiv、维基百科、ProofWiki、StackExchange 和网页，总计大约 520 亿个token，占2.2TB。它包含适合 K-12、大学、研究生水平和数学竞赛的数学内容。MathPile是首个做到内容多样性如此丰富的语料库，👍尤其是其团队发布了大量高质量教科书（约 0.19B token）的这一点。

研究团队坚守“少即是多”的原则，坚信即使在预训练阶段，数据质量也比数量更重要。团队细致的数据收集和处理工作包括一套复杂的预处理、预筛选、清洗、筛选和去重，确保了MathPile语料库的高质量。

💡 透明的数据文档

MathPile 提供了详细的数据文档和质量注释，增加了透明度，满足了不同用户的定制需求。同时，它还进行了数据污染检测，以保证数据的纯净性。

github：GAIR-NLP/MathPile

抱抱脸：GAIR/MathPile

官方介绍：https://gair-nlp.github.io/MathPile/

TogetherAI：超越OpenAI和Cohere的文本嵌入模型，其平台集成了8个领先模型

Together AI推出的Together Embeddings endpoint，是一个用于处理文本编码的工具平台。文本编码是一种表示文本数据的方式。这个工具平台支持各种功能，如聚类、语义搜索和分类，并且具有处理长上下文长度（最长可达32,000个字符）、与大型语言模型进行检索增强生成（RAG）集成等高级功能，提供比其他平台更经济的解决方案。这个工具平台在理解文本相似性或处理上下文长度上表现突出。

💡其亮点包括：

✅8个领先的嵌入模型——包括在MTEB和LoCo基准测试中超越OpenAI的ada-002和Cohere的Embed-v3的模型
✅最先进的长语境M2-Retrieval模型，可支持长达32k的语境长度
✅价格比其他流行平台便宜多达4倍
✅与MongoDB、LangChain和LlamaIndex等进行集成，用于构建RAG
✅完全兼容OpenAI的API，便于迁移

官方介绍：https://www.together.ai/blog/embeddings-endpoint-release

TOFU：CMU发布为LLM设计的遗忘任务测试基准

CMU前日发布的“TOFU“，它是了关于LLM在针对大量数据中的私人和敏感数据的处理的测试基准。以下是其该篇相关论文的简介：

🎯概述

探讨大型语言模型（LLMs）在网络数据学习中如何避免记忆敏感信息的难题。

🚀 创新基准

“TOFU”基准测试，用于评估模型的“遗忘”能力。

📊 数据和方法

包含200个合成作者档案，每个档案20个问答对，部分数据被定为遗忘目标。

📈 评估标准

论文提供了一套度量标准来全面评估遗忘的有效性，并提供了现有遗忘算法的基线结果，讨论了数据移除的复杂性。

github: locuslab/tofu

项目主页：locuslab.github.io/tofu

资讯：1月10日GPT Store正式上线支持中文搜索

1月10日，GPT商店正式上线了，并且还支持中文搜索，快来看看自己的gpt是否能被搜到～～～

🟢用户可以通过gpts页面的排行榜来浏览流行热门的gpt

🟢OpenAI在发布blog中还推荐了首批特色GPT：

来自AllTrails的个性化徒步路线推荐。
使用Consensus搜索并综合来自2亿学术论文的结果。
借助Khan Academy的代码导师扩展你的编程技能。
用Canva设计演示文稿或社交帖子。
使用Books找到你的下一本读物。
随时随地通过CK-12 Flexi AI导师学习数学和科学。

以下是构建您自己的自定义GPT指南~😋

✅如果想要上架自己的自定义GPT，需要满足以下三个条件：

查看OpenAI更新的使用政策和GPT品牌指南, 以确保您的GPT符合要求;
验证您的构建者资料（设置>构建者资料>启用您的名字或一个经过验证的网站）;
将您的GPT发布为“公开”！（设置为“任何拥有链接的人”选项的GPT将不会在商店中显示）。

-THE END-

进微信群请加

CamelAIOrg

Github｜github.com/camel-ai/camel

官网｜www.camel-ai.org

CAMEL AI

这里是CAMEL-AI开源社区官方公众号，希望让更多的中文开发者们了解最新的Agent行业资讯和CAMEL-AI的更新与改进。

最新文章

CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！

CAMEL-AI团队参与发表Nature子刊啦!聚焦LLM如何重塑未来医疗 ~

CAMEL-AI 社区合作：Amazon第三届中国生成式AI 应用创新挑战赛

CAMEL集成通义千问Qwen系列模型-语言模型界的“多面手”

CAMEL-AI 大使计划正式启航啦！来一起看看他们都是谁～

CAMEL AI在牛津大学成功举办全英首场Multi-agent system主题的hackathon！精彩回顾

CAMEL集成零一万物Yi系列模型，丰富多语言模型选择

CAMEL 新增了多智能体协作 Workforce 模块！

Camel AI 与LLMQuant达成战略合作，共同探索Multi Agent在量化金融和金融投资中的应用

CAMEL AI携手淼翰数字科技，共同开发智能客服大模型

CAMEL AI 社区大使计划正式启动！10.24程序员节特别招募，快来加入吧！

多智能体系统新玩法，CAMEL-AI牛津大学Workshop&Hackathon重磅来袭！

CAMEL-AI 更新日志第 11 期-官网 Docs 更新并整合了Ollama 模型

CAMEL AI实习生本科勇闯NeurIPS | AgentTrust的探索之路

多智能体系统新玩法，CAMEL-AI在牛津大学的Hackathon & 研讨会重磅来袭！

CAMEL 集成了Reka 模型和SambaNova系统！来看看最近还有什么更新？

CAMEL-AI首次Hackathon｜基于Multi-Agent system的有趣应用

9.21 北京 nMeetup，来和CAMEL核心贡献者一起讨论Agents with RAG！

Tutorial｜一篇文章教会你使用有RAG功能的CAMEL框架

CAMEL集成了GPT-4o mini和Mistrial AI模型！来看看本周更新了什么功能？

CAMEL开发的Discord Bot来了！来看看本周更新了什么功能？

同时操控手机和电脑？！CAMEL AI社区发布首个跨系统智能体评测基准

新功能！CAMEL和Mistral合作推出GraphRAG检索技术！

如何使用CAMEL框架在2分钟内搭建一个属于你的agent

AI热门项目分享-2024新年月报｜OpenAI发展时间轴梳理

CAMEL更新：加入“向量数据库”和“文本嵌入”特性；整合了Unstructured IO

AI热门项目分享-双周报第四期

AI热门项目分享-双周报第三期

AI热门项目和资讯分享-双周报第二期

AI热门项目分享-双周报第一期

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉