AI热门项目分享-双周报第四期

文摘   科技   2024-01-19 12:21   山东  
CAMEL-AI热门项目双周报主要介绍与LLM、AI Agents相关的热门项目与资讯,每两周更新一次。

往期推荐:
双周报

双周报第一期

双周报第二期

双周报第三期





内容一览

Preview






    热门项目介绍

  • MLX示例库:提供了关于在MAC上部署LLM的示例

  • CopilotKit:集成AI功能到到网页和APP的开源库

  • SeeAct:帮你处理Web任务,网购、买机票,通通搞定

  • audio2photoreal:双人对话音频驱动3d数字人

  • AgentSearch:集成RAG-specialized LLM的搜索引擎框架

  • MathPile:专注数学的语料库,包含大量高质量教科书

  • TogetherAI:超越OpenAI和Cohere的文本嵌入模型,其平台集成了8个领先模型

  • TOFU:CMU发布为LLM设计的遗忘任务测试基准

资讯







  • 1月10日GPT Store正式上线 支持中文搜索




MLX示例库:提供了关于在苹果芯片上部署LLM的示例

MLX框架的示例库提供了一系列关于如何在苹果芯片上使用MLX框架开发和部署AI模型的示例
🤖 什么是MLX框架?
MLX是一个为苹果芯片设计的机器学习数组框架,由苹果机器学习研究团队提供,具有NumPy风格的Python API和完整的C++ API。
MLX为机器学习研究人员提供一个用户友好且高效的训练和部署模型的框架,灵感来自NumPy、PyTorch、Jax和ArrayFire等框架。
🌐 MLX示例库
MLX示例库提供了各种示例,包括Transformer语言模型训练、大规模文本生成、图像生成和语音识别。
🎨示例模型
  • 🟢文本模型📖包括:Transformer语言模型训练、LLaMA、Mistral、Phi-2等LLMs目录中的大规模文本生成、Mixtral 8x7B的专家混合语言模型、使用LoRA或QLoRA进行参数高效微调、T5的文本到文本多任务Transformer、BERT的双向语言理解。

  • 🟢图像模型🏞️:使用Stable Diffusion生成图像。

  • 🟢音频模型📞:使用OpenAI的Whisper进行语音识别。

  • 🟢其他模型⚙️:使用GCN在图结构数据上的半监督学习。


Mlx的github:ml-explore/mlx
示例库的github:ml-explore/mlx-examples

CopilotKit集成AI功能到到网页和APP的开源库
CopilotKit是一个可以让你轻松集成AI功能到React Web应用程序中的开源库
🦾这个库有两个组件(功能)
  • 👉第一个组件是 CopilotTextarea,它提供文本生成和文本自动补全功能

  • 👉第二个组件是 CopilotPortal,这是一个嵌入任何app里的 AI 聊天机器人。它能够利用你的应用的当前状态,执行应用内部和后端的操作。它还支持插件,增加了更多可能性。


🧐CopilotKit兼容任何大型语言模型,包括 GPT-4,适用于各种需求,可以自行托管,该库目前适用于所有 React 应用。
github: CopilotKit/CopilotKit
SeeAct:帮你处理Web任务,网购、买机票,通通搞定
SeeAct是一个能够帮你在任何网站上执行特定任务的多模态智能体助手
👁️项目介绍
SeeAct 是基于 LMM(如 GPT-4V)构建的通用Web Agent。具体来说,给定任何网站上的任务(例如在苹果主页上“比较 iPhone 15 Pro Max 和 iPhone 13 Pro Max”),智能体首先执行动作生成,以产生完成任务每一步的文本描述(例如,“导航到 iPhone 类别”),然后执行动作定位,以识别网页上相应的 HTML 元素(例如,“[按钮] iPhone”)和操作(例如,点击、输入或选择)。
📈主要结果
  • 🟢如果提供了准确的动作定位,SeeAct 可以在实时网站上成功完成高达 50% 的任务,显著优于 GPT-4(20%)和 FLAN-T5(18%)。
  • 🟢然而,定位仍然是一个主要挑战。事实证明,GPT-4V 通常可以准确地用文本描述应采取的动作,但在将动作定位到网页上的确切 HTML 元素和操作方面存在困难。现有的定位策略(如标记提示集)对Web Agent不是很有效。最好的定位策略利用了视觉与 HTML 之间的对应关系。
  • 🟢结合 GPT-4V 的 SeeAct 展现了许多有趣的能力,如推测性规划、世界知识(例如,机场代码),以及某种“世界模型”(至少适用于网站),它可以正确预测网站上的状态转换(例如,如果我点击这个按钮会发生什么)。

😮惊喜发现
最初研究团队认为即使是 GPT-4V 也不足以成为通用Web Agent,可能仍然需要微调,但研究人员不断被它作为Web Agent的惊人能力所震撼。研究团队表示也期待测试 Gemini Ultra,并看看其在 MMMU 上的强劲表现是否可以转移。
github:https://github.com/OSU-NLP-Group/SeeAct
官方介绍:https://osu-nlp-group.github.io/SeeAct/
audio2photoreal:双人对话音频驱动3d数字人
Meta发布了audio2photoreal:给它一段双人对话的音频,就可以驱动3d数字人,并且有着逼真的面部、身体和手部手势。
🤖 项目介绍
这个项目名为 "从语音到真人:创造会话中的真实人物",是由加州大学伯克利分校和Meta Reality Labs Research共同开展的。这个项目引入了一种新型框架,能够根据对话动态生成全身和真实视频一样逼真的虚拟人物,包括面部、身体和手部的手势。
🔧 技术核心
技术关键在于结合向量量化的样本多样性和通过扩散技术获得的高频细节,以生成更具动态性和表现力的动作。团队利用高度真实的虚拟人物来可视化生成的动作,这些虚拟人物能表达手势中的重要细微差别(例如嘲笑和微笑)🎭。
📊 研究贡献
为了推动这一领域的发展,团队创造了一个首创的多视角(multi-view)对话数据集,支持高逼真度数字人重建。研究表明,该模型在生成适当和多样的手势方面超越了其他方法。
github: facebookresearch/audio2photoreal
官方介绍:https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/
AgentSearch:集成RAG-specialized LLM的搜索引擎框架
AgentSearch是一个可以为llm增加搜索功能的框架,其设计目的是为了使LLM可以高效地结合 AgentSearch 数据集和多种搜索引擎的托管搜索 API来帮助生成强大的Agent🧩。
这款开源工具允许你探索超过十亿的高质量嵌入内容,🥇涵盖了丰富的信息源,特别适合与 RAG(检索增强生成)类型的专业语言学习模型(如 Sensei-7B)一起使用,从而增强搜索Agent在不同应用场景中的功能。
💁‍♂️AgentSearch的特性包括:
  • 👉搜索Agent:能够与任何专门化的RAG(检索增强型生成)语言模型(如Sensei-7B)无缝集成。
  • 👉可定制搜索:部署您自己的本地搜索引擎,使用AgentSearch数据集,或者引入自定义数据集以满足特定需求。
  • 👉API端点:连接SciPhi和其他搜索提供者API,以便于部署。

👨🏼‍💻其作者Owen Colegrove在X上分享了他自己使用AgentSearch来生成GPT的案例:
github:SciPhi-AI/agent-search
官方介绍:https://agent-search.readthedocs.io/en/latest/
体验地址:https://search.sciphi.ai
MathPile:专注数学的语料库,包含大量高质量教科书
MathPile是一个多样化且高质量的以数学语料库,包含大约 95 亿个token,以下是其特点。
🧠 聚焦数学:
MathPile 作为一个专注于数学的大规模高质量语料库,与一般领域或多语言语料库不同,致力于数学推理能力的提升。
🌟 多样性与高质量
MathPile 汇集了来自广泛来源的内容,包括教科书(含讲义笔记)、arXiv、维基百科、ProofWiki、StackExchange 和网页,总计大约 520 亿个token,占2.2TB。它包含适合 K-12、大学、研究生水平和数学竞赛的数学内容。MathPile是首个做到内容多样性如此丰富的语料库,👍尤其是其团队发布了大量高质量教科书(约 0.19B token)的这一点。
研究团队坚守“少即是多”的原则,坚信即使在预训练阶段,数据质量也比数量更重要。团队细致的数据收集和处理工作包括一套复杂的预处理、预筛选、清洗、筛选和去重,确保了MathPile语料库的高质量。
💡 透明的数据文档
MathPile 提供了详细的数据文档和质量注释,增加了透明度,满足了不同用户的定制需求。同时,它还进行了数据污染检测,以保证数据的纯净性。
github:GAIR-NLP/MathPile
抱抱脸:GAIR/MathPile
官方介绍:https://gair-nlp.github.io/MathPile/
TogetherAI:超越OpenAI和Cohere的文本嵌入模型,其平台集成了8个领先模型
Together AI推出的Together Embeddings endpoint,是一个用于处理文本编码的工具平台。文本编码是一种表示文本数据的方式。这个工具平台支持各种功能,如聚类、语义搜索和分类,并且具有处理长上下文长度(最长可达32,000个字符)、与大型语言模型进行检索增强生成(RAG)集成等高级功能,提供比其他平台更经济的解决方案。这个工具平台在理解文本相似性或处理上下文长度上表现突出。
💡其亮点包括:
  • ✅8个领先的嵌入模型——包括在MTEB和LoCo基准测试中超越OpenAI的ada-002和Cohere的Embed-v3的模型

  • ✅最先进的长语境M2-Retrieval模型,可支持长达32k的语境长度

  • ✅价格比其他流行平台便宜多达4倍

  • ✅与MongoDB、LangChain和LlamaIndex等进行集成,用于构建RAG

  • ✅完全兼容OpenAI的API,便于迁移


官方介绍:https://www.together.ai/blog/embeddings-endpoint-release
TOFU:CMU发布为LLM设计的遗忘任务测试基准
CMU前日发布的“TOFU“,它是了关于LLM在针对大量数据中的私人和敏感数据的处理的测试基准。以下是其该篇相关论文的简介:
🎯概述
探讨大型语言模型(LLMs)在网络数据学习中如何避免记忆敏感信息的难题。
🚀 创新基准
“TOFU”基准测试,用于评估模型的“遗忘”能力。
📊 数据和方法
包含200个合成作者档案,每个档案20个问答对,部分数据被定为遗忘目标。
📈 评估标准
论文提供了一套度量标准来全面评估遗忘的有效性,并提供了现有遗忘算法的基线结果,讨论了数据移除的复杂性。
github: locuslab/tofu
项目主页:locuslab.github.io/tofu
资讯:1月10日GPT Store正式上线 支持中文搜索

1月10日,GPT商店正式上线了,并且还支持中文搜索,快来看看自己的gpt是否能被搜到~~~
🟢用户可以通过gpts页面的排行榜来浏览流行热门的gpt
🟢OpenAI在发布blog中还推荐了首批特色GPT:
  • 来自AllTrails的个性化徒步路线推荐。
  • 使用Consensus搜索并综合来自2亿学术论文的结果。
  • 借助Khan Academy的代码导师扩展你的编程技能。
  • 用Canva设计演示文稿或社交帖子。
  • 使用Books找到你的下一本读物。
  • 随时随地通过CK-12 Flexi AI导师学习数学和科学。

以下是构建您自己的自定义GPT指南~😋
✅如果想要上架自己的自定义GPT,需要满足以下三个条件:
  1. 查看OpenAI更新的使用政策和GPT品牌指南, 以确保您的GPT符合要求;

  2. 验证您的构建者资料(设置>构建者资料>启用您的名字或一个经过验证的网站);

  3. 将您的GPT发布为“公开”!(设置为“任何拥有链接的人”选项的GPT将不会在商店中显示)。


-THE END-

进微信群请加

CamelAIOrg

Github|github.com/camel-ai/camel
官网|www.camel-ai.org

CAMEL AI
这里是CAMEL-AI开源社区官方公众号,希望让更多的中文开发者们了解最新的Agent行业资讯和CAMEL-AI的更新与改进。
 最新文章