AI热门项目分享-双周报第三期

文摘   科技   2024-01-04 09:00   广东  

CAMEL-AI热门项目双周报主要介绍与LLM、AI Agents相关的热门项目与资讯,每两周更新一次。

Outlines:帮助开发者引导文本生成
  • Outlines是一个用于神经文本生成的库。可以将其视为transformers库中generate方法的更灵活替代品。

  • Outlines帮助开发者引导文本生成,构建与外部系统的健壮接口。提供保证输出匹配正则表达式或遵循JSON模式的生成方法。

  • Outlines提供强大的提示原语,将提示与执行逻辑分离,简化少数样本生成、ReAct、元提示、代理等的实现。

  • Outlines旨在兼容更广泛的生态系统,使用最少的抽象。与所有模型兼容,通过下一令牌的logits与模型交互,也可与基于API的模型一起使用。


🔮可兼容模型:
  • Transformers

  • AutoGPTQ

  • AutoAWQ (requires pip install autoawq)

  • OpenAI API

  • Mamba


⚡Outlines特性
  • 基于Jinja模板引擎的简单而强大的提示原语

  • 引导式生成,包括多选、类型约束和动态停止

  • 快速的正则表达式引导式生成

  • 快速的JSON生成,遵循JSON模式或Pydantic模型

  • 语法引导式生成

  • 将生成结果与循环、条件判断和自定义Python函数交织在一起

  • 缓存生成结果


github:outlines-dev/outlines
Seamless:Meta发布AI翻译模型
Meta AI 12月1日在官网宣布了他们关于无缝沟通研究的AI模型系列:Seamless Communication。这一模型系列包括了SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2,它们各有特点:
🌐 SeamlessM4T v2:高级多语种模型
这是一个基础的多语言和多任务模型,适用于语音和文本。它是 SeamlessM4T 的后继产品,在自动语音识别(ASR)、语音到语音、语音到文本以及文本到语音任务中展示了性能的提升。
⚡ SeamlessStreaming:近乎实时的翻译
它是首个大规模多语言模型,能在大约两秒内交付翻译,准确度几乎与离线模型相当。这一模型建立在SeamlessM4T v2的基础上,支持自动语音识别以及将近100种输入输出语言的语音到文本翻译,还能进行将近100种输入语言和36种输出语言的语音到语音翻译。
🗣️SeamlessExpressive:保持翻译的原汁原味
这个模型旨在跨语言保留原有的表达方式和语言细节。它不仅捕捉对话内容,还致力于保持说话者的语调、停顿、语速、情感和声音风格,让翻译超越单调的机械式语调。
🛠️结合这三个模型的优势,Meta AI还推出了Seamless,它将SeamlessM4T v2的高质量和多语种能力、SeamlessStreaming的低延迟以及Seamless Expressive的表达保存功能融合到一个统一的系统中。
更多详细信息请见官方介绍:
https://ai.meta.com/blog/seamless-communication/
Openlogprobs:过语言模型API提取下个token概率
Openlogprobs是一个用于从语言模型API提取下一个token概率的Python API,它可以帮助开发者更深入地理解和利用AI模型的输出。
🔍 算法创新:研究团队开发了一个“通过利用logit bias对单个词进行逆向工程,以得到它们的对数概率”的算法,实际上使我们能够通过像OpenAI API这样的API提取完整的概率向量,高效地提取下一个token的概率,无论是topK概率还是精确解决方案。
👨‍💻 多方法支持: OpenLogProbs支持多种提取方法,包括二分查找和topK搜索,适用于不同API的需求。
github:https://github.com/justinchiu/openlogprobs
gptengineer.app:自然语言+零代码即可创建产品交互原型
🤖gptengineer.app是在github上最受欢迎👍的代码生成项目GPT Engineer的Web平台版:,用户只需要简单的🗣️自然语言指令就可以零代码快速生成各种原型设计~(如视频)
-以下是官方对其特点的描述~
🤖gptengineer.app使任何人都能够:
  • ✅明确指定要构建的内容

  • ✅AI帮助创建并展示网站

  • ✅使用自然语言进行编辑

  • ✅实现一键部署


如果你有许多创意并希望拥有更多产品——你找对地方了。
代码不在GitHub上,而是位于gptengineer.app。
github:gpt-engineer-org/gptengineer.app
体验地址:https://run.gptengineer.app
Robin:一款强性能的多模态视觉语言模型
12月23日,CERC-AAI(Canada Excellence Research Chair in Autonomous Artificial Intelligence)Lab的负责人Irina Rish在X宣布发布了 Robin v1.0多模态(视觉-语言)模型套件。
🌟 Robin v1.0介绍
Robin v1.0是一个多模态(视觉-语言)模型套件,其性能达到或超过了类似规模的最先进模型。在模型中,研究人员发布了LLaVA分支,使Mistral-7B和Open-Hermes-2.5语言模型能够处理图像。还结合了预训练的LLMs(Vicuna、Mistral和OpenHermes 2.5)和视觉模型(CLIP和SigLIP),并通过微调视觉编码器进一步增强了能力。
🔍 LLaVA架构概览
LLaVA,即大型语言与视觉助手,代表了一种多模态视觉语言模型。它将预训练的语言模型与视觉编码器整合在一起,通过投影层连接,实现语言和视觉信息的有效融合。在最初的版本中,Vicuna模型作为语言基础,而OpenAI的CLIP ViT-Large扮演视觉编码器的角色。在这个基础上,团队研究了不同语言模型、视觉编码器以及微调视觉编码器对多模态模型性能的影响。值得注意的是,这个实验包括了Mistral AI LLM模型的各个版本与DeepMind SigLip视觉编码器的融合。
🤖 模型训练及结果
实验使用了与原始LLaVA训练相同的多模态指令跟随数据集。训练分为两个阶段:首先是投影层的训练,然后是微调阶段,这包括了解冻投影层和视觉编码器,以及使用LoRA调整语言模型。在OpenHermes + SigLIP(VE冻结)的模型中,团队还测试了在训练语言模型和投影层时保持视觉编码器冻结的情况。
结论:robin团队发现微调视觉编码器有助于进一步增强能力和提高性能。所有模型和代码已开源。未来将推出支持多图像、增强视觉推理、视频处理能力的模型。
github:AGI-Collective/Robin
官网介绍:https://sites.google.com/view/irinalab/blog/robin-v1-0
论文研究:https://arxiv.org/abs/2304.13765
PowerInfer:本地部署LLM的高速推理引擎,比llama.cpp快1.2倍,单个消费级gpu就能运行
PowerInfer来自上海交大团队,可以让大家在家用pc上高速运行LLM的超强工具,它专为使用单个消费级GPU进行LLM本地部署而设计🤩
🧠项目简介
PowerInfer,这一由上海交大团队开发的创新工具,能在家用电脑上高效运行大型语言模型,充分利用消费级GPU的强大性能。
🔧工作机制
PowerInfer通过利用神经元激活的局部性来实现显著的速度提升。它采用了混合CPU/GPU的方法,有效管理“热”和“冷”神经元,显著减少了CPU和GPU之间的内存需求和数据传输负载。
✨ 卓越体验
PowerInfer拥有快速的处理速度和用户友好的操作界面,支持多种流行模型,特别针对本地部署进行了优化。
📊 基准测试成绩:
在NVIDIA RTX 4090 GPU上,PowerInfer的令牌生成速率平均达到每秒13.20个,与服务器级A100 GPU的表现相比,仅低18%,展现了其强大的本地运行能力。
github:SJTU-IPADS/PowerInfer
SAM:推理能力优于GPT-3.5和Orca的7B小型智能体模型
SAM(Small Agentic Model)是一款7B小型智能体模型,在推理基准测试上超越了 GPT-3.5 和 Orca。
👩‍🏫SAM研究团队介绍
SuperAGI专注于开发大型智能体模型(LAMs),用于驱动自主AI Agent。在这一努力中,SuperAGI致力于增强多跳序列推理能力。
👍尽管体型较小,SAM 展现了强大的agentic推理能力
  • 🟢在 ARC-C 和 GSM8k 等多个推理基准测试中,SAM 超越了 GPT 3.5、Orca 和其他 70B 模型。

  • 🟢尽管训练数据少了97%,SAM-7B 在 GSM8k 上仍然超过了 Orca2-13B。

  • 🟢该模型微调数据集中的所有响应都由开源模型生成,无需GPT-3.5或GPT-4等最先进的模型的帮助。


🧠攻克的主要挑战
  • 挑战1:缺乏用于推理的大型高质量数据集。

  • 挑战2:不使用GPT-3.5/4等最先进模型生成合成数据。

  • 挑战3:创建自定义管道来评估模型。


👁️以下是该团队的关键发现:
  • 1、赋予agentic能力需要对问题进行详细拆解,以便在生成最终答案前提供细致的解释

  • 2、数据质量受目标行为驱动 => 链接的解释轨迹引发了序列多跳推理


抱抱脸:SuperAGI/SAM
官方介绍:https://superagi.com/introducing-sam-small-agentic-model/
其他内容分享:山姆奥特曼的17条年度格言
山姆奥特曼在他的个人blog里总结了17条格言📜,表示希望对正在思考自己2024的计划的人有用:
1、乐观、执着、自信、坚定的决心以及好的人际关系会让你有个好的开始。
2、协作的团队、冷静和紧迫的正确结合,以及坚定的承诺是事情完成的方法。长期的眼光是很稀缺的;尽量不要担心人们短期内会怎么想,因为这会随着时间而变化。
3、对于团队来说,完成一项真正重要的困难任务比完成一项不那么重要的简单任务更容易;大胆的想法能够激励人们。
4、激励措施的影响力很大,所以要谨慎设定。
5、集中资源在少数高度确信的赌注上;这很容易说,但显然很难做到。你可以断舍离的东西和想法比你以为的还要多。
6、要清晰而简洁地沟通。
7、每次看到废话和官僚主义,都要反击,而且要鼓励其他人也一起反击。不要让组织架构妨碍人们有效地协同工作。
8、最重要的是结果;好的过程并不是坏结果的借口。
9、花更多时间招聘。要敢于冒险选拔高潜力且迅速进步的人。除了他们的智商,还要有注重他们实际的产出结果。
10、组织内的superstar实际上比看起来更有价值,但你必须理性评估他们对组织绩效的总体影响。
11、快速迭代可以弥补很多不足,如果可以快速的调整和迭代,犯错也没关系。战略计划应该以十年为单位制定,而执行计划应该星期为单位制定。
12、不要与商业世界中的物理法则相抗衡。
13、灵感易逝,生命迅速流逝。不采取行动是一种特别隐蔽的风险类型。
14、规模增长带来的结果往往会让我们惊喜。
15、复合增长效应具有神奇的魔力。尤其是如果你希望创立一个随规模扩大而带来复利优势的企业。
16、站起来,继续前进。
17、与优秀的人一起工作是生活中最美好的部分。
原文在这里:https://blog.samaltman.com/what-i-wish-someone-had-told-me
资讯:Youtube正在引入新AI功能
Youtube预告了其新的AI功能即将发布:
1、快速了解视频内容:直接向AI咨询任何视频内容,即可获得答案和视频旁的相关链接。
2、轻松浏览评论区:借助AI的简洁总结,快速把握评论的主要内容。
3、视频制作更简单:Dream Screen功能只需一个提示,便可轻松生成视频。
4、创意灵感助手:YouTube Studio新功能将为创作者提供AI生成的洞见、视频建议和音乐选项。
5、缩短编辑时间:YouTube Create App让剪辑、整理视频片段和优化音频质量变得前所未有的简单快捷。
资讯:谷歌免费开放Gemini Pro API!
谷歌日前在官网宣布免费开放Gemini Pro API,大家可以在网页版开发平台Google AI Studio(免费)或者谷歌云的Vertex AI(收费)中使用。
✅👉👉免费获取API和使用模型的方法如图。

💁‍♂️作为Gemini API的第一个版本,其特点如下:
  • 🟢在研究基准测试中表现优于其他同等规模模型。

  • 🟢目前版本支持32K文本上下文窗口

  • 🟢目前免费使用(有限制)

  • 🟢功能包括函数调用、嵌入式、语义检索、自定义知识定位和聊天功能。

  • 🟢支持全球180多个国家和地区的38种语言。

  • 🟢目前版本接受文本输入并生成文本输出。今天还推出了专用的Gemini Pro Vision多模态端点,支持文本和图像输入,文本输出。

  • 🟢为Gemini Pro提供SDK,支持在任何地方构建应用。支持Python、Android (Kotlin)、Node.js、Swift和JavaScript。


官方介绍:https://blog.google/technology/ai/gemini-api-developers-cloud/amp/
免费API地址:https://makersuite.google.com/app/apikey

进微信群请加

CamelAIOrg

Github|github.com/camel-ai/camel
官网|www.camel-ai.org


CAMEL AI
这里是CAMEL-AI开源社区官方公众号,希望让更多的中文开发者们了解最新的Agent行业资讯和CAMEL-AI的更新与改进。
 最新文章