AI热门项目分享-双周报第三期

文摘科技 2024-01-04 09:00 广东

CAMEL-AI热门项目双周报主要介绍与LLM、AI Agents相关的热门项目与资讯，每两周更新一次。

Outlines：帮助开发者引导文本生成

Outlines是一个用于神经文本生成的库。可以将其视为transformers库中generate方法的更灵活替代品。
Outlines帮助开发者引导文本生成，构建与外部系统的健壮接口。提供保证输出匹配正则表达式或遵循JSON模式的生成方法。
Outlines提供强大的提示原语，将提示与执行逻辑分离，简化少数样本生成、ReAct、元提示、代理等的实现。
Outlines旨在兼容更广泛的生态系统，使用最少的抽象。与所有模型兼容，通过下一令牌的logits与模型交互，也可与基于API的模型一起使用。

🔮可兼容模型：

Transformers
AutoGPTQ
AutoAWQ (requires pip install autoawq)
OpenAI API
Mamba

⚡Outlines特性

基于Jinja模板引擎的简单而强大的提示原语
引导式生成，包括多选、类型约束和动态停止
快速的正则表达式引导式生成
快速的JSON生成，遵循JSON模式或Pydantic模型
语法引导式生成
将生成结果与循环、条件判断和自定义Python函数交织在一起
缓存生成结果

github：outlines-dev/outlines

Seamless：Meta发布AI翻译模型

Meta AI 12月1日在官网宣布了他们关于无缝沟通研究的AI模型系列：Seamless Communication。这一模型系列包括了SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2，它们各有特点：

🌐 SeamlessM4T v2：高级多语种模型

这是一个基础的多语言和多任务模型，适用于语音和文本。它是 SeamlessM4T 的后继产品，在自动语音识别（ASR）、语音到语音、语音到文本以及文本到语音任务中展示了性能的提升。

⚡ SeamlessStreaming：近乎实时的翻译

它是首个大规模多语言模型，能在大约两秒内交付翻译，准确度几乎与离线模型相当。这一模型建立在SeamlessM4T v2的基础上，支持自动语音识别以及将近100种输入输出语言的语音到文本翻译，还能进行将近100种输入语言和36种输出语言的语音到语音翻译。

🗣️SeamlessExpressive：保持翻译的原汁原味

这个模型旨在跨语言保留原有的表达方式和语言细节。它不仅捕捉对话内容，还致力于保持说话者的语调、停顿、语速、情感和声音风格，让翻译超越单调的机械式语调。

🛠️结合这三个模型的优势，Meta AI还推出了Seamless，它将SeamlessM4T v2的高质量和多语种能力、SeamlessStreaming的低延迟以及Seamless Expressive的表达保存功能融合到一个统一的系统中。

更多详细信息请见官方介绍：

https://ai.meta.com/blog/seamless-communication/

Openlogprobs：过语言模型API提取下个token概率

Openlogprobs是一个用于从语言模型API提取下一个token概率的Python API，它可以帮助开发者更深入地理解和利用AI模型的输出。

🔍 算法创新：研究团队开发了一个“通过利用logit bias对单个词进行逆向工程，以得到它们的对数概率”的算法，实际上使我们能够通过像OpenAI API这样的API提取完整的概率向量，高效地提取下一个token的概率，无论是topK概率还是精确解决方案。

👨‍💻 多方法支持： OpenLogProbs支持多种提取方法，包括二分查找和topK搜索，适用于不同API的需求。

github:https://github.com/justinchiu/openlogprobs

gptengineer.app：自然语言+零代码即可创建产品交互原型

🤖gptengineer.app是在github上最受欢迎👍的代码生成项目GPT Engineer的Web平台版：，用户只需要简单的🗣️自然语言指令就可以零代码快速生成各种原型设计～（如视频）

-以下是官方对其特点的描述～

🤖gptengineer.app使任何人都能够：

✅明确指定要构建的内容
✅AI帮助创建并展示网站
✅使用自然语言进行编辑
✅实现一键部署

如果你有许多创意并希望拥有更多产品——你找对地方了。

代码不在GitHub上，而是位于gptengineer.app。

github：gpt-engineer-org/gptengineer.app

体验地址：https://run.gptengineer.app

Robin：一款强性能的多模态视觉语言模型

12月23日，CERC-AAI（Canada Excellence Research Chair in Autonomous Artificial Intelligence）Lab的负责人Irina Rish在X宣布发布了 Robin v1.0多模态（视觉-语言）模型套件。

🌟 Robin v1.0介绍

Robin v1.0是一个多模态（视觉-语言）模型套件，其性能达到或超过了类似规模的最先进模型。在模型中，研究人员发布了LLaVA分支，使Mistral-7B和Open-Hermes-2.5语言模型能够处理图像。还结合了预训练的LLMs（Vicuna、Mistral和OpenHermes 2.5）和视觉模型（CLIP和SigLIP），并通过微调视觉编码器进一步增强了能力。

🔍 LLaVA架构概览

LLaVA，即大型语言与视觉助手，代表了一种多模态视觉语言模型。它将预训练的语言模型与视觉编码器整合在一起，通过投影层连接，实现语言和视觉信息的有效融合。在最初的版本中，Vicuna模型作为语言基础，而OpenAI的CLIP ViT-Large扮演视觉编码器的角色。在这个基础上，团队研究了不同语言模型、视觉编码器以及微调视觉编码器对多模态模型性能的影响。值得注意的是，这个实验包括了Mistral AI LLM模型的各个版本与DeepMind SigLip视觉编码器的融合。

🤖 模型训练及结果

实验使用了与原始LLaVA训练相同的多模态指令跟随数据集。训练分为两个阶段：首先是投影层的训练，然后是微调阶段，这包括了解冻投影层和视觉编码器，以及使用LoRA调整语言模型。在OpenHermes + SigLIP（VE冻结）的模型中，团队还测试了在训练语言模型和投影层时保持视觉编码器冻结的情况。

结论：robin团队发现微调视觉编码器有助于进一步增强能力和提高性能。所有模型和代码已开源。未来将推出支持多图像、增强视觉推理、视频处理能力的模型。

github：AGI-Collective/Robin

官网介绍：https://sites.google.com/view/irinalab/blog/robin-v1-0

论文研究：https://arxiv.org/abs/2304.13765

PowerInfer：本地部署LLM的高速推理引擎，比llama.cpp快1.2倍，单个消费级gpu就能运行

PowerInfer来自上海交大团队，可以让大家在家用pc上高速运行LLM的超强工具，它专为使用单个消费级GPU进行LLM本地部署而设计🤩

🧠项目简介

PowerInfer，这一由上海交大团队开发的创新工具，能在家用电脑上高效运行大型语言模型，充分利用消费级GPU的强大性能。

🔧工作机制

PowerInfer通过利用神经元激活的局部性来实现显著的速度提升。它采用了混合CPU/GPU的方法，有效管理“热”和“冷”神经元，显著减少了CPU和GPU之间的内存需求和数据传输负载。

✨ 卓越体验

PowerInfer拥有快速的处理速度和用户友好的操作界面，支持多种流行模型，特别针对本地部署进行了优化。

📊 基准测试成绩：

在NVIDIA RTX 4090 GPU上，PowerInfer的令牌生成速率平均达到每秒13.20个，与服务器级A100 GPU的表现相比，仅低18%，展现了其强大的本地运行能力。

github：SJTU-IPADS/PowerInfer

SAM：推理能力优于GPT-3.5和Orca的7B小型智能体模型

SAM（Small Agentic Model）是一款7B小型智能体模型，在推理基准测试上超越了 GPT-3.5 和 Orca。

👩‍🏫SAM研究团队介绍

SuperAGI专注于开发大型智能体模型（LAMs），用于驱动自主AI Agent。在这一努力中，SuperAGI致力于增强多跳序列推理能力。

👍尽管体型较小，SAM 展现了强大的agentic推理能力：

🟢在 ARC-C 和 GSM8k 等多个推理基准测试中，SAM 超越了 GPT 3.5、Orca 和其他 70B 模型。
🟢尽管训练数据少了97%，SAM-7B 在 GSM8k 上仍然超过了 Orca2-13B。
🟢该模型微调数据集中的所有响应都由开源模型生成，无需GPT-3.5或GPT-4等最先进的模型的帮助。

🧠攻克的主要挑战

挑战1：缺乏用于推理的大型高质量数据集。
挑战2：不使用GPT-3.5/4等最先进模型生成合成数据。
挑战3：创建自定义管道来评估模型。

👁️以下是该团队的关键发现：

1、赋予agentic能力需要对问题进行详细拆解，以便在生成最终答案前提供细致的解释
2、数据质量受目标行为驱动 => 链接的解释轨迹引发了序列多跳推理

抱抱脸：SuperAGI/SAM

官方介绍：https://superagi.com/introducing-sam-small-agentic-model/

其他内容分享：山姆奥特曼的17条年度格言

山姆奥特曼在他的个人blog里总结了17条格言📜，表示希望对正在思考自己2024的计划的人有用：

1、乐观、执着、自信、坚定的决心以及好的人际关系会让你有个好的开始。

2、协作的团队、冷静和紧迫的正确结合，以及坚定的承诺是事情完成的方法。长期的眼光是很稀缺的；尽量不要担心人们短期内会怎么想，因为这会随着时间而变化。

3、对于团队来说，完成一项真正重要的困难任务比完成一项不那么重要的简单任务更容易；大胆的想法能够激励人们。

4、激励措施的影响力很大，所以要谨慎设定。

5、集中资源在少数高度确信的赌注上；这很容易说，但显然很难做到。你可以断舍离的东西和想法比你以为的还要多。

6、要清晰而简洁地沟通。

7、每次看到废话和官僚主义，都要反击，而且要鼓励其他人也一起反击。不要让组织架构妨碍人们有效地协同工作。

8、最重要的是结果；好的过程并不是坏结果的借口。

9、花更多时间招聘。要敢于冒险选拔高潜力且迅速进步的人。除了他们的智商，还要有注重他们实际的产出结果。

10、组织内的superstar实际上比看起来更有价值，但你必须理性评估他们对组织绩效的总体影响。

11、快速迭代可以弥补很多不足，如果可以快速的调整和迭代，犯错也没关系。战略计划应该以十年为单位制定，而执行计划应该星期为单位制定。

12、不要与商业世界中的物理法则相抗衡。

13、灵感易逝，生命迅速流逝。不采取行动是一种特别隐蔽的风险类型。

14、规模增长带来的结果往往会让我们惊喜。

15、复合增长效应具有神奇的魔力。尤其是如果你希望创立一个随规模扩大而带来复利优势的企业。

16、站起来，继续前进。

17、与优秀的人一起工作是生活中最美好的部分。

原文在这里：https://blog.samaltman.com/what-i-wish-someone-had-told-me

资讯：Youtube正在引入新AI功能

Youtube预告了其新的AI功能即将发布：

1、快速了解视频内容：直接向AI咨询任何视频内容，即可获得答案和视频旁的相关链接。

2、轻松浏览评论区：借助AI的简洁总结，快速把握评论的主要内容。

3、视频制作更简单：Dream Screen功能只需一个提示，便可轻松生成视频。

4、创意灵感助手：YouTube Studio新功能将为创作者提供AI生成的洞见、视频建议和音乐选项。

5、缩短编辑时间：YouTube Create App让剪辑、整理视频片段和优化音频质量变得前所未有的简单快捷。

资讯：谷歌免费开放Gemini Pro API！

谷歌日前在官网宣布免费开放Gemini Pro API，大家可以在网页版开发平台Google AI Studio（免费）或者谷歌云的Vertex AI（收费）中使用。

✅👉👉免费获取API和使用模型的方法如图。

💁‍♂️作为Gemini API的第一个版本，其特点如下：

🟢在研究基准测试中表现优于其他同等规模模型。
🟢目前版本支持32K文本上下文窗口
🟢目前免费使用（有限制）
🟢功能包括函数调用、嵌入式、语义检索、自定义知识定位和聊天功能。
🟢支持全球180多个国家和地区的38种语言。
🟢目前版本接受文本输入并生成文本输出。今天还推出了专用的Gemini Pro Vision多模态端点，支持文本和图像输入，文本输出。
🟢为Gemini Pro提供SDK，支持在任何地方构建应用。支持Python、Android (Kotlin)、Node.js、Swift和JavaScript。

官方介绍：https://blog.google/technology/ai/gemini-api-developers-cloud/amp/

免费API地址：https://makersuite.google.com/app/apikey

进微信群请加

CamelAIOrg

Github｜github.com/camel-ai/camel

官网｜www.camel-ai.org

CAMEL AI

这里是CAMEL-AI开源社区官方公众号，希望让更多的中文开发者们了解最新的Agent行业资讯和CAMEL-AI的更新与改进。

最新文章

CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！

CAMEL-AI团队参与发表Nature子刊啦!聚焦LLM如何重塑未来医疗 ~

CAMEL-AI 社区合作：Amazon第三届中国生成式AI 应用创新挑战赛

CAMEL集成通义千问Qwen系列模型-语言模型界的“多面手”

CAMEL-AI 大使计划正式启航啦！来一起看看他们都是谁～

CAMEL AI在牛津大学成功举办全英首场Multi-agent system主题的hackathon！精彩回顾

CAMEL集成零一万物Yi系列模型，丰富多语言模型选择

CAMEL 新增了多智能体协作 Workforce 模块！

Camel AI 与LLMQuant达成战略合作，共同探索Multi Agent在量化金融和金融投资中的应用

CAMEL AI携手淼翰数字科技，共同开发智能客服大模型

CAMEL AI 社区大使计划正式启动！10.24程序员节特别招募，快来加入吧！

多智能体系统新玩法，CAMEL-AI牛津大学Workshop&Hackathon重磅来袭！

CAMEL-AI 更新日志第 11 期-官网 Docs 更新并整合了Ollama 模型

CAMEL AI实习生本科勇闯NeurIPS | AgentTrust的探索之路

多智能体系统新玩法，CAMEL-AI在牛津大学的Hackathon & 研讨会重磅来袭！

CAMEL 集成了Reka 模型和SambaNova系统！来看看最近还有什么更新？

CAMEL-AI首次Hackathon｜基于Multi-Agent system的有趣应用

9.21 北京 nMeetup，来和CAMEL核心贡献者一起讨论Agents with RAG！

Tutorial｜一篇文章教会你使用有RAG功能的CAMEL框架

CAMEL集成了GPT-4o mini和Mistrial AI模型！来看看本周更新了什么功能？

CAMEL开发的Discord Bot来了！来看看本周更新了什么功能？

同时操控手机和电脑？！CAMEL AI社区发布首个跨系统智能体评测基准

新功能！CAMEL和Mistral合作推出GraphRAG检索技术！

如何使用CAMEL框架在2分钟内搭建一个属于你的agent

AI热门项目分享-2024新年月报｜OpenAI发展时间轴梳理

CAMEL更新：加入“向量数据库”和“文本嵌入”特性；整合了Unstructured IO

AI热门项目分享-双周报第四期

AI热门项目分享-双周报第三期

AI热门项目和资讯分享-双周报第二期

AI热门项目分享-双周报第一期

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉