AI热门项目和资讯分享-双周报第二期

文摘   科技   2023-12-20 09:01   广东  

CAMEL-AI热门项目双周报主要介绍与LLM、AI Agents相关的热门项目与资讯,每两周更新一次。
Supervision:视频里动态对象的轨迹跟踪分析
Supervision by Roboflow👁️是一个为计算机视觉应用设计的工具包开源项目,可以用来追踪足球运动员的行动轨迹分析交通情况等。(如视频)
👍它提供了一系列功能强大的工具和API,用于加载数据集、绘制检测框、评估模型性能等任务。
🛣️这个工具包适合于各种环境,既适用于没有图形用户界面的无头环境(例如服务器端应用),也适用于支持图形用户界面的桌面环境。
这个工具包包括以下主要特点:
  • 📊数据集加载: Supervision允许从多种来源加载数据集,方便用户快速开始他们的计算机视觉项目。
  • 🎨绘制检测: 它提供了在图像或视频上绘制检测框的功能,这对于对象检测和相关应用至关重要。
  • 🔍模型评估: Supervision还包括评估模型性能的工具,帮助用户理解他们模型的准确性和效率。
  • 🌐分类与检测API: 提供了用于分类和检测的核心API和实用工具,使得集成和应用更为便捷。
  • 🔧工具: 除了核心功能,Supervision还提供了一系列工具,以支持更复杂的计算机视觉任务。

github: roboflow/supervision
Playground v2:文生图模型
Playground v2是一个由其团队从头开始训练的基于扩散的文本到图像生成模型🏞️。它生成高分辨率(1024x1024像素,同时也可以生成512和256)的美观图像,性能优于Stable Diffusion XL,根据用户研究,受欢迎程度提高了2.5倍
🦾该模型使用了两个固定、预训练的文本编码器,并遵循Stable Diffusion XL的架构。Playground v2还引入了新的MJHQ-30K基准,用于自动评估模型的美学质量。
✅目前该模型在HuggingFace上开放供下载,允许商业使用。并且其官网目前可以免费使用,大家可以亲自去体验一下~
huggingface: playgroundai/playground-v2-1024px-aesthetic
Move AI:AI捕捉人类动作转化为3D动画视频
Move AI的AI动作捕捉创建3D人类动画的技术(如视频)针对不同的需求,分别为:
  • 👉Single-Camera:仅需一部手机即可体验,在手机上下载app-Move One;

  • 👉Multi-Camera:多个相机位,同时捕捉多人,专为工作室和品牌打造;

  • 👉Real-Time:针对广播、xr等实时动作捕捉的需求。

👏在这里主要向大家介绍每个人都可以使用的Move One
1️⃣一部手机就能捕捉
-仅需一部手机,您就可以轻松捕捉表演,这得益于Move的专有AI技术。我们的软件使用先进的AI、计算机视觉、生物力学和物理学从视频中提取自然的人体运动。
2️⃣随时随地捕捉
-Move One不受服装或标记的限制,您可以在任何环境或位置创建3D人类动画,无论是在工作室、足球场还是山上。设置只需几分钟,然后您可以在纵向或横向模式下捕捉单个主题。
3️⃣将运动数据导入您的3D动画工具
-Move One的高质量运动数据可适应3D动画工作流程 - 为游戏开发、电影制作、营销和虚拟世界等多种用途提供专业结果。
官网:https://www.move.ai
Tldraw集成DALL·E3:帮你更好的进行文生图控制
之前在上一期为大家介绍过强大的白板应用Tldraw,今天来为大家展示和介绍它与DALL·E3集成后,强大的图像生成控制功能
🥸此应用的创作者Yoshiki Miura在X上发布并展示了他将Tldraw与DALL·E3集成,创建了一个人工智能组件,在链中生成图像的过程(如视频)。
它比聊天形式的文生图功能更方便快捷👍,对于想要使系列图片保持一致性的用户来说更加友好了。
💁‍♂️操作优势:
  • ⭐️只需要一个简单的主prompt+若干辅助prompt就可以生成系列图片

  • ⭐️只需简单使用箭头(链条)控制,就能实现合并多个图片的风格或色彩


体验链接:https://zuga.vercel.app
Ollama Web UI:为Ollama提供更好的使用界面
Ollama是强大的命令行工具,它可以在让你在本地轻松运行和管理大型语言模型,而这里要为大家介绍的是Ollama Web UI,它给🦙Ollama提供了ChatGPT风格的Web界面,可以让我们在使用时有更好的体验
🖥️ 介绍:用户友好的聊天界面
Ollama Web UI是一个受ChatGPT启发的用户友好聊天界面,提供直观、流畅的体验,无论是在桌面还是移动设备上。
🚀 功能亮点:多样化交互
它具有响应式设计、快速的性能响应、简便的安装过程、代码语法高亮、全面支持Markdown和LaTeX,以及可下载/删除模型等多种功能。
🌐 多模型支持:灵活切换
Ollama Web UI支持多种聊天模型,使用户能够轻松切换,体验多样化的交互。
🔧 实用工具:创造和自定义模型
它还包括Modelfile Builder,通过OllamaHub集成,用户可以轻松创建和自定义聊天元素。
🌍 开放集成:更广泛的应用
Ollama Web UI集成了OpenAI模型,提供多样化的对话体验,并支持后端反向代理,增强安全性。
github:ollama-webui/ollama-webui
URIAL:无需对齐也能对话LLM基础模型!
这里为大家介绍的是一种无需微调的LLM对齐方法,来自Al2 Mosaic团队的realign项目中的核心方法URIAL。
其作者Bill Yuchen Lin在x称,目前基础模型Mamba通过使用Urial,就能实现不需要对其进行对齐调整即可与模型交流了
以下是关于该项目和方法更详细的介绍:
🤖 项目介绍
Re-Align项目,由AI2开发,旨在通过上下文学习重新定义大型语言模型(LLMs)的对齐。这代表了AI领域的一大步。
🚀 特色技术:URIAL方法
Re-Align引入了URIAL(未调整的LLMs与重新风格化的上下文对齐),一种无需微调的对齐方法,有效提高AI模型的性能。
📈 实用性:多样化应用
URIAL通过策略性提示和ICL减少了无调整和有调整对齐方法之间的差距,使模型更加适用于多样化场景。
github:Re-Align/URIAL
Lobe Chat:超赞UI交互的免费开源聊天机器人框架
LobeChat是一个开源的高性能聊天机器人框架,它支持语音合成、多模态、可扩展的插件系统,以及一键免费部署(可做到1分钟内完成部署)私人ChatGPT/LLM网页应用程序。
特性一览
💬 视觉认知:创新互动
支持OpenAI的gpt-4-vision模型,具备视觉识别能力,可以通过图片进行智能对话。
🔊 TTS & STT:语音转换
提供文字转语音和语音转文字技术,多种声音选项供选择。
🔌 插件系统:灵活拓展
目前开放了时钟、爬虫、搜索引擎和实时天气四个官方插件。
🛒 助手市场:创意聚集地
一个充满活力和创新的社区,提供各种设计的聊天助手。
🌐 PWA技术:无缝体验
采用渐进式Web应用技术,提供近似原生应用的体验。
📱 移动设备优化
针对移动设备进行优化,提供流畅的用户体验。
🌓 主题模式选择
提供多种主题模式和颜色定制选项,满足不同用户需求。
github:lobehub/lobe-chat
CrewAI:让Agents灵活地协作吧!

CrewAI是一个基于 Python 的框架,专为构建和协调角色扮演、自治AI Agent而设计。它使得AI Agent能够承担不同的角色、共享目标,并像一个协调一致的团队一样运作。这个框架适用于多种场景,比如智能助手平台、自动化客户服务团队或多智能体研究团队。
CrewAI 的主要特点包括🤙
  • 👾基于角色的Agent设计:可以自定义Agent,赋予它们特定的角色和目标,从而使得它们在执行任务时更加专注和高效。

  • 🦾自主Agent间的委派:Agent可以自主地委派任务给其他Agent,或者在解决问题时相互咨询,从而提高解决问题的效率。

  • 📝灵活的任务管理:可以定义具有可定制工具的任务,并动态地分配给Agent。

  • 🗒️流程驱动:CrewAI 目前支持顺序任务执行,但也在开发更复杂的流程,如共识和层级流程。

  • 💻与 LangChain 兼容:CrewAI 基于 LangChain 构建,可以使用 LangChain 提供的所有现有公共工具。

CrewAI 的应用非常广泛,可以用于构建智能对话Agent、自动化数据分析和研究等多种复杂的多代理交互场景。通过CrewAI,开发者可以创建功能强大、协同工作的AI Agent团队,以实现各种复杂和创新的应用。
github:joaomdmoura/CrewAI
Distilabel:为LLM提供可扩展对齐服务

Distilabel是一个用于构建可扩展LLM(大型语言模型)对齐的AI反馈框架。它旨在辅助AI工程师通过RLHF(强化学习与人类反馈)相关方法来对LLM进行微调和适应。
❓Motivation:对于企业和生产使用,我们需要一个以健壮、高效和可扩展的方式实现关键AIF方法的框架。这个框架应该使AI工程师能够为他们自己的用例大规模构建定制数据集。Distilabel结合humans-in-the-loop以提高数据集质量,是OSS LLM模型的下一个重大飞跃。
🚀 关键特性:
  • 🤖该框架支持使用开源模型和API:transformers、OpenAI、Inference Endpoints、vLLM、llama.cpp等

  • 💻可扩展且灵活:可扩展的现有方法实现(例如UltraFeedback)。轻松扩展以构建和配置您自己的标记工具。

  • 🧑‍🦱Human-in-the-loop:通过一行代码与Argilla集成,以改进和修正数据集。


📊 实用案例: 
Distilabel为AI工程师提供工具来构建特定领域的指令数据集,以提高OSS LLM的准确性,并构建多样化的偏好数据集。
github:argilla-io/distilabel
资讯:OpenAI用GPT-2监督GPT-4,实现弱到强泛化
OpenAI在12月14日宣布提出了一个关于超级对齐的新研究方向,并展示了初步的有希望的结果:我们能否利用深度学习的泛化特性,用能力较弱的监督模型来控制能力较强的模型?
OpenAI的研究"弱到强的泛化"探讨了AI模型从弱监督到强模型的泛化能力。该研究聚焦于使用能力较弱的模型监督能力较强的模型,提出了实证研究这一概念的方法。实验结果显示,使用GPT-2作为弱监督来微调GPT-4可以显著提升泛化能力。这项工作为理解和控制强大的AI系统提供了新的研究方向。
并且为了在这一领域启动更多研究,OpenAI表示他们正在发布开源代码,使进行弱到强的泛化实验变得更加容易。他们正在启动一个1000万美元的研究基金项目,供研究生、学者和其他研究人员广泛研究超人类AI对齐。
官方链接:https://openai.com/blog/superalignment-fast-grants
资讯:OpenAI发布官方提示工程指南教程
OpenAI在官网发布了提示工程指南,并加以示例展示(一些示例目前仅适用于gpt-4),以帮助大家更好的使用ChatGPT。以下是本次的发布内容:
本指南分享了一些策略和方法,这里描述的方法也可以组合起来使用,以获得更佳效果。大家可以通过试验找到最适合自己需求的方法。
🤙六大提示策略概括如下
  • 🟢写清晰的指令:模型不能猜测你的想法。如果输出内容太长,你应要求简洁的回复。如果输出内容太简单,你应要求更专业的写作。如果你对格式不满意,应展示你期望的格式。模型对你的需求猜测得越少,你得到满意结果的可能性就越大。

  • 🟢提供参考文本:语言模型很容易在被问及深奥话题或需要引用和网址时编造虚假答案。正如笔记可以帮助学生在考试中取得更好的成绩,提供参考文本可以帮助模型减少虚构答案。

  • 🟢分解复杂任务:与软件工程中将复杂系统分解为模块化组件的做法相似,向语言模型提交的任务也应该是这样。复杂任务的错误率通常比简单任务高。而且,复杂任务通常可以重新定义为简单任务的工作流程,其中早期任务的输出用于构建后续任务的输入。

  • 🟢给模型时间“思考”:比如被问到17乘以28的结果,你可能不会立刻知道答案,但可以通过计算得出。同样,模型在立即回答时也会犯更多的错误。在给出答案之前,要求模型提供一个“思考过程”,可以帮助它更可靠地推导出正确的答案。

  • 🟢使用外部工具:利用其他工具的输出来弥补模型的不足。例如,文本检索系统可以告诉模型有关文档的信息。OpenAI的代码执行引擎可以帮助模型进行数学计算和代码运行。如果某项任务可以通过其他工具而不是语言模型来更可靠或高效地完成,那么就应该利用这些工具来获得最佳效果。

  • 🟢系统地测试变化:在某些情况下,对提示的修改可能会在一些问题上表现不错,但可能在其他问题上表现的不好。因此,为了确保一个变化对性能有实际的积极影响,可能需要定义一个全面的测试套件(也被称为“评估”)。


⭐️官方还给出了具体的示例和更详细的策略详见platform.openai.com/docs/guides/prompt-engineering

进微信群请加

CamelAIOrg

Github|github.com/camel-ai/camel
官网|www.camel-ai.org


CAMEL AI
这里是CAMEL-AI开源社区官方公众号,希望让更多的中文开发者们了解最新的Agent行业资讯和CAMEL-AI的更新与改进。
 最新文章