AI热门项目分享-双周报第一期

文摘   2023-12-06 09:00   安徽  

CAMEL-AI热门项目双周报主要介绍与LLM、AI Agents相关的热门项目与资讯,两周更新一次。

GPT Crawler:帮你更方便构建GPTs
这个项目通过爬取指定的网址并将其内容作为GPT的知识库,从而生成定制化的GPT模型。您可以将这个GPT分享出去,或者将其作为定制助手集成到您的网站和app中~
🌟项目优势:
开发者以其组织为例,创建了一个基于Builder文档站点、论坛和GitHub上的示例项目的定制GPT,现在它能够回答关于将Builder.io集成到您的网站或应用中的详细问题,并提供代码片段。您可以在这里尝试(目前需要付费的ChatGPT计划)。
  • 开发者希望通过使他们的文档站点互动,人们可以更简单地通过聊天界面找到他们正在寻找的答案。

  • 这不仅有助于提高可发现性,节省人们寻找特定文档的时间,而且还可以个性化结果,因此即使是最深奥的问题也能得到回答。

  • 这种方法几乎可以应用于任何事物,以从网络上的任何资源创建具有最新信息的定制机器人。

github: BuilderIO/gpt-crawler
Emu:Meta生成AI新技术
在今年的Meta Connect上,Meta宣布了几项新的发展,包括他们的首个图像生成基础模型-Emu。Emu的技术支持了Meta许多生成型AI体验,包括一些AI图像编辑工具,用于Instagram,允许你拍摄照片并改变其视觉风格或背景,以及Meta AI内的Imagine功能,让你直接在消息中或跨我们的应用家族的群聊中生成逼真的图像。
日前,Meta宣布了基于文本指令的受控图像编辑基于扩散模型的文本到视频生成方法的新研究:
🚀 Emu Video:高质量视频生成的简易方法
Emu Video使用Emu模型,提出了一种基于扩散模型的文本到视频生成的简单方法。这是一个统一的视频生成架构,可以响应各种输入:仅文本、仅图像,以及文本和图像结合。通过将过程分为两步:首先基于文本提示生成图像,然后基于文本和生成的图像生成视频,这种“分解”的视频生成方法使我们能够高效地训练视频生成模型。这种方法的实施通过单个扩散模型就可以完成,并且采用了关键的设计决策,例如调整视频扩散的噪声时间表和多阶段训练,允许直接生成高分辨率的视频。
🎨 Emu Edit:通过识别和生成任务进行精确的图像编辑
Emu Edit是一种新颖的方法,旨在简化各种图像操纵任务,并为图像编辑带来增强的能力和精度。它能够通过指令进行自由形式的编辑,涵盖局部和全局编辑、添加和移除背景、颜色和几何变换、检测和分割等任务。与许多当今的生成AI模型不同,Emu Edit精确遵循指令,确保与指令无关的输入图像中的像素保持不变。例如向棒球帽添加文字时,帽子本身应保持不变。通过在图像生成模型中融合计算机视觉任务作为指令,Meta在图像生成和编辑方面提供了前所未有的先进结果。
虽然Emu Video、Emu Edit以及类似的新技术肯定无法取代专业艺术家和动画师,但它们可能帮助人们以新的方式表达自己:想象一下,生成你自己的动画贴纸或巧妙的GIF,即时发送到群聊中,而不是必须搜索完美的媒体来回复;或者编辑你自己的照片和图像,无需技术技能;或者通过为静态照片添加动画来增强你的Instagram帖子;或者生成全新的东西。

Stable Video Diffusion:基于Stable Diffusion的视频生成基础模型
Stability AI最近推出了Stable Video Diffusion,这是基于图像模型Stable Diffusion的首个基础模型,专门用于生成视频。这个先进的生成型AI视频模型代表了Stability AI向为所有类型的用户创建模型的重要一步。现在该模型以研究预览版的形式提供,其代码已在GitHub上公开,并且运行模型所需的权重可在Hugging Face页面找到。
🎨 多功能应用适配:
这个视频模型可以轻松适应多种下游任务,包括从单张图像出发,经过多视角数据集微调的多视角合成。研究团队计划开发一系列建立在这个基础上并扩展其功能的模型,类似于围绕Stable Diffusion构建的生态系统。
🔍 实用接口即将上线:
此外,大家现在可以注册他们的等待名单,以访问即将推出的、具有文本到视频接口的新网络体验。这个工具展示了Stable Video Diffusion在广告、教育、娱乐等多个领域的实际应用。
💡 性能竞争力:
Stable Video Diffusion以两种图像到视频模型的形式发布,能够在3到30帧每秒的可自定义帧率下生成14到25帧。在基础版本发布时,通过外部评估,研究团队发现这些模型在用户偏好研究中超越了领先的封闭模型。
github: Stability-AI/generative-models
抱抱脸:stabilityai/stable-video-diffusion-img2vid-xt
Replit Core:一键式AI开发
今天向大家介绍的是Replit推出的Replit Core,它专为软件创造者服务,提供端到端的体验计划。Replit是一个软件构建者社区,任何人都可以在这里创造和学习,实现从一个idea到软件开发的完成。
所以,通过Replit Core,你可以得到什么
一、访问高级Replit AI功能
  • 使用Replit行业领先的AI编码助手(目前由GPT-4驱动)节省时间,更快编码。

  • 一键调试代码,获得智能自动完成建议,并一键将自然语言转换为代码


二、安全的升级版工作空间
  • 高性能8 GiB RAM和4 vCPU的云开发环境,提供升级选项。
  • 丰富的计算资源,用于构建强大的应用程序、训练机器学习模型和更密集的工作负载。
  • 慷慨的网络带宽(100 GiB)和存储空间(50 GiB),确保资源充足。
  • 额外的安全功能,如SSH访问和私有Repls以控制共享。

三、一键部署和按需扩展
  • 静态和自动扩展部署,每月6百万计算单位配额,可覆盖约10个项目。
  • 分析工具,监控应用并在不超支的情况下调整容量。
四、优先支持和社区活动
  • 提供专门的1对1支持,确保在需要时得到帮助。
  • 访问仅限会员的活动,提前体验新功能,加入独家会员社区。


五、成为合作伙伴还有特权服务,详情可以在其官网或其X查阅~
Towhee:使用ETL管道处理多种非结构化数据的开源项目
🧩 Towhee是什么?
Towhee是一个提供ETL(提取、转换、加载)功能的框架,专门处理使用SoTA(最先进)机器学习模型的非结构化数据。非结构化数据是指无法以表格或键值对格式存储的数据,几乎所有人类生成的数据(如图片、视频、文本等)都是非结构化数据。
为实现处理多种非结构化数据的目标,开发者在流行的机器学习和非结构化数据处理库(如torch、timm、transformers等)之上构建了Towhee,不同库中的模型或函数被包装为标准的Towhee操作符,并可以通过Pythonic API自由集成到面向应用的管道中。
🤖 Towhee解决的问题:
现代机器学习应用需要的远不止一个神经网络。在生产中运行现代机器学习应用需要结合在线预处理、数据转换、模型本身和其他机器学习相关工具。Towhee通过重新引入以应用为中心(而非模型为中心)的Pipeline概念来解决这个问题。在Towhee中,每个数据处理步骤都非常重要。此外,Towhee还提供了一个Pythonic API,用于开发更复杂的应用程序,仅需几行代码。
💡 设计理念:
  • 便利性:Towhee管道可以创建以实现多种数据转换任务。任何管道创建或嵌入任务都可以在不超过10行代码内完成。

  • 可扩展性:个别操作符有标准接口,并可在不同管道中重新配置/重用。管道可以部署在任何你想要的地方——在本地机器、带有4个GPU的服务器或甚至云端。

  • 面向应用:Towhee不仅是另一个模型中心,还提供完整的端到端嵌入管道。每个管道可以使用任意数量的机器学习模型或Python函数,以各种配置——集成、流程或任意组合。


github:towhee-io/towhee
白板应用tldraw:在白板上画逻辑图之后就能生成对应的各种网页样式
tldraw现在接入了GPT-4V和其他API能力:
  • 您可以使用Tldraw React组件在应用中嵌入功能完整且可扩展的白板。

  • 对于多人白板,您可以将该组件插入您选择的协作后端。

  • 您可以使用Editor API创建、更新和删除形状,控制摄像头,或执行其他操作。您可以用自己的自定义形状和工具扩展tldraw。tldraw的用户界面重写功能允许您更改菜单和工具栏的内容,或者隐藏UI并用您自己的界面替换。

  • 如果您想更深入,可以使用TldrawEditor组件作为一个更简化的引擎,而非默认的tldraw形状或用户界面。


github:tldraw/tldraw
大家还可以关注tldraw的X,有各种生成的网页样式案例,还有有趣的小游戏!
Imagica:不需要代码就能构建各类AI应用的工具
Imagica是一个由AI驱动的思维工具,它简化并增强了构建和分享数字内容(包括AI应用)的过程。其核心功能是将任何想法通过生成型AI扩展。使用AI构建块,您可以在想法上不断构建,直到拥有一个量身定制的模块化、可重新构造的工具。最棒的是咱们甚至无需学习如何编码,只需要输入你的想法就可以实现构建AI应用。
🤖 平台如何工作?(可观看视频案例~)
Imagica像我们思维的延伸一样,允许企业和个人以思维的速度创造。使用大型语言模型和生成型AI,Imagica可以帮助您创建强大的AI驱动应用,这些应用能够理解和与用户互动。从定制模型到天气应用和课程计划,Imagica允许您将想法从概念变为功能产品。就像用积木搭建一样,但使用Imagica,您可以用自己的创意想法打造个性化工具,而无需任何编码过程。
“自操作电脑框架”(Self-Operating Computer Framework)——电脑界的“自动驾驶汽车”
“自操作电脑框架”(Self-Operating Computer Framework)由OthersideAI开发人员Josh Bickett构想,目前已在github上开源。
🌟项目的神奇之处
Bickett表示,这个框架让AI控制鼠标点击的位置和所有的键盘触发器。它就像一个Agent🦾,就像autoGPT一样,但它不是基于文本✍️的。它是基于视觉👁️的,所以它拍摄电脑的截图🌃,然后决定鼠标点击和键盘输入,就像一个人💁‍♂️一样。
👏关键特性
  • 兼容性:设计适用于多种多模态模型。

  • 集成:目前已与GPT-4v集成作为默认模型。

  • 未来计划:支持额外的模型。


🧠关键挑战
研究人员意识到,对于某些操作系统功能,使用快捷键(比如用command + L来打开浏览器地址栏)可能比模拟准确的鼠标点击位置更高效。随着时间的推移,研究人员计划对此进行改进。但需要强调的是,很多动作都依赖于精确选取屏幕上的视觉元素,因此精确的XY鼠标点击位置非常关键🤏。提高这些点击位置准确度是此项目的主要焦点。他们认为,这对于在现有技术环境中实现完全自主操作的电脑是至关重要的。
github:OthersideAI/self-operating-computer
Pitch2.0:AI生成PPT
👾项目介绍:
Pitch是一个创新的演示文稿平台,旨在为团队提供创建、协作、交付和分析演示文稿的全面解决方案。Pitch 2.0版本在原有基础上进一步扩展了功能,包括AI驱动的演示文稿生成器、演示分析、个性化录制和多个应用集成,如Slack和Notion。此外,Pitch 2.0还推出了全新的用户界面和多种订阅计划,以满足不同用户的需求,从个人到专业团队都能找到合适的方案。
🌟以下是2.0版本的升级特性:
💻 AI驱动的创作过程:
Pitch 2.0引入了AI演示文稿生成器,将创作过程提升到新的层次。只需输入提示,选择色彩调色板和字体,即可在几秒钟内填充空白幻灯片,提供主题特定的结构、内容和布局。
📊 先进的演示分析:
Pitch 2.0革新了分享过程,引入了演示分析功能,用户可以创建分析链接,邀请他人协作,或将演示文稿导出为PDF文件。新的链接概览页面让用户能够在一个地方管理所有外联,快速分享链接,控制访问权限,或跟踪每个演示文稿的参与情况。
🎨 令人惊叹的视觉效果:
Pitch 2.0增加了动画效果,如“连续性”滑动过渡,让相关内容从一个幻灯片到另一个幻灯片动态过渡,增强演示的流畅性。
🌍 分享您的创意视野:
Pitch的用户界面进行了全面刷新,从全新图标到直观按钮、明亮的渐变色和更易于导航的菜单。新增的复制按钮允许用户在会议、课程或创意爆发后,选择将演示文稿公开分享。
📈 适合每种团队的新计划:
Pitch 2.0推出了新的套餐,更好地匹配团队获得的价值。免费计划适合个人和小团队,而Pro计划则是为需要交付专业演示文稿和与他人协作的人的最佳计划。
Leap Workflows:集成了各种LLM工具并实现自动化来简化工作流程
Leap Workflows是为自动化专业任务或应用程序构建一整套工作流程的AI后端。无论是设计、测试、监控还是部署,Leap Workflows都能让你在几分钟内完成,前所未有地简化你的工作流程。尤其是对于销售、市场营销、产品和增长领域的专业人士来说,这个平台提供了提高效率和生产力的绝佳机会。
🌐 对于想要构建复杂AI工作流的专业人士:
Leap Workflows的一个突出特点是将原先分散的服务集成成一个无缝的体验。这种集成提供了更强大的工具套件,包括Leap SDKs、GPT、Llama-2、Whisper等,为专业人士提高他们在各自角色中的效率和生产力
🚀 对于想要迅速起步的用户:
Leap Workflows提供了一项从模板快速启动的功能。这使你能够在几分钟内构建端到端的文档摘要工作流、SEO自动化、带SDXL微调的资产和媒体生成等。
🔮即将推出的功能:
对顶级模型的进一步支持、数据抓取的新服务、版本管道以及额外的模板。

进微信群请加

CamelAIOrg

Github|github.com/camel-ai/camel

官网|www.camel-ai.org


CAMEL AI
这里是CAMEL-AI开源社区官方公众号,希望让更多的中文开发者们了解最新的Agent行业资讯和CAMEL-AI的更新与改进。
 最新文章