AI热门项目分享-2024新年月报｜OpenAI发展时间轴梳理

文摘科技 2024-02-17 21:52 阿联酋

CAMEL-AI热门项目双周报主要介绍与LLM、AI Agents相关的热门项目与资讯，每两周更新一次。

往期推荐：

◆双周报第一期 ◆双周报第四期

◆双周报第二期

◆双周报第三期

内容一览

Preview

知识梳理：OpenAI及ChatGPT发展线-截止至2024.2
Sora：OpenAI发布文生视频模型，可生成长达60s多镜头视频
Gemini1.5pro：谷歌AI模型升级，上下文突破100万
Galileo AI：文字、图片、线稿生成UI设计稿
V-IRL平台：具身智能体联合现实世界，在现实场景中接入AI
ImageFX：谷歌推出文生图模型，主打灵感激发
Nomic Embed：基准测试表现超过OpenAI并完全开源的嵌入模型
Code Llama 70b：Meta AI发布专用于代码生成的code llama家族最先进版本
FuseLLM：大语言模型的知识融合
Lumiere：谷歌AI视频生成，一次性生成5s视频
流信息提取技术 Streaming Partial Responses：帮助我们实时提取信息的工具
CodeQ AI：代码语义搜索和聊天，实时更新向量数据库
Pipedream：开发者的API集成工具
InseRF：谷歌新作，AI编辑3d场景生成新对象
GitChat：助你使用github的聊天机器人

知识梳理：OpenAI及ChatGPT发展过程

Sora：OpenAI发布文生视频模型，可生成长达60s多镜头视频

在谷歌发布Gemini1.5pro后的当天（2.15），OpenAI发布了令人惊叹的文本转视频🎥模型：Sora。

💡核心特点：

🟢通过文本提示生成长达🎞️60s的视频；
🟢视频可具有多个角色🎭、特定运动🎳类型以及主题和背景🌄的准确细节的复杂场景，可用多个摄像机镜头📹表现。

🚀目标：

教授人工智能理解和模拟运动中的物理世界，训练模型来帮助人们解决需要现实世界互动的问题。

🤦‍♀️弱点：

🟡可能难以准确模拟复杂场景的物理，并且可能无法理解具体的因果实例。例如，一个人可能会咬一口饼干，但之后，饼干可能没有咬痕。
🟡可能混淆prompt的空间细节，例如，左右混合，并可能难以准确描述随着时间的推移而发生的事件，例如遵循特定的相机轨迹。

🛠️ 技术亮点及原理：

🥚Sora是一种扩散模型，从静态噪声视频开始生成，并逐步去除噪声来转换视频。
🐣它能一次性生成整个视频，或扩展视频长度，通过多帧预见性解决主体保持一致性的挑战。
🐥使用变压器架构，提高缩放性能，将视频和图像分解为小单元集合（补丁）进行训练，以支持不同持续时间、分辨率和宽高比的视觉数据。
🐤基于DALL·E和GPT模型研究，使用DALL·E 3的技术生成描述性字幕，使模型能更忠实于用户文本指令。
🐔除文本指令生成视频外，还能从静止图像生成视频或扩展现有视频，填补缺失帧。这是实现AGI的重要步骤。

官方blog：https://openai.com/sora

技术报告：https://openai.com/research/video-generation-models-as-world-simulators

Gemini1.5pro：谷歌AI模型升级，上下文突破100万

谷歌于2.15发布了Gemini1.5模型，它在上下文长度实现了突破，处理能力创纪录的高达100万token。Gemini在多模态内容上可以进行细节的理解和复杂的推理，其能力超过目前的其他模型。

🎯 技术亮点：

🌈 极致性能：Gemini 1.5在保持与1.0 Ultra相当的质量的同时，显著降低了计算需求。
📘 长上下文理解：Gemini 1.5能够处理高达100万token的信息，创下大型基础模型中最长上下文窗口的纪录。

🌍 创新架构：

💡 MoE架构：Gemini 1.5采用Mixture-of-Experts（MoE）架构，通过小型“专家”神经网络的集成，大幅提升模型效率。
📚 跨模态理解：Gemini 1.5不仅在文本处理上表现出色，还能在视频等多模态内容上进行复杂的理解和推理。

🚀 应用前景：

🧩 多任务扩展：Gemini 1.5 Pro为多任务扩展提供了标准的128,000个token的上下文窗口，并开始向开发者和企业客户提供高达100万token的私人预览。1.5 Pro能够一次性处理大量信息——包括1小时的视频、11小时的音频、超过30,000行代码的代码库或超过700,000个单词。
🛠️ 性能增强：在文本、代码、图像、音频和视频评估中，Gemini 1.5 Pro在87%的基准测试中优于1.0 Pro，并与1.0 Ultra表现相当。

官方blog：https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024

Galileo AI：文字、图片、线稿生成UI设计稿

Galileo AI是一个自动生成UI设计稿的“UI设计版ChatGPT”：，它支持文本、图片和线稿生成UI设计图，生成后可以直接导出Figma使用。

🧠产品核心信念：人工智能将增强设计师的创造力和生产力，而不是取代他们。

🦾难点克服：构建一个专门从事设计的AI是一个巨大的挑战，因为语言模型根本无法理解界面设计的微妙之处。为了解决这个问题，我们使用最新的AI技术和行业标准的设计原则来训练一个语言模型，使其在界面设计方面变得熟练。

🎨 如何运作：类似于界面设计的ChatGPT，用户可以输入设计提示，系统在一分钟内提供多个视觉布局选项，极大简化和加速设计过程。

✨特点总结

🔸界面类似ChatGPT
🔸支持文本、图片和线稿生成UI设计图
🔸可在一分钟内提供多个可供选择的设计风格

试试看：useGalileo.ai

V-IRL平台：具身智能体联合现实世界，在现实场景中接入AI

V-IRL是一个神奇的开源框架，这是一个可扩展的平台，可以帮助我们在现实生活各个场景中接入AI。它用于具身智能Agent和开放世界计算机视觉研究，通过实地地理数据和街景图像将AI植根于真实世界的城市中，为全球范围内的Agent和开放世界计算机视觉研究提供实践场所。

🧠工作原理：它利用地图、地理空间和街景图像API，将Agent嵌入到地球上的真实城市中。

官方通过一系列案例来展示其四个🦾特定能力：（详见下面官网链接）

📍行动 & 地理定位/映射能力 Earthbound Agents：使用V-IRL平台的agent居住在全球真实城市的虚拟表示中。这种表示的核心是与地球表面的点相对应的地理坐标。通过这些地理坐标作为数字媒体和现实世界之间的联系，V-IRL agent使用API进行地图、真实街景图像、附近目的地信息等。
📖推理 & 语言模型 Language-Driven Agents：为了处理更复杂的任务，我们遵循语言驱动agent的模式。LLM使agent能够推理、计划和使用外部工具和API。
👁️感知 & 计算机视觉 Visually Grounded Agents：真实的感官输入对于日常人类活动至关重要，它使我们能够与周围的世界建立深刻的联系。通过V-IRL平台，agent能够利用街景图像直观地在现实世界中扎根，从而执行一系列广泛的感知驱动任务。
🫂Agent-{Agent, 人类}合作 Collaborative Agents：人类经常共同努力解决复杂的现实世界任务。这种合作通过将复杂的任务分解为更简单的子任务来提高效率和有效性，允许每个任务都由其领域的专家处理。

📊V-IRL基准：研发团队开发了三个V-IRL基准，以评估现有愿景模型在此类开放世界数据分发中的能力：V-IRL地点、V-IRL视觉语言导航和地理多样性

github：https://github.com/VIRL-Platform/VIRL

官网（有许多案例呈现）：https://virl-platform.github.io

ImageFX：谷歌推出文生图模型，主打灵感激发

谷歌推出的ImageFX，是一个可提供迄今为止最高质量图像的文生图模型，在Imagen2技术基础上开发完成。

💡ImageFX的独特之处（如视频）

🔸谷歌强调，ImageFX的核心价值在于激发用户的创造力🧠：它有一个独特的提示界面🖥️（关键词界面），用户输入prompt后，系统会自动识别prompt中的每个关键词，并生成多个相关的扩展词。
🔸为了增加安全性，它还利用了DeepMind的SynthID水印技术，为输出图像嵌入数字水印⚛️，从而声明该图像是AI生成的，并且在提示词的过滤上下足了功夫：限制生成暴力、冒犯性、色情内容和“指明人物”的内容。

体验地址：https://aitestkitchen.withgoogle.com/tools/image-fx

Nomic Embed：基准测试表现超过OpenAI并完全开源的嵌入模型

Nomic AI推出的 Nomic Embed是第一个完全开源并且超越OpenAI的嵌入模型，处理上下文长度达到8192。

✨特点：

🟢开源，开放权重，开放数据，公开了235M精选文本对的训练数据集，允许任何人从头开始复制Nomic Embed
🟢在短文本和长文本基准测试上超过OpenAI的text-embedding-3-small和Ada模型
🟢集成了langchain、llama，MongoDB
🟢基于Flash Attention技术实现快速高效训练，并支持多GPU与大批量数据训练。

⚒️基于BERT的训练改动：

🔸使用Rotary Position Embeddings来允许上下文长度外推；
🔸使用SwiGLU激活，因为它已被证明可以提高模型性能；
🔸将 dropout设置为0。

♻️训练优化：

🔹用Deepspeed和FlashAttention训练。
🔹以BF16精度训练
🔹将vocab大小增加到64的倍数
🔹以4096的批次规模进行训练
🔹在进行masked language model训练时，采用30%的mask rate而非15%
🔹不使用nsp的任务

抱抱脸：https://huggingface.co/nomic-ai/nomic-embed-text-v1

官方blog：https://blog.nomic.ai/posts/nomic-embed-text-v1

训练代码开源数据：https://github.com/nomic-ai/contrastors

Code Llama 70b：Meta AI发布专用于代码生成的code llama家族最先进版本

Meta AI最近发布推出Code Llama 70B，它是代码生成大模型Code Llama目前的最先进版本，参数量达到70B。

以下是Code Llama及其更新的70b版本的介绍：

Code Llama

🔸Code Llama是一个由Meta发布的专用于代码生成的LLM，它在Llama 2的基础上增强了编码能力，能够从代码和自然语言提示生成代码和有关代码的自然语言。

🔸Code Llama有两个额外的细化版本：

Code Llama - Python：Python在代码生成方面的基准测试中最为常用。
Code Llama - Instruct：针对指令的细化版本，更擅长理解人类的预期指令，特别适用于生成有用和安全的自然语言回答

✨1.29更新：Code Llama 70B

🟢Code Llama 70B是Code Llama系列中最大、性能最佳的模型，包含三个版本：

基础代码模型CodeLlama - 70B；
专注于Python的CodeLlama - 70B - Python；
以及为理解自然语言指令而微调的Code Llama - 70B - Instruct。

这些模型均可免费用于研究和商业用途。

官方介绍：https://ai.meta.com/blog/code-llama-large-language-model-coding/

github:https://github.com/facebookresearch/codellama

FuseLLM：大语言模型的知识融合

FuseLLM是一个融合了不同架构（Llama-2-7B, OpenLLaMA-7B, 和 MPT-7B）的LLM的开源模型，这个工作来自中山大学和腾讯 AI Lab 的研究人员，他们通过结合多个预训练LLMs，打造了这个性能更强的新模型！目前该论文已被ICLR 2024接受。

💁‍♂️方法特点

它与传统的需要并行部署多个LLM的模型集成方法或仅限于相同架构LLM的权重合并技术不同。FuseLLM的目标是将具有不同架构的多个LLM融合成一个更强大的模型，通过显式转移它们的知识和能力到单一目标LLM，为LLMs的知识融合提供了一个强大而灵活的解决方案。

🧠评估结果

FuseLLM的评估包括多个领域：通用推理与常识推理能力、代码生成与文本生成、指令遵循，评估结果显示他们的方法比基础模型（如Llama-2）在27个任务上高出5%，这是通过组合模型取得的显著进步！

github:https://github.com/fanqiwan/FuseLLM

Lumiere：谷歌AI视频生成，一次性生成5s视频

谷歌发布了其视频生成AI模型：Lumiere，它可以一次性实现长达5s的连贯视频生成。🤙

💬简介：

Lumiere是一个由Google Research开发的先进的视频生成模型，它使用文本和图像作为输入来创造真实、多样化且连贯的动态视频。这个模型展示了多种视频编辑应用，包括从文本和图像到视频的转换、视频修复和风格化生成。

Lumiere的独特之处在于它的时空U-Net架构，可以通过一次模型传递来一次性生成整个视频的时间长度，从而实现全球范围内时间上的一致性。这个模型还提供了一系列的视频编辑示例，如风格化视频编辑、电影图效果以及视频修补。

功能🧩
🎥 文本到视频：通过文本提示，Lumiere能生成展示真实动态的视频。
🌄 图像到视频：Lumiere还可以从静态图像创建动态视频。
🎨 风格化生成：利用单个参考图像，Lumiere能够以目标风格生成视频。
🌌 视频风格化：Lumiere使得基于文本的图像编辑方法可以用于一致的视频编辑。
🌀 电影图效果：Lumiere模型能够在特定用户提供区域内动画化图像内容。
🛠️ 视频修补：Lumiere提供视频修补功能，能够修复和完善视频内容。
官方介绍：https://lumiere-video.github.io/

流信息提取技术 Streaming Partial Responses：帮助我们实时提取信息的工具

Streaming Partial Responses：一个信息的流提取工具——它来自一个基于Typescript进行结构化信息提取的库Instructor.js的核心功能。

作者介绍它在OpenAI和pydantic的基础上开发完成，并使用一段会议信息摘录作为用例说明向大家展示其流信息的提取能力。（如图）

您可以在其项目的github【instructor-ai/instructor-js】中找到此功能：instructor-js/examples/extract_user_stream/index.ts

官方介绍：jxnl.github.io/instructor/concepts/field_streaming/

CodeQ AI：代码语义搜索和聊天，实时更新向量数据库

CodeQ AI是一个基于向量嵌入和LLMs的语义代码搜索和聊天系统。

功能介绍

✅您可以通过命令行界面（CLI）对代码库进行语义搜索或与之交互。
✅保持向量数据库快速更新至最新的代码变更，确保100%本地化支持，避免任何数据泄露。
✅此工具基于多种技术构建，包括langchain、treesitter、sentence-transformers、instructor-embedding、faiss、lama.cpp和Ollama。

特征

🔎语义代码搜索
💬与代码库进行类似GPT的聊天交互
⚙️轻松同步向量存储和最新的代码更改
💻使用100%本地化的嵌入式处理和LLMs，包括sentence-transformers、instructor-embeddings、llama.cpp和Ollama技术
🌐支持OpenAI和Azure OpenAI
🌳集成Treesitter（代码解构工具）

github：fynnfluegge/codeqai

Pipedream：开发者的API集成工具

今天为大家介绍一个API集成工具-pipedream，它可以为开发者省去编写规范化代码的工作，帮你自动化的连接各种API，使工作更加高效。👏

💬简介

Pipedream 是实现连接 API 自动化流程的最快方式。它允许在需要时进行代码级控制的工作流构建和运行，同时也支持无代码操作。🤙

🧩Pipedream 平台包括：

✅无服务器运行时和工作流服务。
✅提供数百个集成应用的触发器和操作（支持新窗口打开）。
✅超过1000个API的一键式OAuth和基于密钥的认证（可以直接在代码中使用令牌，或与预构建的操作结合使用）。

🔗工作流程和原理

🟢工作流程：工作流程用于自动化操作，是由一系列步骤（预制动作或自定义的 Node.js、Python、Golang、Bash 代码）组成的序列，由事件触发。
🟢事件源：事件源用于触发工作流程。它们从诸如 GitHub、Slack、Airtable、RSS 等服务发出事件。
🟢动作：动作是可在工作流程中使用的预制代码步骤，用于在 Pipedream 的1000多个 API 集成中执行常见操作。
🟢自定义代码：大多数集成需要自定义逻辑。Pipedream 允许运行任何 Node.js、Python、Golang、Bash 代码。
🟢目的地：将事件异步传递到常见目的地，如 Amazon S3、Snowflake、HTTP 和电子邮件。

👨‍💻应用

🔸连接 SaaS 应用
🔸一般 API 编排和自动化
🔸数据库自动化（可用于连接防火墙后的资源）
🔸自定义通知和警报
🔸JAMstack 后端服务
🔸限流、事件队列和并发管理
🔸Webhook 检查和路由
🔸演示

github:https://github.com/PipedreamHQ/pipedream

官网：https://pipedream.com

InseRF：谷歌新作，AI编辑3d场景生成新对象

InseRF是一个在NeRF重建的3d场景中进行AI编辑的新技术——可以直接在场景中插入新的对象！

🚀 InseRF项目简介

InseRF是一个领先的3D场景编辑工具，能够根据文字描述在NeRF重建的3D场景中生成物体。

🔍 InseRF是如何工作的？

它通过一个2D边界框和单个参考视图中的简单文本提示（如视频），巧妙地生成2D编辑内容，进而转换成3D模型，无缝集成到场景中。

🎨 应用：

InseRF能在原始场景中添加多种物体，如Panettone、蝴蝶、蒲团等，展示了其多样化的编辑能力。

💁‍♂️官方版本摘要

我们介绍了InseRF，这是一种在3D场景的NeRF重建中插入生成对象的新方法。基于用户提供的文本描述和参考视点中的2D边界框，InseRF在3D场景中生成新对象。最近，由于在3D生成建模中使用了强大的文本到图像扩散模型，3D场景编辑方法发生了深刻的转变。现有方法主要用于通过样式和外观更改或删除现有对象来编辑3D场景。然而，生成新对象仍然是此类方法的挑战，我们在本研究中对此进行了讨论。具体来说，我们建议在场景的参考视图中将3D对象插入接地到2D对象插入。然后，使用单视图对象重建方法将2D编辑提升到3D。然后，在单目深度估计方法的先验的指导下，将重建的物体插入到场景中。我们在各种3D场景上评估我们的方法，并对拟议的组件进行深入分析。我们在几个3D场景中生成插入对象的实验表明，与现有方法相比，我们的方法的有效性。InseRF能够进行可控和3D一致的对象插入，而无需显式的3D信息作为输入。

项目介绍：https://mohamad-shahbazi.github.io/inserf/

GitChat：助你使用github的聊天机器人

介绍GitChat💬是一个聊天机器人🤖，能够搜索🔍和回答有关GitHub存储库的问题。

🪫GitChat 创新性地将代码版本管理与即时通讯结合起来，让开发者能够直接通过聊天界面管理 git 仓库。这个项目使用 TypeScript 为主要开发语言，结合了 JavaScript、CSS 和 Nix 的技术栈，展示了如何将传统的代码管理工具转化为更互动、更友好的平台。

🕹️使用情景（如图）

您可以利用这个聊天机器人来回答您对一个新仓库的疑问✅
或者您可以将 GitChat 作为内部服务提供给一个组织，这样每个工程师都可以通过这个有用的聊天机器人来解答有关组织私有仓库的问题。✅

⚜️特性

🟢用户界面使用 Vercel 的 Next.js AI 聊天机器人模板构建；
🟢集成了 Google 认证和 Auth.js；
🟢用户会话管理和聊天历史记录功能；
🟢聊天分享功能；
🟢支持深色/浅色模式切换。

github：https://github.com/kpolley/GitChat

体验地址：https://gitchat.kpolley.com

进微信群请加

CamelAIOrg

Github｜github.com/camel-ai/camel

官网｜www.camel-ai.org

CAMEL AI

这里是CAMEL-AI开源社区官方公众号，希望让更多的中文开发者们了解最新的Agent行业资讯和CAMEL-AI的更新与改进。