CAMEL-AI热门项目双周报主要介绍与LLM、AI Agents相关的热门项目与资讯,每两周更新一次。
往期推荐:
内容一览
Preview
知识梳理:OpenAI及ChatGPT发展线-截止至2024.2
Sora:OpenAI发布文生视频模型,可生成长达60s多镜头视频
Gemini1.5pro:谷歌AI模型升级,上下文突破100万
Galileo AI:文字、图片、线稿生成UI设计稿
V-IRL平台:具身智能体联合现实世界,在现实场景中接入AI
ImageFX:谷歌推出文生图模型,主打灵感激发
Nomic Embed:基准测试表现超过OpenAI并完全开源的嵌入模型
Code Llama 70b:Meta AI发布专用于代码生成的code llama家族最先进版本
FuseLLM:大语言模型的知识融合
Lumiere:谷歌AI视频生成,一次性生成5s视频
流信息提取技术 Streaming Partial Responses:帮助我们实时提取信息的工具
CodeQ AI:代码语义搜索和聊天,实时更新向量数据库
Pipedream:开发者的API集成工具
InseRF:谷歌新作,AI编辑3d场景生成新对象
GitChat:助你使用github的聊天机器人
🟢通过文本提示生成长达🎞️60s的视频; 🟢视频可具有多个角色🎭、特定运动🎳类型以及主题和背景🌄的准确细节的复杂场景,可用多个摄像机镜头📹表现。
🟡可能难以准确模拟复杂场景的物理,并且可能无法理解具体的因果实例。例如,一个人可能会咬一口饼干,但之后,饼干可能没有咬痕。 🟡可能混淆prompt的空间细节,例如,左右混合,并可能难以准确描述随着时间的推移而发生的事件,例如遵循特定的相机轨迹。
🥚Sora是一种扩散模型,从静态噪声视频开始生成,并逐步去除噪声来转换视频。 🐣它能一次性生成整个视频,或扩展视频长度,通过多帧预见性解决主体保持一致性的挑战。 🐥使用变压器架构,提高缩放性能,将视频和图像分解为小单元集合(补丁)进行训练,以支持不同持续时间、分辨率和宽高比的视觉数据。 🐤基于DALL·E和GPT模型研究,使用DALL·E 3的技术生成描述性字幕,使模型能更忠实于用户文本指令。 🐔除文本指令生成视频外,还能从静止图像生成视频或扩展现有视频,填补缺失帧。这是实现AGI的重要步骤。
🌈 极致性能:Gemini 1.5在保持与1.0 Ultra相当的质量的同时,显著降低了计算需求。 📘 长上下文理解:Gemini 1.5能够处理高达100万token的信息,创下大型基础模型中最长上下文窗口的纪录。
💡 MoE架构:Gemini 1.5采用Mixture-of-Experts(MoE)架构,通过小型“专家”神经网络的集成,大幅提升模型效率。 📚 跨模态理解:Gemini 1.5不仅在文本处理上表现出色,还能在视频等多模态内容上进行复杂的理解和推理。
🧩 多任务扩展:Gemini 1.5 Pro为多任务扩展提供了标准的128,000个token的上下文窗口,并开始向开发者和企业客户提供高达100万token的私人预览。1.5 Pro能够一次性处理大量信息——包括1小时的视频、11小时的音频、超过30,000行代码的代码库或超过700,000个单词。 🛠️ 性能增强:在文本、代码、图像、音频和视频评估中,Gemini 1.5 Pro在87%的基准测试中优于1.0 Pro,并与1.0 Ultra表现相当。
🔸界面类似ChatGPT 🔸支持文本、图片和线稿生成UI设计图 🔸可在一分钟内提供多个可供选择的设计风格
📍行动 & 地理定位/映射能力 Earthbound Agents:使用V-IRL平台的agent居住在全球真实城市的虚拟表示中。这种表示的核心是与地球表面的点相对应的地理坐标。通过这些地理坐标作为数字媒体和现实世界之间的联系,V-IRL agent使用API进行地图、真实街景图像、附近目的地信息等。 📖推理 & 语言模型 Language-Driven Agents:为了处理更复杂的任务,我们遵循语言驱动agent的模式。LLM使agent能够推理、计划和使用外部工具和API。 👁️感知 & 计算机视觉 Visually Grounded Agents:真实的感官输入对于日常人类活动至关重要,它使我们能够与周围的世界建立深刻的联系。通过V-IRL平台,agent能够利用街景图像直观地在现实世界中扎根,从而执行一系列广泛的感知驱动任务。 🫂Agent-{Agent, 人类}合作 Collaborative Agents:人类经常共同努力解决复杂的现实世界任务。这种合作通过将复杂的任务分解为更简单的子任务来提高效率和有效性,允许每个任务都由其领域的专家处理。
🔸谷歌强调,ImageFX的核心价值在于激发用户的创造力🧠:它有一个独特的提示界面🖥️(关键词界面),用户输入prompt后,系统会自动识别prompt中的每个关键词,并生成多个相关的扩展词。 🔸为了增加安全性,它还利用了DeepMind的SynthID水印技术,为输出图像嵌入数字水印⚛️,从而声明该图像是AI生成的,并且在提示词的过滤上下足了功夫:限制生成暴力、冒犯性、色情内容和“指明人物”的内容。
🟢开源,开放权重,开放数据,公开了235M精选文本对的训练数据集,允许任何人从头开始复制Nomic Embed 🟢在短文本和长文本基准测试上超过OpenAI的text-embedding-3-small和Ada模型 🟢集成了langchain、llama,MongoDB 🟢基于Flash Attention技术实现快速高效训练,并支持多GPU与大批量数据训练。
🔸使用Rotary Position Embeddings来允许上下文长度外推; 🔸使用SwiGLU激活,因为它已被证明可以提高模型性能; 🔸将 dropout设置为0。
🔹用Deepspeed和FlashAttention训练。 🔹以BF16精度训练 🔹将vocab大小增加到64的倍数 🔹以4096的批次规模进行训练 🔹在进行masked language model训练时,采用30%的mask rate而非15% 🔹不使用nsp的任务
Code Llama - Python:Python在代码生成方面的基准测试中最为常用。 Code Llama - Instruct:针对指令的细化版本,更擅长理解人类的预期指令,特别适用于生成有用和安全的自然语言回答
基础代码模型CodeLlama - 70B; 专注于Python的CodeLlama - 70B - Python; 以及为理解自然语言指令而微调的Code Llama - 70B - Instruct。
功能🧩 🎥 文本到视频:通过文本提示,Lumiere能生成展示真实动态的视频。 🌄 图像到视频:Lumiere还可以从静态图像创建动态视频。 🎨 风格化生成:利用单个参考图像,Lumiere能够以目标风格生成视频。 🌌 视频风格化:Lumiere使得基于文本的图像编辑方法可以用于一致的视频编辑。 🌀 电影图效果:Lumiere模型能够在特定用户提供区域内动画化图像内容。 🛠️ 视频修补:Lumiere提供视频修补功能,能够修复和完善视频内容。 官方介绍:https://lumiere-video.github.io/
✅您可以通过命令行界面(CLI)对代码库进行语义搜索或与之交互。 ✅保持向量数据库快速更新至最新的代码变更,确保100%本地化支持,避免任何数据泄露。 ✅此工具基于多种技术构建,包括langchain、treesitter、sentence-transformers、instructor-embedding、faiss、lama.cpp和Ollama。
🔎语义代码搜索 💬与代码库进行类似GPT的聊天交互 ⚙️轻松同步向量存储和最新的代码更改 💻使用100%本地化的嵌入式处理和LLMs,包括sentence-transformers、instructor-embeddings、llama.cpp和Ollama技术 🌐支持OpenAI和Azure OpenAI 🌳集成Treesitter(代码解构工具)
✅无服务器运行时和工作流服务。 ✅提供数百个集成应用的触发器和操作(支持新窗口打开)。 ✅超过1000个API的一键式OAuth和基于密钥的认证(可以直接在代码中使用令牌,或与预构建的操作结合使用)。
🟢工作流程:工作流程用于自动化操作,是由一系列步骤(预制动作或自定义的 Node.js、Python、Golang、Bash 代码)组成的序列,由事件触发。 🟢事件源:事件源用于触发工作流程。它们从诸如 GitHub、Slack、Airtable、RSS 等服务发出事件。 🟢动作:动作是可在工作流程中使用的预制代码步骤,用于在 Pipedream 的1000多个 API 集成中执行常见操作。 🟢自定义代码:大多数集成需要自定义逻辑。Pipedream 允许运行任何 Node.js、Python、Golang、Bash 代码。 🟢目的地:将事件异步传递到常见目的地,如 Amazon S3、Snowflake、HTTP 和电子邮件。
🔸连接 SaaS 应用 🔸一般 API 编排和自动化 🔸数据库自动化(可用于连接防火墙后的资源) 🔸自定义通知和警报 🔸JAMstack 后端服务 🔸限流、事件队列和并发管理 🔸Webhook 检查和路由 🔸演示
您可以利用这个聊天机器人来回答您对一个新仓库的疑问✅ 或者您可以将 GitChat 作为内部服务提供给一个组织,这样每个工程师都可以通过这个有用的聊天机器人来解答有关组织私有仓库的问题。✅
🟢用户界面使用 Vercel 的 Next.js AI 聊天机器人模板构建; 🟢集成了 Google 认证和 Auth.js; 🟢用户会话管理和聊天历史记录功能; 🟢聊天分享功能; 🟢支持深色/浅色模式切换。