Chris 花了一整晚,把 2024 年 10 月份比较热门的 AI 新闻重新回顾了下,精选 36 条比较有意义的内容分享给大家,每条资讯会包含官网、介绍、参考资料等链接。
本来文章昨天已经发布,但是今天又有一些新内容,因此补充了下重新发,也免费了。
手已麻,键盘已冒烟,求个点赞、收藏和转发~
内容较多,大家可以按需要阅读:
🌈 2024 诺贝尔奖 🍭 OpenAI 相关 🔥 Github Copilot 相关 🌍 Claude 相关 💻 豆包 AI 相关 🎇 Kimi AI 相关 🚗 智谱 AI 相关 🌸 讯飞 AI 相关 📖 更多 AI 产品内容
🌈 2024 诺贝尔奖
1.物理学奖授予 Geoffrey Hinton、John Hopfield
2024 年诺贝尔物理学奖授予了 John J. Hopfield 和 Geoffrey E. Hinton,以表彰他们在人工神经网络和机器学习领域的重大贡献。他们的工作不仅推动了科学研究,还彻底改变了科学、工程和日常生活。
Geoffrey Hinton 的主要贡献和价值:
反向传播算法: 与他人共同发表的论文介绍反向传播算法,对训练多层神经网络至关重要。 深度学习理论: 对神经网络研究的其他贡献包括玻尔兹曼机器、分布式表示、时滞神经网络等。 AlexNet 设计: 与学生合作设计卷积神经网络 AlexNet 大幅降低视觉识别错误率,成为计算机视觉领域的里程碑。 胶囊网络: 提出胶囊网络(CapsNet)作为 CNN 模型的替代,增强对不良数据的适应力和仿射变换的适应性。 学术影响: 培养众多知名学者,对深度学习领域产生深远学术影响。
John Hopfield 的主要贡献和价值:
Hopfield 网络: 提出 Hopfield 网络,引入二值神经元和能量函数,开启大脑计算过程的研究。 计算神经科学: 推动了计算神经科学的发展,解释了大规模处理如何在存储网络中实现稳定的记忆。 跨学科研究: 职业生涯覆盖物理学、生物物理学和神经科学领域,促进了跨学科研究的发展。 分子生物学校对: 与雅克・尼尼奥同时引入了分子生物学校对的概念,对生物物理学领域有重要影响。
2.化学奖授予 Demis Hassabis 等人
2024 年诺贝尔化学奖授予了 David Baker、Demis Hassabis 和 John M. Jumper,以表彰他们在“计算蛋白质设计”和“蛋白质结构预测”领域的杰出贡献。他们的工作通过 AI 技术破解了蛋白质结构的密码,为科学界提供了前所未有的工具,以理解和利用生命的化学基础。
David Baker 主要贡献:
成功构建了全新的蛋白质种类。 设计了与任何其他蛋白质都不同的新蛋白质。
Demis Hassabis 和 John Jumper 主要贡献:
开发了人工智能模型 AlphaFold 2,解决了预测蛋白质复杂结构的 50 年老问题。 能够预测几乎所有 2 亿种蛋白质的结构。
🍭 OpenAI 相关
1.ChatGPT 上线三个新的快捷命令
这个月中,ChatGPT 支持在输入框中输入 /
唤醒 3 个新的快捷命令,包括:
图片:使用 DALL·E 生成图片 搜索:在网上搜索内容 推理:使用 o1 预览
其中免费用户只有“图片”和“搜索”,用起来更加方便了。
2.OpenAI 推出全新写作、编码工具 Canvas
OpenAI 推出写作、编码工具 Canvas,与 ChatGPT 合作,能更好理解任务上下文,用户可操作多。
核心内容:
新界面与 ChatGPT 合作编写和编码。 更好理解任务上下文。 用户可编辑文本或代码等操作。
官方介绍:https://openai.com/index/introducing-canvas
其他介绍:https://mp.weixin.qq.com/s/ZgAqgGfpHJkWf808MRb_Mw
3.ChatGPT 正式发布 Windows 版
OpenAI 还正式宣布推出 Windows 桌面应用,算是补上了 ChatGPT 生态的重要一环。
目前仅向 ChatGPT Plus、Enterprise、Team 和 Edu 用户开放 。不过,官方表示,目前开放的只是早期版本,将在今年晚些时候向所有 ChatGPT 用户推出完整的体验。
参考介绍:https://mp.weixin.qq.com/s/C_TIZtmGxhUrwaZWF1xMVw
下载地址:https://apps.microsoft.com/detail/9nt1r1c2hh7j?rtc=1&hl=en-us&gl=US
用户还可以在微软应用商店搜索 ChatGPT 进行下载。。
4.OpenAI 计划 12 月前推出下一代模型 Orion
OpenAI 计划 12 月前推出其下一代前沿模型 Orion 模型,其实就是原来传说中的 GPT 5,性能强大,9 月训练完成,初期向合作企业提供,微软工程师准备 11 月在 Azure 部署。
核心内容:
12 月前推出。 性能是 GPT4 的 100 倍。 初期向合作企业提供。
5.OpenAI 发布 Realtime API,集成语音合成技术
OpenAI 在旧金山开发者大会(DevDay)上,发布了 Realtime API,可以让开发者调用该 API 在第三方应用中集成语音合成技术。OpenAI 表示开发者通过调用新的 Realtime API,可以在其应用中添加 6 种 AI 语音。
内容来源:https://www.ithome.com/0/799/883.htm
官方介绍:https://openai.com/index/introducing-the-realtime-api/
6.OpenAI 网页端新增聊天历史记录搜索功能
OpenAI 终于在网页端推出在 ChatGPT 网络上搜索聊天历史记录的功能。这个真是方便太多了,可以轻松搜索历史记录。
需要注意:目前仅开放给 Plus 和 Team 用户,企业和教育用户将在一周内获得访问权限。免费用户将在下个月(11 月)开始获得访问权限。
官方推文:https://twitter.com/OpenAI/status/1851340615344406781
7.ChatGPT 高级语音模式上线 Windows/Mac 端
ChatGPT 的高级语音模式(Advanced Voice Mode,简称 AVM)上线 Windows 和 Mac 平台。AVM 基于 OpenAI 最先进的 GPT-4o 模型运行,允许用户像与真人对话一样与 ChatGPT 进行交流,包括打断、停顿等自然语言行为。AVM 提供了更自然、实时的对话体验,能够实时感知和回应用户的情绪。
下载地址:https://openai.com/chatgpt/download/
🔥 Github Copilot 相关
1.Github Copilot 直接宣布王炸功能
Github Copilot Chat for Repo 已全面开放,可免费使用!对任意 Github 仓库进行语义提问,实现全局可用。动动嘴就能学习项目源码的时代已然正式到来!其效果非常不错,开源库默认已被索引,私有库则可手动索引。
体验地址:https://github.com/copilot
2.GitHub 升级!支持多家 AI 模型,推出 Spark
GitHub 重磅消息!Copilot 现支持 Anthropic、Google 和 OpenAI 的多种 AI 模型,开发者能依据项目需求,灵活挑选最佳的 AI 支持。
另外,全新的 AI 工具 “Spark” 登场,通过自然语言助力快速构建 Web 应用,降低开发门槛。
此次升级还涵盖了 VSCode 的多文件编辑功能以及 Xcode 版 Copilot 的公测,预计在 2025 年推出更多扩展和代码评审功能。
官方介绍:https://githubnext.com/projects/github-spark
申请地址:https://github.com/github_spark_waitlist_signup/join
其他文章:
🌍 Claude 相关
1.Anthropic 发布 Claude 3.5 Sonnet、全新 Claude 3.5 Haiku
Anthropic 宣布升级版 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku 的正式推出。
其中:
Claude 3.5 Sonnet 在编码领域有显著提升,性能全面超越前代。 Claude 3.5 Haiku 在成本和速度上与前代 Haiku 相似,性能与 Claude 3 Opus 相当。 发布新功能“computer use 模拟计算机使用”,能够在计算机界面上导航,通过切换窗口、打开菜单、选择选项等操作,完成多步骤的任务。
发布时间:
Claude 3.5 Sonnet:现已向所有用户开放。 Claude 3.5 Haiku:将于本月晚些时候发布。 computer use:开发者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用 computer use 测试版。
官方文档:
更新介绍:https://www.anthropic.com/news/3-5-models-and-computer-use
Computer use 介绍:https://docs.anthropic.com/en/docs/build-with-claude/computer-use
其他文章介绍:
https://mp.weixin.qq.com/s/LaNDFgE7wfsIHkKo6la2RQ https://mp.weixin.qq.com/s/ZIlciKoY3Gc_cAxSPLZJ_Q https://mp.weixin.qq.com/s/98XAVWSeAA8OJq2OWfqD0A
2.Claude AI 上线新工具:Analysis tool
Claude.ai 新推出了内置功能 Analysis Tool(分析工具),有号称更先进的新版 Claude 3.5 Sonnet 模型助力,理论上会更先进。
Analysis Tool 会利用 Claude 编写和运行 JavaScript 代码来处理数据、进行分析并产生实时见解。可以把分析工具看作一个内置的代码沙箱,Claude 在其中能够进行复杂的数学运算、分析数据,并在给出答案前对不同想法进行迭代。
目前这个功能已面向所有 Claude.ai 用户开放。
官方介绍:https://www.anthropic.com/news/analysis-tool
3.Claude AI 上线 Windows/Mac 客户端
Claude 终于也发布客户端了,支持 Windows/Mac 端。在此前 Claude 已经支持网页端、安卓端和 iOS 端,算是全平台支持啦,赞!
下载地址:https://claude.ai/download
💻 豆包 AI 相关
1.豆包视频生成开启内测申请
豆包图片文字一键成片,豆包视频生成具备出色的语义理解能力,能将信息转化为生动逼真的视频内容。支持酷炫的动态和运镜,多镜头保持一致,风格比例随意挑选。
申请地址:https://www.doubao.com/video-apply
2.豆包 AI 新功能:图片一键擦除、局部重绘等
豆包 AI 近期进行了更新,引入了一系列新功能,主要包括心功能包括:
全新本地图片编辑: 一键擦除:上传图片,选择擦除区域,进行图片内容擦除。 局部重绘:选择图片区域,输入描述,进行局部内容重绘。 扩展图片:按照图片内容扩展成不同尺寸的图片,并自动补全和优化内容。 一键翻译文档:上传外语文档,通过 AI 伴读功能翻译成所需语言,并保留文档格式。 全新写作技能:优化写作场景,新增写作页面,展示常用体裁。用户可以直接选择体裁使用,并填写变量内容。
3.豆包推出首款 AI 智能体耳机 Ola Friend
字节跳动豆包今天发布了首款 AI 智能体耳机 Ola Friend,采用开放式设计,单耳 6.6 克同类最轻,耳机接入豆包大模型,并与豆包 APP 深度结合。用户戴上耳机后,无需打开手机,便能通过语音唤起豆包进行对话。Ola Friend 已经在各大电商平台开启预售,将于 10 月 17 日正式发货,售价 1199 元。
相关介绍:https://www.tmtpost.com/7278417.html
🎇 Kimi AI 相关
1.Kimi 推出 Kimi 探索版,深度推理 AI 搜索功能
“Kimi 探索版”通过理解、拆解、推理、搜索、分析、整合、反思和清晰表达的连贯步骤,像人类一样思考和解决问题,提供准确实用的答案。
目前“Kimi 探索版”搜索量为普通版的 10 倍,一次搜索就能精读 500 个页面。让 Kimi 能够像人类一样思考,从而提供更准确、实用的搜索结果。它还可以运用数学模型和编程处理复杂问题,并且在必要时进行自我反思以优化答案。
目前该功能已逐步开放中。
相关文章:
https://ai-bot.cn/kimi-tansuo/ https://mp.weixin.qq.com/s/yIXq-i9AyNcWsrNNkmkqoA
2.Kimi 新增语音通话功能
Kimi 智能助手新增了语音通话功能。用户可以通过手机 APP 端问答框旁的电话按钮来启动该功能。通话支持实时字幕显示、可被打断、能换声以及进行语速调节,还能够克隆用户声音。
此外,Kimi 还推出了两个语音通话情景模式,分别是英语陪练和模拟面试。
🚗 智谱 AI 相关
1.智谱 AI CogView3-Plus 文生图模型正式开源
就在今天,智谱 AI 正式开源 CogView3-Plus 文生图模型,并且此前已经开源了 CogView3 以及 CogView3-Plus-3B。
CogView-3-Plus 在 CogView3 的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。从效果上看,CogView3-plus 有着和最领先的 text2img 模型持平的水平。
官方介绍:https://mp.weixin.qq.com/s/Tk3nAtjewT9H2pJYZ9F3Tg
开源仓库地址:https://github.com/THUDM/CogView3
2.智谱 AI 搜索智能体正式发布
2024 年 10 月 30 日,智谱 AI 搜索智能体正式发布。该智能体支持深度阅读与多级推理,能够迅速检索并总结网页内容,有效解决复杂问题。此外,它还可联动其他 AI 工具,例如调用 Python 等,从而提升搜索及推理能力。
目前,AI 搜索智能体已正式上线,可通过智谱清言进行体验。
官方网址:https://chatglm.cn/
3.智谱 AI 推出 AutoGLM,让手机成为你的贾维斯
AutoGLM 是智谱 AI 在 CNCC 上发布的一款强大产品。它就像一个能真正理解你的意思并自主完成任务的智能助手,可以将任何手机进化成“贾维斯”。
AutoGLM 目前处于内测阶段,首批仅对部分清言用户开放,且暂时仅支持安卓系统。
以下是 AutoGLM 的一些主要特点:
自然语言处理:AutoGLM 擅长理解和生成自然语言,可以用于撰写文章、回答问题、翻译等。 多模态理解:除了文本,AutoGLM 也能理解和生成图像、音频等多模态信息。 自动化执行:AutoGLM 可以直接与各种软件和 API 接口交互,以执行特定的任务,如数据分析、信息检索等。 持续学习:AutoGLM 具备持续学习的能力,可以在使用过程中不断优化和完善。 遵循社会主义价值观:AutoGLM 在训练和应用过程中,始终遵循中国的法律法规和社会主义价值观。
🌸 讯飞 AI 相关
1.讯飞星火 4.0 Turbo 发布,国际 14 项主流测试集 9 项第一
2024 科大讯飞全球 1024 开发者节上,科大讯飞正式发布“讯飞星火 4.0 Turbo”。迎来全新升级,七大能力全面超越 GPT-4 Turbo,数学能力、代码能力超过 GPT-4o。并完成超长思维链、树搜索和自我反思评价等算法验证,预计今年底可实现类 o1 的高难度数学能力。
核心内容:
讯飞星火 4.0 Turbo 正式发布,国际 14 项主流测试集 9 项第一 首发多模交互、超拟人数字人,讯飞星火 APP 成首选 AI 助手 语音语义份额第一 ,大模型开发者生态,第一繁荣生态构筑人工智能大未来
2.讯飞推出 PC 版,新增快捷键调起、深度搜索功能
目前支持 Windows 和 Mac 下载安装使用。具备AI 搜索、PPT 生成、图像生成、多模态交互等功能,新增快捷键调起和深度搜索功能。用户可通过自然对话完成写作、搜索、问答、翻译等任务,提升办公自动化、教育学习、内容创作等领域的效率。
官方网址:https://xinghuo.xfyun.cn/desktop-app-download
详细介绍:https://ai-bot.cn/xinghuo-xfyun-pc/
3.讯飞推出 AI 虚拟角色互动聊天应用 —— 麦芽岛
科大讯飞隆重推出 AI 虚拟角色互动聊天应用——麦芽岛。允许用户创建自定义虚拟角色,进而展开沉浸式对话并获得情感陪伴。
麦芽岛应用具备丰富的角色选择以及社交探索功能,广泛适用于社交互动、情感支持、创意玩法、文化娱乐以及教育学习等诸多场景。
下载方式:用户可在官方网站或者苹果应用商店进行下载体验。
📖 更多 AI 产品内容
1.新版天工新增两大内容载体:彩页、宝典
新版天工新增两大内容载体,非常有趣:
1.彩页:阅读内容更加丰富丰富
2.宝典:搜索解答更有深度,并生成一个类似知识库,还有收益
官方网址:https://www.tiangong.cn/
2.腾讯推出的 AI 智能工作台产品 ima.copilot
ima.copilot 是腾讯推出的智能工作台产品,基于混元大模型。采用自然语言处理技术,能理解和解析用户的问题和需求,从而提供更准确、个性化的回答,还能不断优化自己的语言模型,提高对用户意图的理解能力。
核心功能:
知识获取:基于全网信源进行问答,将感兴趣的优质内容整合到个人知识库中,实现知识的获取和管理。 打造专属知识库:用户能够根据自己的需求,通过搜索或上传文件构建个人知识库,帮助用户更好地管理和检索知识库中的内容。 智能写作辅助:在用户给出一个开头的情况下,ima.copilot 可以辅助完成论文、作文、文案等写作任务。
目前,ima.copilot 已经推出了 Mac 客户端,腾讯表示未来将推出更多版本,以满足不同用户的需求。
官方网址:https://ima.qq.com/
3.Runway 推出 AI 生成式角色工具 Act-One
Act-One 是 Runway 推出的 AI 生成式角色表演工具。基于简洁的视频输入,能够生成极具表现力的角色表演。运用生成式模型,将演员的现场表演转化为 3D 模型,适用于动画流水线,同时能够保留情感与细节。
与传统面部动画相比,Act-One 极大地简化了制作过程,无需额外设备,仅需单一摄像头便可生成逼真的虚拟角色动画。
Act-One 支持多样化的角色表现以及多轮对话场景的生成,为电影、动画制作、角色设计以及叙事内容创作提供了全新的创意。
官方网址:https://runwayml.com/research/introducing-act-one
4.PixVerse V3 正式发布,新增创意模板、对口型等
PixVerse V3 新增了创意模板、对口型、视频延长等功能,还具有多模态生成能力,涵盖创意模板、对口型、故事续写和风格转换等方面。它能够精准理解提示词,生成富有情感和质感的视频,达成现实与虚拟的融合。
此外,PixVerse V3 支持多种视频比例和风格化功能,新增加的对口型功能可以自动适配视频中人物的口型。其 Effect 功能提供了 8 个创意效果,还支持类似 Pika 的“捏爆”特效。
官方网址:https://pixverse.ai/
使用指南:https://wiuswkbgux0.feishu.cn/wiki/EPnZwQ5o2iZA68k8CdAcemJEn4e
文生视频、图生视频:prompt 理解力 ⬆,视频动态效果 ⬆,人物情绪/环境氛围 ✅,电影级画面质感 ✅,多画幅比例 ✅
Lipsync 对嘴型:按音频/台词 AI 对口型 👄
Extend 视频延长:二次生成延长 5 或 8 秒 ⏳
多风格破次元壁:粘土/动漫/现实/3D 不同风格 🎨
5.Midjourney 上线全新图片编辑器和 AI 审核系统
Midjourney 又发布一波大更新,主要包括:
全新图片编辑器:全新外部图片编辑器,允许用户上传电脑中的图像,并进行扩展、裁剪、重绘、添加或修改场景中的内容。 图像纹理功能:对于着色草图、无纹理的 3D 模型和场景特别有趣,例如风格参考、角色参考和个性化模型。 V2 AI 审核系统:Midjourney 正在测试一个更智能的 AI 审核系统,它能够全面检查用户的提示、图像、绘画蒙版和输出图像,以减少误报并提供更多的自由度。
此次首次发布阶段的功能,将开放给以下用户:
至少生成了 10000 张图像的人 拥有年度会员资格的人 过去 12 个月一直是月度订阅者的人
总的来说,这次更新非常棒!对 Midjourney 重度用户来说可以直接体验,太羡慕了。
官方网址:https://www.midjourney.com/
6.海螺 AI 推出“图生视频”,可实现高度一致的图像生成视频
MiniMax 视频模型在海螺 AI 平台上线五周后,访问量增速超过 800%。全球 180 个地区的用户参与创作。该模型在 VBench 评测中排名第一,新增了“图生视频”功能,能够实现高度一致的图像生成视频,还支持连贯深度创作。
海螺 AI 提供无需特效模板的电影级视频创作,激发了全球创作者的热情。
体验入口:
国内创作者:https://hailuoai.com/video 海外创作者:https://hailuoai.video/
7.ComfyUI V1 大更新:桌面版、全新界面等
以前的 ComfyUI 的安装步骤较为繁琐,对用户要求很高。官方为了给非技术用户提供更加流畅的操作体验,推出了套壳应用。核心亮点如下:
1、一键安装桌面版(内测)
适用于 Windows/macOS/Linux,支持自动更新 自动安装 Python 依赖环境、默认安装 ComfyUI 管理器
2、全新用户界面
模板工作流/节点模糊搜索 侧边菜单栏:Queue 队列记录、模型库、节点库 非桌面版也可立刻体验,更新最新版本,在设置中打开!
3、节点注册表 Custom Node Registry 更新
600+ 发布的节点,2000+ 版本、支持节点版本选择 默认集成 ComfyUI Manager(目前仅限 V1 桌面版)
申请链接:https://www.comfy.org/waitlist
详细介绍:https://blog.comfy.org/comfyui-v1-release/
其他文章介绍:
8.Stable Diffusion 3.5 发布,三个型号都可以商用
SD 3.5 版本发布了。此开放版本包括多个模型变体,包括 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo。
此外,Stable Diffusion 3.5 Medium 于 10 月 29 日发布,三个型号都可以商用!
这些模型的大小可以高度定制,在消费类硬件上运行,并且在稳定人工智能社区许可的许可下免费用于商业和非商业用途。
详细介绍:https://waytoagi.feishu.cn/wiki/KJrMwybeTitkKZkoMgCcgvKUnLf
官方介绍:https://stability.ai/news/introducing-stable-diffusion-3-5
comfy 生态:https://blog.comfy.org/sd3-5-comfyui/
尝鲜体验:https://tusiart.work/models/787520127013758940
无需梯子和配置,直接使用,使用的模型来自:https://huggingface.co/stabilityai/stable-diffusion-3.5-large
9.Genmo 开源 Mochi 1,视频生成模型又被颠覆
又一个重量级 AI 视频模型突然空降!这次是全新的开源视频生成模型 Mochi 1,而且直接开源,Apache 2.0 许可证。
Mochi 1 是一款新的开源视频生成模型,提供流畅且自然的动作表现,符合物理规律; 模型能够根据输入的提示词精确生成特定的角色、场景和动作,提高用户控制精度; Mochi 1 支持高清版本,同时模型已通过大额融资,表现出强大的市场潜力。
试用地址:https://www.genmo.ai/
文章地址:https://mp.weixin.qq.com/s/fQxr1M0xH21Xu_6-iYioBA
10.Meta AI 推出开源版:NotebookLlama
刚刚 Meta 推出了对标谷歌 NotebookLM 开源版本 NotebookLlama,它让你用 LLaMa 模型把 PDF 直接变成播客!
体验地址:https://huggingface.co/spaces/gabrielchua/open-notebooklm
文章介绍:https://mp.weixin.qq.com/s/kVfxQnHNOS38HDq3cRHZdQ
11.马斯克 xAI 推出 Grok API 接口
xAI 公司推出旗舰 AI 模型 Grok 的 API 接口,但目前仅提供基础模型,且存在模型版本不确定性。定价为输入 tokens 5 美元/百万,输出 tokens 15 美元/百万。API 支持函数调用,未来计划推出视觉模型。
原文介绍:https://www.aibase.com/zh/news/12604