AIGC产品经理周报资讯｜9月23日-9月29日

文摘 2024-09-30 12:01 山东

WEEKLY REPORT

09/29

2024

AIGC本周资讯

互联网行业一周新闻速览

WEEKLY NEWS

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

在医学显微图像分类（MIC）领域，基于 CNN 和 Transformer 的模型得到了广泛的研究。然而，CNN 在建模长距离依赖关系方面存在短板，限制了其充分利用图像中语义信息的能力。相反，Transformer 受到二次计算复杂性的制约。

为了解决这些挑战，南京农业大学、国防科技大学、湘潭大学、南京邮电大学、苏州大学组成的联合研究团队提出了一个基于 Mamba 架构的模型：Microscopic-Mamba。

具体来说，该团队设计了部分选择前馈网络（PSFFN）来取代视觉状态空间模块（VSSM）的最后一层线性层，增强了 Mamba 的局部特征提取能力。

论文链接：https://arxiv.org/pdf/2409.07896v1

原文链接：

https://www.jiqizhixin.com/articles/2024-09-23-5

WEEKLY NEWS

阿里提出结构保持的AI视觉算法：显著提升HDR图像转LDR图像质量

阿里巴巴达摩院计算技术实验室提出了一种基于结构保持网络的AI视觉算法，可将高动态范围（HDR）场景图像自动转换为低动态范围（LDR）图像并保持其纹理细节，在常规显示设备上的图像质量相比业界提升7%。

原文链接：

https://www.jiqizhixin.com/articles/2024-09-23-4

WEEKLY NEWS

山姆·奥特曼罕见发长文，力推超级智能

OpenAI CEO 奥特曼罕见地发表了一篇长文博客，标题为《智能时代》（The Intelligence Age）。推特浏览量已经突破了 100 万。

奥特曼对 AI 的发展给出了令人难以置信的预言，并宣传了 AI 改变世界的潜力。他表示：AI 绝对不是谷歌搜索或家庭作业助手的偶然替代品，而将推动人类社会朝着更好的方向发展。

奥特曼还做出预测，超级 AI 有可能在未来几千天内完成（PS：这个天数的变数可太大了）。

原文链接：

https://www.jiqizhixin.com/articles/2024-09-24

WEEKLY NEWS

商汤绝影全舱人脸感知技术，助力乐道L60上市，为每位用户打造专属关怀

在乐道L60的发布会上，「小乐识人」的场景演示视频获得了现场与线上观众的一致好评，主动为二大爷播放他喜欢的京剧、给爷爷按腰去除疲劳，都是专属于每位用户的贴心关怀。

这背后离不开商汤绝影提供的OMS功能，尤其是全舱人脸感知技术，它助力了乐道L60识别并记住车内每位乘客，最多可记忆20个账号，三世同堂的家庭、七大姑八大姨都能记住，小乐通通叫上姓名。基于这个能力，乐道汽车可以同步每个乘客的个性化数据，如：座椅位置、音乐账号等，实现个性化体验，让用户感觉更加亲切、自然，有温度。

结合商汤绝影多模感知、乐道账号的综合能力，乐道汽车的人脸识别准确率高达99.9%，支持多位置的乘客面容录入和全舱乘客识别，为全舱智能能多场景能力提供了更多可能性。

原文链接：

https://www.jiqizhixin.com/articles/2024-09-23-11

WEEKLY NEWS

仅用4块GPU、不到3天训练出「开源版GPT-4o」，这是国内团队最新研究

来自中国科学院计算技术研究所、中国科学院大学的研究者提出了一种新型模型架构 ——LLaMA-Omni，它可以实现与 LLM 的低延迟、高质量交互。

论文：https://arxiv.org/pdf/2409.06666

代码：https://github.com/ictnlp/LLaMA-Omni

模型：https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni

论文标题：LLaMA-Omni: Seamless Speech Interaction with Large Language Models

LLaMA-Omni 由语音编码器、语音适配器、LLM 和流式语音解码器组成。用户的语音指令由语音编码器进行编码，经过语音适配器后输入到 LLM。LLM 直接从语音指令中解码文本响应，无需首先将语音转录为文本。语音解码器是一个非自回归（NAR）流式 Transformer，它将 LLM 的输出表示作为输入，并使用连接时序分类（Connectionist Temporal Classification, CTC）来预测与语音响应相对应的离散单元序列。

原文链接：

https://www.jiqizhixin.com/articles/2024-09-23-7

WEEKLY NEWS

开源！上海AI Lab视频生成大模型书生·筑梦 2.0来了

近日，上海人工智能实验室推出新一代视频生成大模型 “书生・筑梦 2.0”(Vchitect 2.0)。根据官方介绍，书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。

主页：https://vchitect.intern-ai.org.cn/

Github: https://github.com/Vchitect/Vchitect-2.0

原文链接：

https://www.jiqizhixin.com/articles/2024-09-23-6

WEEKLY NEWS

ACM TOG｜仅通过手机拍照就可以对透明物体进行三维重建

中科院计算所高林老师团队、加州大学圣芭芭拉分校闫令琪教授、3D 重建公司 KIRI Innovations 合作提出了一种通过对嵌套透明物体进行重建的方法 NU-NERF《NU-NeRF: Neural Reconstruction of Nested Transparent Objects with Uncontrolled Capture Environment》

项目主页：http://geometrylearning.com/NU-NeRF/

该方法能在不需要额外输入，也不需要特殊捕捉场景的情况下对嵌套透明物体进行重建。该项研究工作已经被 ACM TOG 录用，并将在 SIGGRAPH Asia 2024 报告。

原文链接：

https://www.jiqizhixin.com/articles/2024-09-24-5

WEEKLY NEWS

代号002：谷歌发布两款Gemini 1.5升级生产级模型「一流数学能力，价格砍半」

谷歌的 Gemini 模型又双叒叕升级了！谷歌发布了两款更新后的可投入生产的Gemini模型：Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002，以及以下更新内容：

1.5 Pro的价格降低了50%以上（针对提示词 (prompt) <128K的输入和输出）

1.5 Flash的速率限制提升了2倍，1.5 Pro提升了约3倍

输出速度提升2倍，延迟降低3倍

这些新模型基于最近的实验性模型发布，包含了对5月份在Google I/O发布的Gemini 1.5模型的重大改进。开发者可以通过Google AI Studio和Gemini API免费访问最新模型。对于大型企业和Google Cloud客户，这些模型也可以通过Vertex AI获得

原文链接：