WEEKLY REPORT
09/29
2024
AIGC本周资讯
互联网行业一周新闻速览
01
WEEKLY NEWS
准确率87.6%,南农、国防科大、苏大等发布显微图像分类AI新方法
在医学显微图像分类(MIC)领域,基于 CNN 和 Transformer 的模型得到了广泛的研究。然而,CNN 在建模长距离依赖关系方面存在短板,限制了其充分利用图像中语义信息的能力。相反,Transformer 受到二次计算复杂性的制约。
为了解决这些挑战,南京农业大学、国防科技大学、湘潭大学、南京邮电大学、苏州大学组成的联合研究团队提出了一个基于 Mamba 架构的模型:Microscopic-Mamba。
具体来说,该团队设计了部分选择前馈网络(PSFFN)来取代视觉状态空间模块(VSSM)的最后一层线性层,增强了 Mamba 的局部特征提取能力。
论文链接:https://arxiv.org/pdf/2409.07896v1
原文链接:
https://www.jiqizhixin.com/articles/2024-09-23-5
02
WEEKLY NEWS
阿里提出结构保持的AI视觉算法:显著提升HDR图像转LDR图像质量
阿里巴巴达摩院计算技术实验室提出了一种基于结构保持网络的AI视觉算法,可将高动态范围(HDR)场景图像自动转换为低动态范围(LDR)图像并保持其纹理细节,在常规显示设备上的图像质量相比业界提升7%。
原文链接:
https://www.jiqizhixin.com/articles/2024-09-23-4
03
WEEKLY NEWS
山姆·奥特曼罕见发长文,力推超级智能
OpenAI CEO 奥特曼罕见地发表了一篇长文博客,标题为《智能时代》(The Intelligence Age)。推特浏览量已经突破了 100 万。
奥特曼对 AI 的发展给出了令人难以置信的预言,并宣传了 AI 改变世界的潜力。他表示:AI 绝对不是谷歌搜索或家庭作业助手的偶然替代品,而将推动人类社会朝着更好的方向发展。
奥特曼还做出预测,超级 AI 有可能在未来几千天内完成(PS:这个天数的变数可太大了)。
原文链接:
https://www.jiqizhixin.com/articles/2024-09-24
04
WEEKLY NEWS
商汤绝影全舱人脸感知技术,助力乐道L60上市,为每位用户打造专属关怀
在乐道L60的发布会上,「小乐识人」的场景演示视频获得了现场与线上观众的一致好评,主动为二大爷播放他喜欢的京剧、给爷爷按腰去除疲劳,都是专属于每位用户的贴心关怀。
这背后离不开商汤绝影提供的OMS功能,尤其是全舱人脸感知技术,它助力了乐道L60识别并记住车内每位乘客,最多可记忆20个账号,三世同堂的家庭、七大姑八大姨都能记住,小乐通通叫上姓名。基于这个能力,乐道汽车可以同步每个乘客的个性化数据,如:座椅位置、音乐账号等,实现个性化体验,让用户感觉更加亲切、自然,有温度。
结合商汤绝影多模感知、乐道账号的综合能力,乐道汽车的人脸识别准确率高达99.9%,支持多位置的乘客面容录入和全舱乘客识别,为全舱智能能多场景能力提供了更多可能性。
原文链接:
https://www.jiqizhixin.com/articles/2024-09-23-11
05
WEEKLY NEWS
仅用4块GPU、不到3天训练出「开源版GPT-4o」,这是国内团队最新研究
来自中国科学院计算技术研究所、中国科学院大学的研究者提出了一种新型模型架构 ——LLaMA-Omni,它可以实现与 LLM 的低延迟、高质量交互。
论文:https://arxiv.org/pdf/2409.06666
代码:https://github.com/ictnlp/LLaMA-Omni
模型:https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni
论文标题:LLaMA-Omni: Seamless Speech Interaction with Large Language Models
LLaMA-Omni 由语音编码器、语音适配器、LLM 和流式语音解码器组成。用户的语音指令由语音编码器进行编码,经过语音适配器后输入到 LLM。LLM 直接从语音指令中解码文本响应,无需首先将语音转录为文本。语音解码器是一个非自回归(NAR)流式 Transformer,它将 LLM 的输出表示作为输入,并使用连接时序分类(Connectionist Temporal Classification, CTC)来预测与语音响应相对应的离散单元序列。
原文链接:
https://www.jiqizhixin.com/articles/2024-09-23-7
06
WEEKLY NEWS
开源!上海AI Lab视频生成大模型书生·筑梦 2.0来了
近日,上海人工智能实验室推出新一代视频生成大模型 “书生・筑梦 2.0”(Vchitect 2.0)。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。
主页:https://vchitect.intern-ai.org.cn/
Github: https://github.com/Vchitect/Vchitect-2.0
原文链接:
https://www.jiqizhixin.com/articles/2024-09-23-6
07
WEEKLY NEWS
ACM TOG|仅通过手机拍照就可以对透明物体进行三维重建
中科院计算所高林老师团队、加州大学圣芭芭拉分校闫令琪教授、3D 重建公司 KIRI Innovations 合作提出了一种通过对嵌套透明物体进行重建的方法 NU-NERF《NU-NeRF: Neural Reconstruction of Nested Transparent Objects with Uncontrolled Capture Environment》
项目主页:http://geometrylearning.com/NU-NeRF/
该方法能在不需要额外输入,也不需要特殊捕捉场景的情况下对嵌套透明物体进行重建。该项研究工作已经被 ACM TOG 录用,并将在 SIGGRAPH Asia 2024 报告。
原文链接:
https://www.jiqizhixin.com/articles/2024-09-24-5
08
WEEKLY NEWS
代号002:谷歌发布两款Gemini 1.5升级生产级模型「一流数学能力,价格砍半」
谷歌的 Gemini 模型又双叒叕升级了!谷歌发布了两款更新后的可投入生产的Gemini模型:Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002,以及以下更新内容:
1.5 Pro的价格降低了50%以上(针对提示词 (prompt) <128K的输入和输出)
1.5 Flash的速率限制提升了2倍,1.5 Pro提升了约3倍
输出速度提升2倍,延迟降低3倍
这些新模型基于最近的实验性模型发布,包含了对5月份在Google I/O发布的Gemini 1.5模型的重大改进。开发者可以通过Google AI Studio和Gemini API免费访问最新模型。对于大型企业和Google Cloud客户,这些模型也可以通过Vertex AI获得
原文链接:
https://new.qq.com/rain/a/20240925A00HS800
09
WEEKLY NEWS
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx
华大学、腾讯、南洋理工大学的研究者们提出一种更灵活的多模态模型 Oryx。Oryx 是一种统一的多模态架构,能够处理图像、视频和多视角 3D 场景,提供了一种能够按照需求处理任意空间大小和时间长度视觉输入的解决方案。
项目地址:https://oryx-mllm.github.io/
论文:https://arxiv.org/abs/2409.12961
代码:https://github.com/Oryx-mllm/Oryx
Demo:https://huggingface.co/spaces/THUdyh/Oryx
原文链接:
https://www.jiqizhixin.com/articles/2024-09-28
下期精彩继续
OFFER攻略01 | AIGC产品经理,建筑行业0经验小白成功拿下3家!
OFFER攻略04|简历投递零邀面?40天采访揭秘,60位面试官告诉你为何
OFFER攻略07 | 怒拿80%涨幅,2 年产品经理邂逅 AIGC
干货分享 | AIGC赛道拿offer终极秘诀从ChatGPT到Sora的启示:未来4年,AI产品经理的生存法则
03 招生中