Contents
目录
1.谷歌推出DataGemma,基于可信数据源帮助提高AI准确度
2.OpenAI发布经过改进的全新AI模型o1
3.Uniphore推出X-Stream,将多模态数据转换为知识并提供服务
4.对标GPT-4o的实时语音模型Moshi开源
5.Meta推出Llama 3.2,适用于边缘和移动设备的更小AI模型
6.Letta公司宣布推出与公司同名的AI上下文内存管理平台Letta
7.艾伦人工智能研究所Ai2推出开源大模型Molmo
8.理光通过模型合并开发出具有相当于GPT-4性能的700亿参数日语LLM人工智能对话模型
9.麻省理工学院的衍生公司Liquid首次推出非transformer AI模型LFM
10.本月AI大模型投资与并购综述
1.MemSAM:驯服超声心动图视频分割的任何模型
2.DWJS:蛋白质发现-离散「步行-跳跃」采样
3.GxVAEs:两个联合变分自编码器从基因表达谱中生成活性分子
4.利用间接调查预测时间趋势
5.利用多模态学习和测试时临床知识增强的零样本心电图分类
6.释放医学多模式预训练中时空信息的力量
7.VSGT:变分空间和高斯时间图模型在基于EEG 的情绪识别中的应用
8.MDNet:基于多模态生理信号的跨个体情绪识别的多级解耦网络
9.DBPNet:用于听觉注意力检测的时频融合双分支并行网络
10.ATTA:用于基于多模态睡眠阶段分类的多模态方法
9月国外重要资讯
01
谷歌推出DataGemma,基于
可信数据源帮助提高AI准确度
9月12日,谷歌推出DataGemma,这是当前世界上第一个开放式模型。它借助谷歌公开可用的知识图谱Data Commons的知识来扩展Gemma模型的功能,使用的方法是RIG(检索交错生成)和RAG(检索增强生成),RIG通过主动查询可信来源并根据Data Commons中的信息进行事实核查,增强了语言模型Gemma的功能,RAG使语言模型能够整合训练数据之外的相关信息,吸收更多上下文,并实现更全面和信息更丰富的输出。
02
OpenAI发布
经过改进的全新AI模型o1
9月12日,OpenAI发布了o1,这是一种经过改进的全新AI模型,包括o1-preview和o1-mini,将向ChatGPT Plus和Team订阅者发布预览版,用户分别限制为30条和50条消息。新模型通过“思维链”(chain of thought)模式进行训练,在解决各种复杂任务,推理数学、编程及科学问题等方面的能力取得显著进步。其中,o1-mini不仅速度更快,而且比o1-preview便宜80%,在编码任务上的能力也与o1-preview相当。
03
Uniphore推出X-Stream,将多
模态数据转换为知识并提供服务
9月19日,Uniphore推出X-Stream,它可以将企业的结构化和非结构化多模态数据工业化,帮助企业将结构化和非结构化多模态数据转换为特定领域的知识。它提供强大的工具、连接器和控件,帮助企业利用来自各种来源(如内容管理、CRM、数据仓库和业务应用程序)的自有数据,集成这些数据源并转化为知识源。同时,借助高级检索增强生成(RAG)功能、企业级知识图谱以及对Uniphore微调模型库的访问,企业可以利用这些为AI提供的就绪知识来提供准确的答案和见解。另外,X-Stream通过事实性、块归因、相关性和幻觉检测等功能优化了证据管理,以确保输出准确性并减少偏差。
04
对标GPT-4o的
实时语音模型Moshi开源
9月19日,对标GPT-4o的实时语音模型Moshi开源,可以实现自然聊天,并且情绪丰富,可随意打断。该产品由法国初创团队Kyutai发布,包含代码、模型权重和技术报告。可在官网免费体验,支持男声和女声版本。Moshi突破了传统AI对话模型限制,引入多流音频语言模型,提升了生成质量。
05
Meta推出Llama 3.2,适用
于边缘和移动设备的更小AI模型
9月26日,Meta推出了其开源AI模型Llama的新版本3.2,其中小型模型能够为边缘和移动设备上的工作负载提供动力。Llama 3.2有多种大小不同的模型,从10亿个参数到900亿个参数不等。对于小尺寸模型为1B和3B,它们被设计为轻量级的,只能处理文本输入。这些可以安装在边缘和移动设备上,使它们能够在设备上处理输入。1B和3B的Llama 3.2模型可以支持多达128K个令牌,并为在边缘运行的摘要、指令遵循和重写任务等使用案例实现最先进的性能。中型系统的大小分别为11亿和900亿个参数,是多模态的,这意味着它们能够处理文本以外的输入,例如图像等视觉输入。较大的3.2模型可以同时接收图像和文本提示,同时还可以根据输入的组合更好地理解和推理。例如,中型Llama 3.2模型可用于了解图表和图形等使用案例,使企业能够使用它们来深入了解财务报表上的销售数据。
06
Letta公司宣布推出与公司同名
的AI上下文内存管理平台Letta
9月23日,Letta公司宣布推出与公司同名的AI上下文内存管理平台Letta,产品来源于加州大学伯克利分校的MemGPT项目。当前,大语言模型快速发展,但受到上下文窗口长度的限制,导致它在多轮对话和文档分析等任务中的适用性较差。针对这个问题,Letta提出了虚拟上下文管理,这是一个可用在Agent产品中的内存管理平台,可让大语言模型能在有限上下文窗口之外使用更多的上下文。此外,它还通过将大模型的计算和用户的数据分离,让开发者可以灵活地在不同模型提供商之间切换。
07
艾伦人工智能研究所
(Ai2)推出开源大模型Molmo
9月25日,艾伦人工智能研究所(Ai2)推出开源AI模型Molmo。这是一个开源的多模态模型,能够理解和交互视觉数据,支持网页代理和机器人等应用。Molmo家族包括各种模型,其中最大的72B参数版本的表现与GPT-4V和Gemini 1.5等专有模型相当。然而,Molmo AI的突出之处在于其易于获取,因为它完全开源,且足够高效,可以在个人设备上运行。
Molmo AI的卓越视觉能力使其能够理解复杂的图像、图表和用户界面。它可以准确地指向这些图像中的特定元素,使其成为网络代理和机器人技术等应用的强大工具。Molmo AI的独特之处在于,它能够根据其视觉理解采取现实世界的行动。
08
理光通过模型合并开发出具有相当于 GPT-4性能的700亿参数日语LLM人工智能对话模型
9月30日宣布,理光以美国Meta Platforms提供的“Meta-Lama-3-70B”模型的日语优化版模型“Llama-3-Swallow-70B”为基础,他们开发了新版的具有700亿参数的日语LLM(Large Language Models:大规模语言模型)。
09
麻省理工学院的衍生公司Liquid
首次推出非transformer AI 模型LFM
9月30日,麻省理工学院(MIT)计算机科学和人工智能实验室(CSAIL)的前研究人员共同创立的初创公司Liquid,宣布推出其首个多模态AI 模型:“Liquid Foundation Models (LFM)”。新模型不是采用transformer架构,它使用了“深深植根于动力学系统理论、信号处理和数值线性代数理论的计算单元”的混合,是“可用于对任何类型的顺序数据进行建模的通用AI模型,包括视频、音频、文本、时间序列和信号”来训练其新的LFM。Liquid的LFM目前有三种不同的尺寸和变体:LFM 1.3B、LFM 3B、LFM 40B MoE。
10
本月AI大模型投资与并购综述
本月AI大模型相关投资与并购主要发生在欧美地区,整个投资与并购超过7次。
9月3日,总部位于米兰的初创公司IdentifAI获得了220万欧元的种子资金,专门开发和训练用于识别人工智能可能生成的内容的生成模型,该模型经过训练可识别人工智能创建的伪影(图像、视频、声音或文本),能够清楚地区分人工智能创建的内容和人类创造力制作的内容。
9月3日,意大利人力资源科技初创公司Skillvue获得了280万美元的融资,用以开发其AI平台。在招聘阶段,其基于专有人工智能的创新技术进行异步面试,旨在评估候选人的技能和积极性,从而立即识别高潜力候选人。这种方法将预测实际工作绩效的能力提高了5倍,对于需雇用大量初级候选人或面向公众的职位的公司来说尤其具有战略意义。
9月10日,帮助卖家和零售商做AI驱动的电子商务搜索的一家AI初创公司Ecomtent,获得85万美元的种子前资金。这些买家使用该人工智能工具能够大规模生成高质量的生活方式图片、信息图表、A+商品描述和优化的副本,生成的内容可以将产品列表的转化率提高多达30%。
9月18日,移动应用开发公司ContextSDK获得了400万美元的种子轮融资。该公司主要开发ContextSDK平台,它使用在边缘设备(Edge AI)上执行的机器学习来解释从智能手机自动收集的200+个信号,使应用程序能够适应其用户的真实环境,而不会损害隐私的侵入性数据收集。帮助移动应用在会话开始时就能了解用户意图,同时维护用户隐私。
9月19日,数学教育科技公司Stimy AI筹集了42.5万美元的种子前投资。Stimy AI旨在为全球10至18岁努力学习数学的儿童提供支持。该应用程序提供七种语言版本,使用先进的AI提供个性化的学习支持,帮助学生完成家庭作业和考试准备。
9月19日,实时机器人引导解决方案提供商Inbolt已获得1500万欧元的A轮融资,该公司开发的GuideNOW,是一种使用3D视觉摄像头并由AI提供支持的交钥匙实时机器人引导解决方案。它可快速处理3D数据以确定零件的位置和方向,即使在非结构化环境中也能实现实时机器人轨迹适应,能够引导工业机械臂,速度比竞争对手快100倍,使生产线更加高效和精确,并且机器人能够适应汽车、电子和物流等行业的所有工业环境。
9月26日,机器学习初创公司Ensemble筹集了330万美元的种子轮融资。该公司正在开创一种新颖的数据表示方法,该方法有望提高机器学习模型的性能,而无需大量额外数据或复杂的模型架构,将帮助企业解决在人工智能过程中的数据质量问题。
9月国外论文选摘
1.MemSAM:
驯服超声心动图视频分割的任何模型
MemSAM:TamingSegmentAnythingModelforEchocardiographyVideo
Segmentation(CVPR2024)
超声心动图(Echocardiography)是评估心脏功能的重要临床工具。然而,由于其成像特性,如斑点噪声、模糊边界和目标对象在视频帧间的变化,使得自动分割心脏结构成为一项挑战。此外,视频分割任务通常需要大量的标注数据,而这些数据在临床实践中往往难以获得。本研究旨在通过适应 Segment Anything Model(SAM)来解决超声心动图视频分割中的上述挑战,并减少对大量标注数据的依赖。我们提出了一种名为MemSAM的新型视频分割模型,该模型采用时空记忆(space-time memory)来提示当前帧的分割。这种记忆包含了空间和时间信息,能够顺序地提示视频的每一帧分割。此外,为了提高分割的准确性和一致性,MemSAM 还引入了一种记忆强化机制,该机制利用预测的掩码来改善存储前记忆的质量。我们在两个公开的超声心动图数据集上进行了广泛的实验,证明了 MemSAM 在超声心动图视频分割任务上展示了最先进的性能,尤其是在有限的标注数据下,其性能接近于完全监督的学习方法。我们为超声心动图视频分割领域提供了一种有效的解决方案,特别是在标注数据稀缺的情况下,具有重要的临床应用潜力。
2.DWJS:
蛋白质发现-离散「步行-跳跃」采样
Protein Discovery with Discrete Walk-Jump Sampling(ICLR2024)
针对蛋白质发现和蛋白质设计,我们提出了一种新的建模范式——平滑离散采样(Smoothed Discrete Sampling,SDS),并基于神经经验贝叶斯(neural empirical Bayes)框架提出了离散「步行-跳跃」采样算法(dWJS)。这种方法通过结合能量基模型(EBM)的对比散度训练和基于分数的模型的样本质量改进,简化了训练和采样过程,只需要单一的噪声水平。通过优化和从模型中采样,提出了一种新的蛋白质样本质量评估指标——分布一致性得分(distributional conformity score),用于基准测试蛋白质生成模型。在体外实验中,97-100% 的生成样本能够成功表达和纯化,70% 的功能性设计在第一轮实验室实验中显示出与已知功能性抗体相同或更高的结合亲和力。这项研究不仅在计算机模拟中验证了方法的有效性,还在湿实验室实验中进行了广泛的测试,证明了其在蛋白质设计和发现方面的潜力。
3.GxVAEs:
两个联合变分自编码器从基因表达谱中生成活性分子
GxVAEs: Two Joint VAEs Generate Hit Molecules from Gene Expression Profiles
(AAAI 2024)
该论文提出了一种名为GxVAEs的新型深度生成模型,该模型利用两个联合变分自编码器(VAEs)从基因表达谱中生成具有生物活性和药物样特性的分子。GxVAEs的第一个VAE,称为ProfileVAE,负责从基因表达谱中提取潜在特征。这些特征随后作为条件,指导第二个VAE,即MolVAE,生成具有潜在生物活性和药物样特性的分子。这种方法将分子生成与生物系统的细胞环境联系起来,生成在特定疾病背景下具有生物学意义的分子。论文中的实验和案例研究表明,GxVAEs在生成治疗分子方面优于当前的最先进方法,能够从患者的疾病特征中成功生成对多种疾病具有治疗效果的潜在分子结构。这项研究为计算机辅助药物发现领域提供了一种新的方法,特别是在考虑疾病相关细胞环境影响方面。
4.利用间接调查预测时间趋势
Nowcasting Temporal Trends Using Indirect Surveys(AAAI2024)
间接调查是指受访者提供他们所知道的其他人的信息,而不是他们自己的信息。这种方法在估计地震伤亡人数、性工作者状况、药物使用和传染病流行等方面有应用。我们提出了一种基于潜在图模型的方法latent graph formulation,通过分析间接调查收集的数据,来估计隐藏人群随时间的变化趋势。这种方法与传统的网络规模估计方法(NSUM)相比,不需要估计每个受访者的个人网络大小,也不需要假设所有个体属于隐藏人群的概率相同。我们发现, 通过latent graph formulation,可以证明间接调查的预期响应与隐藏人口的规模成正比;在 latent graph degree 方差的合理上限内,样本数量相同的情况下,间接调查比直接调查能更好地估计隐藏人群;利用底层时间动态的平滑性来证明加权移动平均数比一系列单独估计值能提供更好的估计值。并通过大量模拟证明,上述方法优于传统的NSUM和直接调查方法。以及在COVID-19病例的真实间接调查数据集上实证该方法的优越性。
5.利用多模态学习和测试时临床知识增强的零样本心电图分类
Zero-Shot ECG Classification with Multimodal Learning and Test-time Clinical Knowledge Enhancement
(ICML 2024)
心电图(ECG)是临床实践中检测心律失常疾病的关键非侵入性诊断工具。虽然心电图自监督学习(eSSL)方法在从未注释的心电图数据中进行表示学习方面表现出良好的前景,但它往往会忽略报告中的临床知识。这种疏忽以及下游任务对注释样本的要求限制了eSSL的多功能性。在这项工作中,我们使用多模态心电图表示学习(MERL)框架解决了这些问题。通过结合心电图(ECG)记录和相关的报告,使用多模态学习框架MERL(Multimodal ECG Representation Learning)进行零样本心电图分类。这种方法在测试时使用大型语言模型(LLMs)来利用外部专家验证的临床知识数据库,生成更具描述性的提示,并减少LLM生成内容中的幻觉,以提高零样本分类的准确性。研究者们在六个公共心电图数据集上进行了基准测试,展示了MERL与现有自监督学习方法相比的优越性能。特别是在没有训练数据的情况下,MERL在零样本分类中平均AUC得分达到了75.2%,比使用10%标注训练数据的线性探测自监督学习方法高出3.2%。
6.释放医学多模式
预训练中时空信息的力量
Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training
(ICML 2024)
医学视觉语言预训练方法主要利用配对医学图像和放射报告之间的对应关系。尽管多视图空间图像和图像报告对的时间序列可在现成的多模态医学数据集中使用,但大多数现有方法尚未彻底利用如此广泛的监督信号。我们提出了Med-ST框架,该框架用于细粒度的空间和时间建模,以利用胸部X光照片的多个空间视图和时间历史记录中的信息。空间建模方面,Med-ST采用了混合视图专家(MoVE)架构来整合正面和侧面视图的不同视觉特征。为了实现更全面的对齐,Med-ST不仅建立了图像和文本之间的全局对齐,还引入了文本标记和图像空间区域之间的模态加权局部对齐。在时间建模方面,Med-ST提出了一种新颖的跨模态双向循环一致性目标,通过前向映射分类(FMC)和反向映射回归(RMR)来学习时间语义。实验结果表明,Med-ST在多个不同任务中表现出色,尤其是在时间分类任务中。
7.VSGT:
变分空间和高斯时间图模型在基于 EEG 的情绪识别中的应用
VSGT: Variational Spatial and Gaussian Temporal Graph Models for EEG-based Emotion Recognition(IJCAI 2024)
脑电图(EEG)直接反映大脑的情感活动,越来越多地被用于情感识别。大多数研究利用脑电图中的空间和时间依赖性来学习情绪特征表征,但要充分发挥其潜力仍有两个局限。首先,先验知识很少被用来捕捉大脑区域的空间依赖性。其次,不同脑区连续时间片之间的交叉时间依赖性被忽视。为了解决这些局限性,我们提出了一种新的图模型,用于分析脑电图(EEG)信号中的空间和时间依赖性,以识别个体的情绪状态。该模型包括变分空间编码器(VSE)和高斯时间编码器(GTE),旨在利用先验知识捕捉大脑区域之间的空间依赖性,并计算连续时间切片之间的全面时间依赖性。通过大量的实验,论文展示了该方法在多个EEG数据集上相较于现有技术的优越性。
8.MDNet:
基于多模态生理信号的跨个体情绪识别的多级解耦网络
Multi-level Disentangling Network for Cross-Subject Emotion Recognition Based on Multimodal Physiological Signals
基于多模态生理信号的情绪识别正受到越来越多的关注。然而,如何处理多模态生理信号的一致性和异质性,以及不同受试者之间的个体差异,是两个重大挑战。在本文中,我们提出了一种名为MDNet的多层次解纠缠网络,用于基于多模态生理信号的跨主体情绪识别。具体来说,MDNet由模态级解缠模块和主体级解缠模块组成。模态级解缠模块将多模态生理信号投射到模态不变子空间和特定模态子空间,捕捉模态不变特征和特定模态特征。主体级分离模块从多模态数据中分离出不同主体间的主体共享特征和主体私有特征,从而促进跨主体情绪识别。在两个多模态情感数据集上的实验表明,MDNet的性能优于其他最先进的基线。
9.DBPNet:
用于听觉注意力检测的时频融合双分支并行网络
DBPNet: Dual-Branch Parallel Network with Temporal-Frequency Fusion for Auditory Attention Detection
(IJCAI 2024)
听觉注意力解码(AAD)旨在根据多说话者环境中的脑电图(EEG)信号识别出出席的说话者。大多数AAD方法只关注时域或频域,却忽视了这两个域之间的关系,导致无法同时考虑时变信息和频谱空间信息。针对这一问题,本文提出了一种用于AAD的时频融合双分支并行网络,并将其命名为DBPNet,该网络由时域关注分支和频率残差分支组成。具体来说,时域关注分支旨在捕捉脑电图时间序列信号中的时变特征。频率残差分支旨在通过残差卷积提取多频段脑电信号的频谱空间特征。最后,将这两个分支融合起来,同时考虑脑电信号的时变特征和频谱空间特征,得到分类结果。实验结果表明,与最佳基线相比,DBPNet 在MM-AAD数据集的0.1秒决策窗口下实现了20.4%的相对改进,但可训练参数的数量减少了约91倍。
10.ATTA:
用于基于多模态睡眠阶段分类
的多模态方法
ATTA: Adaptive Test-Time Adaptation for Multi-Modal Sleep Stage Classification(IJCAI 2024)
睡眠阶段分类对于睡眠评估和疾病诊断至关重要。测试时间适应(Test-Time Adaptation,TTA)已逐渐成为解决来自不同机构的睡眠数据在测试期间发生跨域分布变化的重要方法。尽管之前的多模态TTA方法已经取得了令人满意的分类效果,但仍存在几个挑战:(1)如何在跨域转移过程中保留模型在源域中获得的知识;(2)如何衡量每种模态在识别不同睡眠阶段中的贡献;(3)如何衡量不同受试者的适应需求。为了应对这些挑战,我们提出了一种用于睡眠阶段分类的多模态TTA方法ATTA。具体来说,我们设计了模态特定伪标签生成器(Modality-Specific PLG)和模态集成伪标签合成器(Modality-Integrated PLS),为每种模态生成伪标签,然后在考虑每种模态的贡献后选择最终的伪标签。在模态特定伪标签生成器中,我们采用了自适应学习率策略,利用记忆库收集测试期间受试者的数据,并测量与目标受试者的差异。根据差异,采用不同的学习率。我们的方法能适应个体独特的睡眠特征,并有效利用多模态数据的互补优势来解决个体间的分布偏移问题。三个睡眠数据集的实验表明,我们的方法在睡眠阶段分类准确性和受试者适应性方面明显优于目前最先进的基线方法。
下载PDF ▷
推荐阅读
1
2
3
4
邮电设计技术
欢迎扫码关注
微信号:ydsjjs
头条号:邮电设计技术
官方网站:http://ydsjjs.paperopen.com
编辑:李星初 审核:薛海斌