WXRedian | AI研究前瞻

公众号 AI研究前瞻

周期

共找到 98 条记录

11.30-1|VLM推理路径批判优化推理过程；非梯度引导的T2V文本到视频合成

文摘 2024-11-30 23:49 西藏

多模态推理与生成：VLM推理路径批判优化推理过程；非梯度引导的T2V文本到视频合成Critic-V: VLM Critics Help Catch VLM Errors i ...

11.30-2|自动T2I，prompt生成，模型自动选择，参数自动生成

文摘 2024-11-30 23:49 西藏

文本生成与图像合成：自动T2I，prompt生成，模型自动选择，参数自动生成ChatGen: Automatic Text-to-Image Generation From ...

11.30-3|VTOFF，虚拟试穿，高保真重建

文摘 2024-11-30 23:49 西藏

虚拟试穿与高保真重建：VTOFF，虚拟试穿，高保真重建TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Recon ...

11.30-4|长文本多领域关键词提取；大规模泛非洲英语多专业医学问答数据集

文摘 2024-11-30 23:49 西藏

关键短语提取与医学问答：长文本多领域关键词提取；大规模泛非洲英语多专业医学问答数据集LongKey: Keyphrase Extraction for Long Docum ...

11.30-5|无位姿信息的3DGS重建，自监督

文摘 2024-11-30 23:49 西藏

3D重建与自监督学习：无位姿信息的3DGS重建，自监督SelfSplat: Pose-Free and 3D Prior-Free Generalizable 3D Gau ...

11.29-1|ROICtrl，多实例生成，区域控制；

文摘 2024-11-29 09:43 西藏

视觉生成与控制：ROICtrl，多实例生成，区域控制；ROICtrl: Boosting Instance Control for Visual Generation202 ...

11.29-2|单目视频生成4D场景；不同视觉层次的高保真文本-3D数据集；3D凸点云，3D表示；3D角色绑定、蒙皮

文摘 2024-11-29 09:43 西藏

多视图与3D生成：单目视频生成4D场景；不同视觉层次的高保真文本-3D数据集；3D凸点云，3D表示；3D角色绑定、蒙皮CAT4D: Create Anything in 4 ...

11.29-3|交错文本-图像生成评估，场景图结构，一致性评估

文摘 2024-11-29 09:43 西藏

文本与图像生成评估：交错文本-图像生成评估，场景图结构，一致性评估Interleaved Scene Graph for Interleaved Text-and-Imag ...

11.29-4|大模型GUI自动化、GUI智能体综述，人机交互

文摘 2024-11-29 09:43 西藏

大语言模型与界面交互：大模型GUI自动化、GUI智能体综述，人机交互Large Language Model-Brained GUI Agents: A Survey202 ...

11.29-5|无需微调的个性化图像生成；VAR解码加速；身份一致性保留视频生成；自动驾驶生成式扩散决策；T2I图像细节层次控制

文摘 2024-11-29 09:43 西藏

个性化与高效生成：无需微调的个性化图像生成；VAR解码加速；身份一致性保留的视频生成；自动驾驶生成式扩散决策模型；T2I图像细节层次控制DreamCache: Finetu ...

11.28-1|GUI视觉智能体，操作自动化；草图绘画过程模拟；图像区域感知，区域密集描述

文摘 2024-11-28 16:22 西藏

人机交互与视觉语言整合：GUI视觉智能体，操作自动化；草图绘画过程模拟；图像区域感知，区域密集描述ShowUI: One Vision-Language-Action Mo ...

11.28-2|长序列高效推理注意力；免训练多模态无效 token 剔除

文摘 2024-11-28 16:22 西藏

大模型推理与加速：长序列高效推理注意力；免训练多模态无效 token 剔除Star Attention: Efficient LLM Inference over Long ...

11.28-3|UV空间的3D纹理生成；自监督点云表示学习；3D对象生成与理解

文摘 2024-11-28 16:22 西藏

三维图形与生成模型：UV空间的3D纹理生成；自监督点云表示学习；3D对象生成与理解TEXGen: a Generative Diffusion Model for Mesh ...

11.28-4|多模态大语言模型评估综述；视觉-语言生成奖励模型评估

文摘 2024-11-28 16:22 西藏

多模态大模型评估与应用：多模态大语言模型评估综述；视觉-语言生成奖励模型评估MME-Survey: A Comprehensive Survey on Evaluation ...

11.28-5|使用视频生成完成图像编辑；图片对象插入，身份保持，在插入时进行编辑

文摘 2024-11-28 16:22 西藏

图像编辑与生成：使用视频生成完成图像编辑；图片对象插入，身份保持，在插入时进行编辑Pathways on the Image Manifold: Image Editing ...

11.27-1|材质，纹理生成，自由光照高保真渲染；3DGS生成与编辑

文摘 2024-11-27 00:57 浙江

3D物体材质生成与编辑：材质，纹理生成，自由光照高保真渲染；3DGS生成与编辑Material Anything: Generating Materials for Any ...

11.27-2|T2I零样本ID保持；视觉token因式量化

文摘 2024-11-27 00:57 浙江

文本与图像生成技术：T2I零样本ID保持；视觉token因式量化Large-Scale Text-to-Image Model with Inpainting is a Z ...

11.27-4|医疗多模态模型；多模态推荐系统

文摘 2024-11-27 00:57 浙江

多模态医疗AI与个性化推荐：医疗多模态模型；多模态推荐系统VisualLens: Personalization through Visual History2024-11 ...

11.27-5|RAG参与故事视频生成，高一致性；扩散模型ID保持，图像编辑

文摘 2024-11-27 00:57 浙江

故事视频生成与多任务扩展：RAG参与故事视频生成，高一致性；扩散模型ID保持，图像编辑DreamRunner: Fine-Grained Storytelling Vide ...

11.27-3|LLM作为评估者综述；跨模态知识迁移；多头MOE；从GPT-O1中提取长推理链

文摘 2024-11-27 00:57 浙江

大语言模型与知识传递：LLM作为评估者综述；跨模态知识迁移；多头MOE；从GPT-O1中提取长推理链From Generation to Judgment: Opportu ...

« 12 3 4 5 »

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉