美国军方、加州大学等联合提出通过文本创建3D场景环境

文摘科技 2024-09-11 09:36 广东

通过简单的用户命令创建身临其境和逼真的3D环境

（映维网Nweon 2024年09月10日）对虚拟现实应用日益增长的需求凸显了制作沉浸式3D asset的重要性。在一项研究中，美国军方下属的DEVCOM Army Research Laboratory陆军研究实验室，加州大学和得州大学奥斯汀分校提出了一种从文本到3D的360度场景生成管道，而它可以在数分钟内为in-the-wild环境创建全面的360度场景。

文生3D在VR/MR等领域存在巨大潜在应用，并极大地推动了旨在开发大规模沉浸式场景内容创作可靠方法的研究工作。最近在2D领域的发展已经看到了使用大规模预训练扩散模型成功生成或编辑高质量和适应性强的图像/视频，允许用户按需生成定制内容。

在2D之外，3D内容的生成，特别是3D场景的生成，受到数据对有限可用性的限制。所以，3D内容创建的努力往往依赖于利用大规模2D模型。然而，相关方法往往存在渲染质量较低的问题，主要是因为2D模型的多视图不一致，并且难以扩展到具有精细细节纹理创建的场景尺度3D结构，特别是对于面向外的视点和无限场景规模的户外场景。

3D生成的另一种途径是从显式表示中获得见解，例如点云和网格。相关方法试图通过初始化明确的3D表示来弥合2D和3D生成之间的差距，然后逐步扩展学习的3D表示以涵盖更广泛的视场。然而，它们所利用的渐进式优化框架难以填补大量缺失区域，特别是在无约束条件下针对360度场景时会导致明显扭曲和脱节的结构。

另外，文本到图像生成中的快速工程问题在文本到3D生成框架中变得更加明显，导致大量的试错努力来实现所需的3D场景。

为了解决上述挑战，团队引入了DreamScene360。所述方法最初利用文本到全景扩散模型的生成能力来生成全方位360度全景图，从而提供场景的全面表示。然后，采用自细化机制增强图像，减轻提示工程，集成GPT-4V，并通过迭代质量评估和提示修订来提高视觉质量和文本-图像对齐。

尽管生成的全景图像克服了不同视点的视图一致性问题，但它们依然缺乏深度信息和无约束设置下的任何布局先验。为了解决这个问题，团队通过使用预训练的单目深度估计器以及可优化的几何场来初始化比例一致的场景几何，从而促进每个视角投影像素的可变形对齐。

由单视图观测产生的间隙可以通过创建一组具有合成多视图效果的伪视图，以及从2D模型提取伪几何和语义约束的伪视图来将高斯变形到未见区域来填充，从而减轻伪影。

相关论文：DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting

https://paper.nweon.com/16049

总的来说，框架DreamScene360可以通过简单的用户命令创建身临其境和逼真的3D环境，为高质量3D场景的迫切需求提供了一种新颖的解决方案。所述研究同时减少了对大量手动工作的依赖，为更易于访问和用户友好的3D场景生成铺平了道路。

---
原文链接：https://news.nweon.com/124324

http://mp.weixin.qq.com/s?__biz=MzUzMDczNjc0OQ==&mid=2247550611&idx=3&sn=7c3874d0f2777fc42c5a970220f43948

映维网Nweon

映维网是一个始于2014年10月的增强现实（AR）、虚拟现实（VR）产业信息数据平台，专注于AR/VR产业发展及市场教育培养，致力于引导全球AR/VR产业发展，服务于全球各地的AR/VR创业者。

最新文章

Sandbox VR称《尸森血谷》门票售出100万+，营收超5200万美元

老牌VR游戏工作室nDreams宣布裁员17.5％，并将调整战略重点

《纽约时报》将热门字谜游戏《Wordle》带到Meta Quest

“战锤40K”的首个VR街机版将在9月25日登陆Zero Latency

德勤与苹果和Salesforce合作，用空间计算变革现场服务

VRpilot用PICO头显为Sun Country Airlines培训飞行员

苹果正式为Apple Vision Pro发布visionOS 2

IDC：2024年Q2全球AR/VR出货量同比下滑28.1％

2024年09月14日美国专利局新申请AR/VR专利摘选

美国退役军人事务部用PICO头显进行预防性骚扰培训

索尼发布PSVR2 App 2.0.0，可调整刷新率并修复旋转畸变

多人动作冒险游戏《Frenzy Extinction》登陆Steam和Meta Quest

更多疑似Quest 3S的实机图泄露，没有3.5mm耳机插孔

Meta官方支持页面证实Quest 3S有切换VR/MR的动作按钮

大朋VR PCVR新品亮身GTI展会，与多家游艺合作伙伴一起带来VR新体验

Meta Store每周新内容

Steam VR 每周新内容

PlayStation VR Store 每周新内容

OpenCV分享：计算机视觉工程师的角色——成功之路

宣布收费一年后，Unity向社区服软，再宣布取消“运行时费用”

军工需求旺盛，XR头显厂商Varjo在芬兰开设新制造厂

热门游戏《人类：一败涂地》宣布将开发VR版本

《Gorilla Tag》访谈：最初只想做一款自己喜欢玩的游戏

歌尔光学亮相2024中国光博会，一文读懂六大光学新品

Vision Pro的Persona虚拟键盘输入会泄密，最新版本已修复漏洞

躲猫猫式VR射击游戏《Mannequin》登陆Meta Quest

Meta CTO证实在研发眼镜形态MR设备

Varjo向乌克兰交付F16战斗机MR模拟器培训飞行员

AR微型投影仪开发商TriLite宣布完成A轮扩展融资

第三方开发者为PSVR 2 PC适配器提供控制器自适应扳机键支持

苹果证实AirPods 4可为Vision Pro提供低延迟无损音频

英国一学院开设无教师而由AI+VR授课的中等教育证书课程

美国FDA：越来越多AR/VR技术医疗设备获批准，预计趋势继续增多

美医疗机构Highmark宣布为400万会员提供基于PICO的VR治疗方案

Meta CTO：PICO体感追踪器很酷，但暂无计划推类似产品

Meta CTO：Connect大会将发布的AR设备具有开创性

研究员用人体热量为可穿戴设备供电，有望融入AR/VR配件

苹果为Vision Pro发布NFL超级碗沉浸式视频

Meta Connect 2024大会25日议程已经公布

上手体验：Omni One跑步机+定制PICO 4E头显

为降成本，Apple Vision低价版可能用OLED而非Micro OLED

苹果向美国警方演示Vision pro警务工作，拓展警务业务

美国军方、加州大学等联合提出通过文本创建3D场景环境

欧洲XR联盟XR-Interaction称要抱团对抗中、美，已获德政府三年财政支持

索尼发布PS5 Pro，为PS VR2带来更高帧率、分辨率

CREAL和蔡司合作，将光场技术应用到视力检查

SkyView Innovations收购AR/VR ToB解决方案创企OMM

Mojo Vision与CY Vision共同开发Micro LED技术AR HUD

现iPhone 16和iPhone 16 Plus也支持空间视频拍摄了

大朋VR获得国家级专精特新“小巨人

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉