LA新刊抢先看 | 生成式算法在风景园林生成设计中的适应性研究 | 陈然 罗晓敏 何越衡 赵晶*

文化   2024-09-09 13:29   北京  


《风景园林》2024年9期即将出刊,欢迎关注!


/ 文章信息 /

生成式算法在风景园林生成设计中的适应性研究

Research on the Adaptability of Generative Algorithm in Generative Landscape Design

陈然  罗晓敏  何越衡  赵晶*

全文刊登于《风景园林》2024年9期12-23页


/ 文章亮点 /

1、对比测试了当下热门AIGC算法在风景园林生成设计的表现。

2、测试了大语言模型在风景园林领域的表现,并测试RAG,Agent,二次预训练与微调方法的表现。

3、提出GAN+Stable Diffusion的端到端Pipeline,构建从场地条件到高质量平面图的生成框架,并开源代码。

4、提出Grasshopper结合Stable Diffusion的效果图生成方法。


/ 著者简介 /

陈然

男 / 高密度人居环境生态与节能教育部重点实验室联合研究员 / 北京林业大学园林学院在读博士研究生 / 研究方向为设计智能化和深度学习


罗晓敏

女 / 北京林业大学学士 / 清华大学建筑学院在读硕士研究生 / 研究方向为设计智能化和深度学习、生态系统服务


何越衡

女 / 北京林业大学园林学院在读本科生 / 研究方向为设计智能化和深度学习


赵晶

女 / 博士 / 高密度人居环境生态与节能教育部重点实验室联合研究员 / 北京林业大学园林学院教授、博士生导师、副院长 / 城乡生态环境北京实验室成员 / 本刊副主编 / 研究方向为设计智能化、风景园林历史与理论、风景园林规划与设计


/ 文章精华阅读 /


生成式算法在风景园林生成设计中的适应性研究

Research on the Adaptability of Generative Algorithm in Generative Landscape Design


摘要:【目的】测试目前常见的生成式算法在风景园林生成设计中的表现,尝试探讨不同的生成式算法在各个设计环节应用的优劣势。【方法】构建“方案文本生成—场地布局生成—平面图渲染—效果图生成”的风景园林方案生成设计理论框架,在同一个输入条件下测试不同算法在各个设计环节的表现。【结果】方案文本生成算法方面,测试了大语言模型及其在下游应用中的适应性调整方法,包括二次预训练及微调、检索增强生成、多代理系统的方法;图像生成算法方面,测试了大型文生图预训练模型及微调方法、图像结构控制方法;另外,将文生图模型与基于生成对抗网络的布局生成算法、参数化三维模型生成系统结合,并测试其在各个阶段的表现。【结论】目前大型预训练模型以其在通用领域的生成能力为生成设计领域提供强有力的支撑,但预训练模型提供的只是基础的通用能力,从通用领域到风景园林领域的适应性研究还需要检索、控制、微调等多种技术手段协作以开发全面的技术体系。

关键词:风景园林;人工智能;生成设计;大语言模型;稳定扩散模型;生成对抗网络


GPT-4和Stable Diffusion等大型生成式预训练模型带动了新一轮科技革命,也为风景园林生成设计带来了新的机遇和挑战。本研究将生成设计划分为“方案文本生成、场地布局生成、平面图渲染、效果图生成”4个阶段,测试不同生成式算法在各设计任务中的表现。


1  相关技术综述

本节介绍风景园林生成设计4个阶段的研究现状。

1)方案文本生成:任务目标是输入短文本问题,输出长文本设计说明。对应的技术类型主要是大语言模型(LLMs)。LLMs是为通用领域开发的模型,不具备特定领域专业知识,因此LLMs在风景园林应用的研究重点是如何向LLMs注入专业知识,使之适应风景园林领域。目前LLMs鲜有在风景园林领域的相关研究,但医疗、金融等其他领域有多种技术方法针对下游应用的适应性调整,主要包括以下3种。①二次预训练及微调:LLMs经过万亿级token量的通用数据训练,具备了通用领域知识,而重新训练一个特定领域的LLMs成本过高,因此研究人员提出多种轻量化微调方法,利用特定领域的小样本数据微调LLMs,但此处的“小样本数据”只是相较于基座模型而言训练样本量更小,实际上还是需要10亿token以上的数据量。因此即便是微调,实际训练时仍然成本高、效率低。②RAG:直接检索数据库,并通过LLM整合检索答案再输出,确保模型具有准确的专业知识储备,效率高且成本低,但是对于超出数据库的问题泛化能力较差。③Agent:令LLMs模拟多个个体进行交互交流,模拟社会化分工行为,对于复杂任务较为合适,但由于任务过于复杂,常出现不可控、不可评价的问题。

2)场地布局生成阶段:任务目标是输入场地条件,输出设计布局,是设计工作最重要的环节。该阶段典型的研究范式是通过生成对抗网络(GAN)训练模型,直接根据场地条件生成设计布局。尽管目前多数研究认为,将复杂的设计平面图生成过程简化为“图像到图像生成”的研究范式过于简单直接,但直至目前,该领域中GAN系列算法仍是主要方法,主要包括Pix2Pix、CycleGAN等图像翻译算法。算法的黑盒特征导致了设计过程的可解释性低,且目前可供训练的开源数据量不足,是该阶段的2个重要研究瓶颈。

3)平面图渲染阶段:任务目标是输入设计布局,输出设计平面图。在SD、DALL-E等大型文生图(Txt2Img)预训练模型出现之前,平面图渲染任务通常被包含在场地布局生成研究中,大多数研究都是“场地条件—布局生成—平面渲染”的二阶段式研究范式,主要技术手段以GAN为主。而近两年文生图模型也被应用于平面图生成中,由于经过大规模通用领域图像数据训练,文生图模型生成质量明显优于GAN。但与LLMs类似,文生图模型同样存在特定领域适应性问题,在平面图要素识别过程中会出现错误。

4)效果图生成阶段:任务目标是生成平面图对应的三维场景图片,以及表达设计风格、设计细节。由于效果图与通用领域图像中的现实场景照片非常接近,因此SD等文生图模型在生成效果图方面能力较强。但应用在风景园林规划设计中依然存在3个难点。①风格问题:设计风格、氛围的准确表达,通常采用二次预训练与微调方法。②控制问题:图像结构的准确控制,通常采用ControlNet方法。③平面图对应问题:场地空间与平面图空间的准确对应,目前还鲜有成熟的技术方法解决。


2  方法与关键结论

本研究将风景园林设计方案生成过程划分为4个阶段,并对每个阶段的不同生成算法进行了系统的对比研究(图1),并以北京林业大学大三作业“西北旺公园规划设计”作为统一的标准化测试案例。


1 对比研究框架


2.1  方案文本生成阶段

本研究主要比较二次预训练及微调、RAG、Agent 3种方法。目标是输入西北旺公园设计需求,生成完整设计文本(图2)。


2 文本生成对比研究


1)二次预训练及微调:本文基于Llama模型构建人居环境LLM和植物LLM两个模型。实验结果表明,相较于基座模型,微调后的人居环境LLM的表达逻辑更符合设计师的角色,但是在模型逻辑、完整、规范方面与基座模型相比有所欠缺。这有2个方面原因:数据量方面,目前LLMs的二次预训练数据量一般在10亿token以上,本研究模型未达到该训练规模;数据质量方面,本研究模型训练数据未经处理,也未按逻辑分类、切片。一般需要将数据进行严格的分类,甚至训练多个专业模型再融合为大模型。而10亿token以上规模的数据量需求和分类体系构建,从算力和数据角度都是成本极高的工作,这也印证了第1节提到的问题:即便是微调,也离不开数据质量和数量问题。

但人居环境LLM也具有优点,即便数据质量不高,人居环境LLM依然能习得人类设计师常用的语言习惯。这印证了前人研究的观点,模型微调主要培养模型性格、语言习惯靠近专业领域,只有当数据量达到一定程度上才会出现专业知识的“涌现”。

另外,植物LLM回答的设计文本内容会更加靠近人类进行植物规划设计的习惯。但缺陷在于,即在没有提前要求的情况下,生成结果完全偏向植物设计。这说明经过训练后的模型,在一定程度上丧失了原有基座模型在通用领域的推理能力,这也是LLMs下游应用中的常见问题,一般需要多次测试通用数据集和专业数据集的多种配比,这提高了LLMs微调工作的成本。

2)RAG:本研究微调FlagEmbedding模型作为检索工具并建立人居环境文本向量数据库。实验结果表明,生成结果虽准确复现了检索内容,但由于本研究采用朴素RAG策略(即检索后要求LLMs直接根据检索结果响应),生成结果脱离原有问题。这说明要构建完整的专业化LLMs不能直接依靠检索,检索更适用于需要高度准确性的具体问题,如规范性问题、知识查询等。针对规划设计文本这种综合性开放问题,还需经过问题拆解,综合运用微调、思维链(chain of thought, CoT)、RAG、Agent等多种技术构建LLMs体系。如在检索步骤的前后设定更多的指令用于拆解问题、总结答案,以此组合多个代理(Agent),组成RAG+Agent的综合性体系。

3)Agent:本研究基于AutoGEN框架构建Agent系统,模拟人类开会讨论。实验结果表明,Agent系统的推理过程清晰可见,生成结果明显优于LLMs的一次性生成结果。在此过程中,LLMs基座模型没有经过任何微调或检索,但生成结果的逻辑和专业性都有所增强,这是因为在复杂任务中,多角色分阶段推演比一次性回答更好。这与规划设计任务的实际处理流程相似,复杂的工作经常需要分析、推理、试错,而非一次性生成。

但与其他相关研究类似,目前Agent在特定领域任务应用的相关研究中,主要的问题包括不可控和难以评价。控制与评价问题互相关联。控制方面,Agent从单一代理角度增减优化角色设定所带来的影响本身就是随机、不可控的;评价方面,Agent每一轮的交流会带来随机性的累加,难以直接量化评价。这些特性也与人类团体处理复杂任务时的交流相似。

2.2  场地布局生成阶段

1)园林布局生成。本文制作194对“场地条件—场地布局”数据,测试CycleGAN训练策略在布局生成任务上的表现。目标是输入西北旺公园场地条件,生成完整设计布局(图3)。值得关注的是,园林布局生成模型的生成结果与人类设计师方案完全不同,但整体空间布局是符合基本设计规律的。这与常见的深度学习任务不同,其他深度学习任务在训练过程会令算法生成结果逼近答案目标,生成结果与真实解越相似评分越高。而设计任务不追求与训练数据的高度相似性,需要在符合通用设计框架的基础上进行创新。这也解释了CycleGAN策略应用在设计任务上的优势,CycleGAN策略不令算法生成结果逼近真实解,而是令算法先从源域图像生成目标域图像,再从目标域图像生成假源域图像,其训练规则是增加源域图像与最后的假源域图像的相似度,而不是增加目标域与真实解的相似度。这样的无监督策略,能够保证算法在维持源域和目标域对应关系时,依靠的是算法在大量数据中挖掘的隐式规律,而非直接参考答案。


3 园林布局生成


2)园林布局专项生成。进一步地,为了探索该研究目前特有的可解释性问题,本研究进行专项生成研究,以初步探索算法对不同设计要素的布局规律的理解,包含铺装、构筑物、道路、植物4项。在植物的专项生成中,算法可以合理地预留开放空间;在道路的专项生成中,算法生成的道路可以合理地连接各个节点;在铺装的专项生成中,算法可以考虑建筑与铺装的关系,在构筑物周边会预留一部分铺装广场;在铺装(带外环境)的专项生成中,额外对比了外环境道路对铺装生成的影响,在城市道路影响下,铺装设计会考虑外环境道路与出入口关系;在构筑物的专项生成中,算法也考虑到了景观轴线的设置(图4)。


4 园林布局专项生成


另外,由于算法挖掘的是隐式规律,而非强制的显式规则,因此不会在每个方案中出现一样的生成结果。如在构筑物布局专项生成中,并非每个方案都考虑空间轴线,但在部分结果中(如铺装专项、构筑物专项),构筑物和铺装的布局生成都会考虑空间轴线(图5)。


5 园林布局专项生成部分细节


隐式规律也带来一些意想不到的问题。例如道路生成存在断头路的问题,生成的道路不能完整连接所有活动区域。推测这与算法基于概率分布的训练逻辑有关,其挖掘的规律是基于概率分布的规律,而非强制性的设计规则,这种训练逻辑在非强制性规范约束的任务场景中有优势,但遇到强制性规则约束的任务则难以生成合理的结果。

2.3  平面图渲染阶段

1)控制问题。控制问题是平面图渲染的重要问题。GAN系列方法在设计要素的控制上较为准确,SD等文生图模型生成质量较高,为兼顾两者的能力,本研究提出GAN和SD模型相结合的方法,作为一种新的控制方式(图6)。


6 多种控制手段生成方式


为测试本文提出的新方法,对比测试GAN、Img2Img(SD)、ControlNET(SD)、GAN+SD生成结果。

结果显示,在Img2Img方法中,输入的布局图像仅提供颜色信息,因此生成了与输入图像极其相似的结果。而ControlNET方法可以只限定图像结构,图像结构下的各部分语义信息调用的是基座模型的通用能力,因此可以在控制结构的前提下生成平面图内容。但由于ControlNET没有经过专业平面图数据训练,生成结果依然偏离设计常识。

而在本研究开发的GAN+SD方法中,GAN的生成结果提供专业的设计信息(包括图像结构信息和语义信息),SD模型仅用于补充细节,因此在两者结合下生成结果优于其他方法(图7)。


7 多种控制手段生成结果


2)风格问题。为了控制图像风格,本节测试了以下模型:1)使用200张相似平面图训练的基座模型LA_1;2)使用6 000多张多样化平面图训练的基座模型LA_2;3)使用大量风景园林图像(非平面图)训练的LS模型;4)融合了LA_2与LS模型的综合性LA_LS模型。

对比LA_1与LA_2:LA_1模型与基座模型的风格极相似,LA_2模型更加偏离基座模型效果,贴近平面图效果。推测原因与LLMs的二次预训练类似,少量的数据训练仅培养模型性格,很难真正为模型注入新知识。

对比LS、LA_2与LA_LS:LS模型虽经过大量风景园林效果图训练,但缺乏平面图训练,因此在平面图表现上较为一般;LA_2模型经过平面图特定训练,生成结果是标准的平面图样式,但细节不如前者;LA_LS模型的平面图效果最佳。推测原因在于平面图不只是一个类型图片,而是风景园林对象的一个视角的图片,因此增加其他视角的风景园林效果图的训练有助于算法模型对平面图的理解(图8)。


8 不同二次预训练模型基座测试


在本研究的其他实验中,也更加印证了融合模型在经过综合性风景园林数据的训练下,对风景园林平面图的理解能力极强,即便在极为简单的2根线控制下依然能达到极强的生成能力,这种对平面图的理解能力和生成能力是GAN系列算法,以及本研究的改进方法所不能做到的(图9)。


9 线条控制下融合模型基座测试


2.4  效果图生成阶段

效果图生成阶段的目标是基于平面图准确生成三维空间效果。

目前在SD等强大的开源模型支持下,该阶段的智能化生成已经非常成熟,但如前文所述还存在3个主要问题:风格、控制、平面图对应。其中,对于平面图对应问题,目前暂无成熟技术解决,最直接的方法是手工三维建模。为提高该流程智能化水平,本研究针对该问题开发基于Grasshopper的三维模型生成系统,该系统基于场地布局生成简单模型作为ControlNET控制图像,再将ControlNET与SD模型结合进行效果图快速生成(图10)。


10 基于平面生成三维效果


1)控制方面,本研究开发的三维场景控制方法在各种条件下都能基本控制图结构,准确反映平面图上的空间关系,相比之下,线稿控制时,控制图片提供的信息少,在没有ControlNET控制时画面结构无法控制(图11)。


11 不同控制条件下三维场景渲染效果


2)风格方面,测试本文训练的LoRA_1模型(古风风格),结果表明LoRA技术较为灵活,其在各种情况下都能在准确表达空间关系的前提下,稳定的维持特定风格特征(图12)。


12 不同控制条件下特定风格渲染效果


同时,在同一情况下测试本文的多个LoRA模型(古风LoRA_1、拼贴风LoRA_2、马克风LoRA_3),结果表明不同的LoRA可以在同一设计方案中表达特定风格(图13)。


13 相同条件下不同风格渲染效果


二次预训练模型比LoRA方法训练量更大,对于专业知识的注入更多,对比测试前文提出的LS模型和LS_LA模型,结果表明在通过大量数据训练后,极少量的线稿信息也能控制生成高质量效果图。但值得注意的是,我们融合了平面图的LS_LA模型反而效果更差,推测原因是新注入的平面图知识在一定程度上破坏了原有基座模型的效果图生成能力(图14)。


14 线稿信息控制渲染效果


3  结论及展望

在文本生成阶段,通用大模型已展现出强大的文本推理能力。然而,尽管目前的研究通过指令微调、RAG及思维链等方法尝试将这些模型改进以适应特定领域,但风景园林领域的适应性研究极少。目前普遍认为,LLMs在下游领域的适应性研究面临2项挑战:1)存在AI幻觉,缺乏专业数据时模型无法正确理解语义信息;2)长文本理解还存在问题,模型处理多段文本信息时无法保持段落一致性。而根据本研究的初步探索,笔者认为风景园林文本生成是综合性任务,仅通过单纯的微调和RAG无法完全解决该阶段任务的挑战。未来的研究需要结合多种技术手段构建LLMs体系:首先,针对需要高度准确的子任务需借助知识图谱(KG)等可解释技术开发可信的检索系统;其次,针对整个体系的基座需要数倍于10亿级高质量分类数据微调基座模型,令模型习得风景园林规划设计逻辑;最后,由于综合性的规划文本不可能一次性生成,最终模型体系的构建还需要结合Agent与思维链技术设计完整的任务规划系统。

在场地布局生成和平面图渲染阶段,早期研究多采用GAN方法,但随着SD等模型的出现,规划设计等行业的研究焦点从生成向渲染偏移。本研究在平面图生成的基础上比较了文生图和GAN算法,系统总结了目前主流的渲染方法。而这2个阶段的生成设计研究依然面临挑战:1)景观图像缺乏结构化关系;2)缺乏专业数据;3)图纸专业化生成能力不足;4)平面图生成多维信息的能力存在缺陷。未来布局阶段研究应关注平面多维信息编码向三维向量空间的转换,实现对高层次数据的综合分析。渲染阶段未来同样需要解决专业领域模型缺失、元素识别不准确和模型塌陷等问题。

在效果图生成阶段,突出问题在于平面图和效果图的对应,目前三维模型构建主要方法包括参数化、BIM、点云生成及跨视角生成。与BIM等参数化方法不同,其他基于深度学习方法的生成结果通常不可编辑,限制了生成结果的后处理流程,这也是本研究采用参数化方法的原因。但这种基于参数化的三维生成方法生成的模型较为笨重,在未来的研究中,应该关注如何跳过三维模型直接通过多模态大模型快速对应平面图信息。该类型研究属于跨视角生成设计研究,目前还处于初期阶段,主要包括2个方面问题:1)数据集缺乏;2)三维模型构建基于的图像模型在空间一致性方面存在局限性,生成图像质量的稳定性有待提高。

总的来说,未来研究应聚焦于开发能连接设计理论与设计实践的综合性算法,保证设计方案的创新性和实用性,使人工智能算法能有效融入实际设计流程中。这种方法论的进步不仅将促进设计技术发展,也将为设计自动化开辟新的篇章。




图表来源:

文中图表均由作者绘制。



为完善微信阅读体验,文章进行了删减,欢迎阅读全文


/ 引用链接 /

引用本文:陈然,罗晓敏,何越衡,赵晶.生成式算法在风景园林生成设计中的适应性研究[J].风景园林,2024,31(9):12-23.doi: 10.3724/j.fjyl.202404120207.

Citation: CHEN R, LUO X M, HE Y H, ZHAO J. Research on the Adaptability of Generative Algorithm in Generative Landscape Design[J]. Landscape Architecture, 2024, 31(9): 12-23. doi: 10.3724/j.fjyl.202404120207.


文章链接:http://www.lalavision.com/article/doi/10.3724/j.fjyl.202404120207

长按扫描二维码,即可查看原文


 预订新刊 限时特惠 

2024年9期杂志即将付印

新刊单本包邮特惠

仅限今明两日(9月9-10日)

49元/本  包邮

欢迎各位读者预订本期杂志

新刊将于9月10日出版后邮寄

文章编辑 刘昱霏

微信编辑 刘芝若

微信校对 边紫琳

审核 曹娟


声明

本文版权归本文作者所有

未经允许禁止转载

如需转载请与后台联系

欢迎转发

风景园林杂志
《风景园林》杂志社致力于记录国内外风景园林规划与设计以及城市设计、公共艺术等领域的重要事件、新锐思想和优秀作品,是一家集出版、展览、讲座、咨询等学术交流活动于一体的传媒机构。
 最新文章