Poetry2Image：专为中文古诗词图像生成，忠于原诗意境和语义。

文摘科技 2024-09-10 00:00 江苏

直接基于诗句中的文本进行图像生成通常会导致丢失图像中的关键元素。为了解决此问题，哈工大提出Poetry2Image，通过实施有针对性的图像校正解决这个问题，有效地捕捉这首诗所传达的语义和艺术精髓。

Poetry2Image流程分为如下几步：

搜索和翻译：系统会在一个庞大的诗歌数据库中搜索用户提供的古诗，并找出它的现代- 汉语翻译和赏析。
生成初始图像：利用诗歌的现代汉语翻译，系统会生成一幅初步的图像。
提取关键元素：系统会使用一个大型的语言模型来识别并提取诗歌中的关键元素，比如“竹马”或“青梅”。
图像修正：系统会检查生成的图像是否包含了所有这些关键元素。如果没有，系统会提出修改建议，比如添加缺失的元素或调整元素的位置。
迭代优化：如果图像中的元素不完整或不正确，系统会根据建议再次生成图像，这个过程会不断重复，直到图像能够准确反映诗歌的意境。

通过这种方法，Poetry2Image能够生成既美观又忠于原诗意境的图像，即使是对于复杂的古诗，也能够有效地传达其深层含义和艺术精髓。

论文阅读

Poetry2Image:从中国古典诗词生成图像的迭代校正框架

摘要

文本到图像的生成模型在涉及中国古典诗歌的任务中经常会遇到关键元素丢失或语义混淆的问题。通过微调模型解决这个问题需要相当大的训练成本。此外，手动提示重新扩散调整需要专业知识。为了解决这个问题，我们提出了 Poetry2Image，这是一个针对中国古典诗歌生成图像的迭代校正框架。利用外部诗歌数据集，Poetry2Image 建立了一个自动反馈和校正循环，通过图像生成模型和随后由大型语言模型 (LLM) 建议的重新扩散修改来增强诗歌和图像之间的一致性。使用 200 句中国古典诗歌的测试集，所提出的方法与五种流行的图像生成模型相结合，实现了 70.63% 的平均元素完整性，比直接图像生成提高了 25.56%。在语义正确性测试中，我们的方法达到了 80.09% 的平均语义一致性。该研究不仅促进了古诗词文化的传播，也为类似非微调方法提升LLM生成提供了参考。

方法

Poetry2Image的自动迭代校正框架。利用预先构建的诗歌数据集，该过程从提取诗歌和生成初始图像开始，然后实现自反馈图像校正迭代循环。该循环通过利用 LLM 分析诗歌文本的语义和开放词汇检测器 (OVD) 识别的图像元素来发挥作用。然后，它输出指导图像编辑扩散模型的校正建议，不断提供反馈，以逐步将文本语义与图像语义对齐。

关键元素提取模块 LLM Extractor 的示意图。从诗歌数据库中检索诗歌的翻译和评论后，这些文本连同系统提示一起输入到 LLM 中。随后，LLM 输出诗歌中包含的关键元素。

LLM Suggester 的示例，该模块专门用于修改图像边界框。在进行基于 OVD 的元素识别以确定现有边界框后，将翻译、此边界框和系统提示输入到 LLM 中。然后，LLM 根据翻译中的语义信息调整边界框，并输出修改后的边界框。

与图像生成模型的比较。我们的方法通过图像生成模型在元素完整性方面表现出了显著的改进。对于元素完整性，准确率的提高范围从 17.59% 到 33.87%，对于语义一致性，也实现了一定程度的改进。

以下是不同语言的诗歌范例和 Poetry2Image 的测试结果。

日本俳句：水中的月亮；破碎又破碎，但它依然在那里。
美国英语诗歌：独自一人在海滩上度过夜晚，老母亲摇着她沙哑的歌声来回摇摆，当我看着明亮的星星闪耀时，我想到了宇宙和未来的谱号。
英国英语诗歌：哦狂野的西风，你是秋天的气息，你看不见的存在，枯叶被驱赶，就像逃离魔法师的幽灵，黄色、黑色、苍白和疯狂的红色。

左边是直接从文字生成的意思，右边显示了我们方法的修正。

最初，对于日本诗歌，我们选择了著名的松尾芭蕉俳句进行分析。我们的方法准确识别出“断月落水”的隐喻，并进行适当调整天空中月亮的图像反映了这一点。随后，对于英语诗歌，我们测试了惠特曼和雪莱的诗歌。结果表明我们的方法有效地解释和纠正比如“老母亲”和“鬼”之类的隐喻。

效果展示

全流程图像生成效果评估。Peotry2Image 提升了古典诗歌等专业文本的图像生成质量，解决了词素丢失、语义混淆等核心问题。

诗a：酒前高歌，人生苦短，日子过得很快。
诗b：京城里满是豪车华服的贵人，你却才华横溢却面容憔悴。
诗c：清水中斜映着稀疏的梅影，朦胧的月色中飘荡着淡淡的梅花香。
诗d：阳光下的香炉峰笼罩着紫霞，远远望去，一条瀑布如白丝般挂在山前。
诗e：我面对一杯悲酒，离家千里。思绪万千，想着边陲的动乱，想着未竟的事业，想着何时才能回到故乡。
诗f：停下马车只因爱傍晚的枫林，霜染的枫叶，比二月的鲜艳花朵更美丽。

扩散模型无法理解关键因素是“周瑜”，他是一个历史人物，所以不能生成它。在第二首诗中，所有元素都可以被识别，但它不能传达怀旧的感觉献给死去的英雄。生成上图的诗文如下：

诗a：若没有东风的帮助，江南就会一片废墟，美丽的二乔就会永远被关在铜雀楼里。
诗b：当年的人不在了，但易水河今天还是那么冷

结论

我们提出了 Poetry2Image，这是一个集图像生成、错误校正和反馈于一体的迭代校正框架。该框架提高了中国古典诗歌等专业文本的图像生成质量，并解决了元素丢失和语义混淆等核心问题。我们的方法擅长元素丰富或多语言的诗歌，并与其他图像生成模型兼容。此外，我们的方法为类似的非微调方法提供了参考，以增强 LLM 生成。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

http://mp.weixin.qq.com/s?__biz=MzU2OTg5NTU2Ng==&mid=2247487721&idx=2&sn=4ee13e6c8851beac31fecc8370575abf

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

ChatTTS：对话式高可控的语音合成模型，最强文本转语音工具！

Facechain：只需1张照片，10秒就可以生成多种风格个人写真！

MS-Diffusion：一键合成你喜爱的所有图像元素，个性化生成新思路！

IFAdapter：用于基础文本到图像生成的实例特征控制，即插即用，无缝应用于各种社区模型。

Unimate,可根据单张图片和姿势指导生成视频。

AnyControl：精准控制下的创意风暴，高质量图像一键生成！

EchoMimic来袭，音频+面部标志，让你的肖像“活”起来！

FLUX的ID保持项目来了! 字节开源PuLID-FLUX-v0.9.0，开启一致性风格写真新纪元！

商汤发布UniTalker，实现高质量音频驱动3D面部动画生成。

EAFormer：场景文本分割新SOTA，图像文本擦除无痕迹！

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

3D生成新方法！GIMDiffusion：能生成合理的展开贴图和高质量mesh，速度和图像生成平齐！

Unique3D：一键操作，轻松将图片转为逼真高质量3D网格！

StructLDM：高质量可控3D生成并支持编辑。

MotionClone:一键克隆视频运动，让创意无界限！

Motionshop：AI一键替换视频人物为3D角色，效果逼真！

LLM+知识图谱新工具！ iText2KG：使用大型语言模型构建增量知识图谱。

Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

RegionDrag：通过手动拖拽实现图像编辑！

StructLDM：高质量可控3D生成并支持编辑。

新个性化时尚解决方案！Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

One-DM：只需单张参考图，完美仿写各种手写内容！

理想汽车提出3DRealCar：首个大规模3D真实汽车数据集!

图像抠图革新！Matting by Generation生成式抠图技术，智能识别主体，边缘处理细腻入微。

AI可以模仿人类手写签名了？DiffusionPen：实现手写文本生成的风格控制。

开源图像标注工具 X-AnyLabeling v2.4.0 正式发布！

LinFusion: 单GPU一分钟生成16K高清图像，无缝兼容SD插件！

Glyph-ByT5-v2，支持10国语言图文海报生成，效果惊艳！

MeshAnything V2：30秒生成建模师级Mesh。

快手可图上线一键换衣Kolors Virtual Try-On，直冲开源项目Top 1！

[ComfyUI] 中秋特制Flux工作流：月影婆娑月饼小丸子。

Haper SD Lora: 8步就可以用 Flux-dev生成图片!

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

语言/图像/视频模型一网打尽！BigModel大模型开放平台助力开发者轻松打造AI新应用！

CustomCrafter：具有保留动作和概念合成功能的定制视频生成框架！

ReSyncer: 高质量口型同步和个性化微调！

TurboEdit：0.5秒实现高质量文本到图像编辑！

上交提出了多风格面部素描生成模型,有效解决数据不足、风格类型受限等问题。

Poetry2Image：专为中文古诗词图像生成，忠于原诗意境和语义。

Champ：只需要一个视频和一张图片，就能让图片中的人物动起来！

Pix2Gif：一张图就可以生成Gif动图！

AI生图美学在淘宝的实践应用

Google提出第一款游戏生成引擎GameNGen，可以每秒20帧速度实现游戏场景生成和交互！

anytext阿里开源，解决comfyui精准文字控制！

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

开源AI证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

Poetry2Image：专为中文古诗词图像生成，忠于原诗意境和语义。

相关链接

论文阅读

摘要

方法

效果展示

结论