首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

阿里达摩院提出开源AI图片上色模型DDColor:可以为黑白照片、人物、动漫风景等一键上色!

文摘 2025-01-12 00:01 江苏

DDColor 可以为历史黑白老照片提供生动自然的着色。它甚至可以对动漫游戏中的风景进行着色/重新着色，将您的动画风景转变为逼真的现实生活风格！

相关链接

项目：github.com/piddnad/DDColor
Demo：replicate.com/piddnad/ddcolor
论文：arxiv.org/abs/2212.11613

论文阅读

摘要

图像着色是一个具有挑战性的问题，由于多模态不确定性和高病态性。直接训练深度神经网络通常会导致错误语义色彩和色彩丰富度低。虽然基于转换器的方法可以提供更好的结果，但它们经常依赖在人工设计的先验上，泛化能力差，而且会引入色差效应。

为了解决这些问题，我们提出了一个端到端图像着色用双解码器方法。我们的方法包括一个像素解码器和一个基于查询的颜色译码器。前者恢复图像的空间分辨率而后者则利用丰富的视觉特征进行细化颜色查询，从而避免手工制作的先验

我们两个解码器一起工作，以建立之间的相关性通过交叉注意进行颜色和多尺度语义表征，显著缓解了颜色出血效应。此外，还引入了一种简单而有效的色彩损失来增强色彩的丰富度。大量的实验表明，DDColor在数量上都比现有的最先进的作品具有优越的性能和定性。

方法

视觉对比。新的着色方法DDColor，能够产生更自然的着色效果与现有方法相比，在包含多个对象和不同背景的复杂场景中进行生动的着色。

方法概述

我们提出的模型DDColor以端到端的方式对灰度图像xL进行着色。我们首先使用骨干网络提取其特征，然后将其输入到像素解码器中以恢复空间结构图像的。同时，颜色解码器对不同尺度的视觉特征进行颜色查询，学习语义感知的颜色表示

结构

彩色解码器块。以图像特征和颜色查询作为输入，颜色解码器块建立相关性通过交叉注意、自我注意和前馈操作在语义和颜色表征之间进行。

简而言之，DDColor使用多尺度视觉特征来优化可学习的颜色标记(即颜色查询)，并在自动图像着色上实现最先进的性能。

实验

DDColor可以为历史黑白老照片提供生动自然的着色。

它甚至可以对动画游戏中的风景进行着色/重新着色，将您的动画风景转变为现实生活中的风格!

总结

在这项工作中，我们提出了一种端到端图像着色方法。DDColor的关键在于两个解码器的设计:颜色解码器，它通过使用基于查询的转换器来学习语义感知的颜色查询产生多尺度视觉特征以优化颜色查询。我们的方法在这两方面都超越了以前的方法性能和生成现实和语义一致的着色的能力。

感谢你看到这里，也欢迎点击关注下方公众号或者扫描添加下方公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

AIGC_Tech小助手

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

最新文章

一键试衣or一键脱衣？TryOffAnyone：从人像输入中生成高质量平铺服装。

NeurIPS 2024 | SHMT：通过潜在扩散模型进行自监督分层化妆转移（阿里&武汉理工）

阿里达摩院提出开源AI图片上色模型DDColor:可以为黑白照片、人物、动漫风景等一键上色!

Adobe发布TurboEdit：可以通过文本来编辑图像，编辑时间<0.5秒！

2024 AI TimeLine 回顾（独家视角）

东京大学 | Adobe 提出InstructMove，可通过观察视频中的动作来实现基于指令的图像编辑。

提出街景定位大模型AddressCLIP：一张图实现街道级精度定位！

谷歌DeepMind重磅推出多视角视频扩散模型CAT4D，单视角视频也能转换多视角了。

Open-Sora: 让所有人都能轻松制作高效视频,可生成16秒720P视频，模型代码全开源！

Face2QR:可根据人脸图像生成二维码，还可以扫描，以后个人名片就这样用了！

AI生成大片，Movie Gen可以生成长视频并配上完美的音效，带给观众更好的观看体验。

组件可控个性化生成方法MagicTailor：生成过程可自由地定制ID。

Google发布新AI工具Whisk：使用图像提示代替文本，快速完成视觉构思。

多模态图像生成模型Qwen2vl-Flux，利用Qwen2VL视觉语言能力增强FLUX，可集成ControlNet

字节 & 清华大学提出 AnyDressing ：通过潜在扩散模型实现可定制的多服装虚拟试穿。

NVIDIA发布GeForce RTX 50 系列，图形性能翻倍，售价549美元起！

实时高保真人脸编辑方法PersonaMagic，可根据肖像无缝生成新角色、风格或场景图像。

参数减少99.5%，媲美全精度FLUX！字节跳动等发布首个1.58-bit FLUX量化模型

复旦&字节提出layout-to-image新范式，支持基于布局的MM-DiT架构下可控图像生成！

MinT: 第一个能够生成顺序事件并控制其时间戳的文本转视频模型。

单幅图像合成 360° 3D场景的新方法：PanoDreamer，可同时生成全景图像和相应的深度信息。

提出街景定位大模型AddressCLIP：一张图实现街道级精度定位！

谷歌DeepMind重磅推出多视角视频扩散模型CAT4D，单视角视频也能转换多视角了。

ComfyUI | Flux实拍与卡通风格lora推荐, 用于一键生成创意图像，支持用户输入特定描述。

设计小白秒变大师？AnyDesign：你的时尚图像编辑神器！

东京大学 | Adobe 提出InstructMove，可通过观察视频中的动作来实现基于指令的图像编辑。

实时高保真人脸编辑方法PersonaMagic，可根据肖像无缝生成新角色、风格或场景图像。

厦门大学联合网易提出StoryWeaver，可根据统一模型内给定的角色实现高质量的故事可视化

北航 | 第一个多功能即插即用适配器MV-Adapter：轻松实现多视图一致图像生成。

NeurIPS 2024 | SHMT：通过潜在扩散模型进行自监督分层化妆转移（阿里&武汉理工）

字节 & 清华大学提出 AnyDressing ：通过潜在扩散模型实现可定制的多服装虚拟试穿。

NeurIPS2024 | OCR-Omni来了！字节&华师提出统一的多模态生成模型TextHarmony。

Adobe发布TurboEdit：可以通过文本来编辑图像，编辑时间<0.5秒！

DeepSeek-V3 正式发布，已在网页端和 API 全面上线，性能领先，速度飞跃。

港大&Adobe提出通用生成框架UniReal：通过学习真实世界动态实现通用图像生成和编辑。

腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT

一个LoRA同时处理内容和风格？UIUC提出UnZipLoRA，可同时训练两个LoRA，与原有LoRA兼容。

小米SU7璀璨洋红限定色360°全景图首次曝光？TRELLIS给你答案，实现可扩展多功能3D生成。

复旦&微软提出StableAnimator：可实现高质量和高保真的ID一致性人类视频生成

Qwen团队重磅上线视觉推理大模型QVQ-72B-preview，一键解答作业难题。

图像超分辨新SOTA！南洋理工提出InvSR,利用大模型图像先验提高SR性能, 登上Huggingface热门项目。

可控人物图像生成统一框架Leffa，可精确控制虚拟试穿和姿势转换！

MinT: 第一个能够生成顺序事件并控制其时间戳的文本转视频模型。

文生图像编辑来了！英伟达提出Add-it，无需训练，可根据文本提示向图像添加对象。

组件可控个性化生成方法MagicTailor：生成过程可自由地定制ID。

InstructG2I：从多模态属性图合成图像，结合文本和图信息生成。

厦门大学联合网易提出StoryWeaver，可根据统一模型内给定的角色实现高质量的故事可视化

创作智能助手，能够根据剧本文字和对话自动检索电影并可视化！

统一的图像生成模型OmniGen：可以根据多模态提示直接生成各种图像，无需额外插件。

GroundingBooth：一个用于文本到图像的定制框架，支持多主题和文本联合接地定制！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉