点击下方“PaperEveryday”,每天获得顶刊论文解读
点击加入论文投稿、写作、阅读分享交流群
论文信息
题目:Perceptual Video Coding for Machines via Satisfied Machine Ratio Modeling
通过满意机器比率建模的机器感知视频编码
作者:Qi Zhang; Shanshe Wang; Xinfeng Zhang; Chuanmin Jia; Zhao Wang; Siwei Ma; Wen Gao
源码链接:https://github.com/ywwynm/SMR
论文创新点
SMR新度量:提出了Satisfied Machine Ratio(SMR),一个衡量机器对压缩图像满意度的新指标。 大规模SMR数据集:构建了大规模SMR数据集,促进了机器视觉领域的研究。 SMR预测模型:开发了基于深度学习的SMR预测模型,显著提升了机器视觉压缩性能。
摘要
关键字
机器视觉视频编码 感知编码 可察觉差异 满意用户比率
I. 引言
我们通过两项先导研究展示了在VCM中涉及多样化机器的必要性。第一项研究表明,不同机器对相同压缩质量的图像有不同的感知。第二项研究表明,针对一台机器优化编码器可能会降低另一台机器的性能。据我们所知,我们是第一个全面解决VCM中机器多样性问题的人。 我们提出了一个新概念,满意机器比率(SMR),以模拟VCM的一般MVS特性。SMR定义为对压缩图像或视频帧的满意度评分高于合理阈值的机器的比例。每个满意度评分都是基于机器对原始和压缩图像的感知差异来计算的。据我们所知,我们是第一个探索机器的SUR。 我们在两个基本的机器视觉任务上研究SMR:图像分类和目标检测。我们构建了两个代表性的机器库来分析MVS行为,分别为每个任务包含多达72和98种不同的机器。利用这些机器进行SMR注释,我们创建了一个包含超过2700万张图像、37个压缩质量水平和超过5.93亿个真实标签的大规模SMR数据集。该数据集促进了进一步的SMR研究。 我们分析了SMR数据集,以揭示图像级别上的MVS特性和数据集级别的聚合特性。我们发现,面对压缩质量降低时,MVS在许多图像上表现出独特的JND特性,与HVS的模式不同。我们还发现,SMR和SUR有实质性差异,突出了机器与人类在感知特性上的不同。 我们提出了SMR建模任务。我们发现深度特征差异和SMR之间存在非线性负相关性。利用这种相关性,我们设计了一个全参考SMR预测模型来预测任何图像或视频帧的SMR。该模型为SMR预测和SMR引导的编码优化任务提供了一个坚实的基线。此外,我们引入了一个辅助任务,预测两个不同压缩质量图像之间的SMR差异,充分利用所有标记数据并提高SMR预测精度。 我们进行了广泛的实验,验证了我们提出的SMR模型在预测SMR和提高机器压缩性能方面的有效性。我们通过使用预测的SMR作为编解码器的优化目标,实现了显著的编码增益。至关重要的是,我们的SMR模型在未见过的机器、编解码器、数据集和帧类型上具有很强的泛化能力。这些评估为未来在这方面的工作建立了一个可靠的基准。
III. 机器多样性
: 不令人满意,因为一台机器的看法得到改善,而另一台恶化,即针对一台机器的编解码器优化导致另一台机器的性能变差。 : 不相关,因为一台机器的看法保持不一致,而另一台甚至恶化,即编解码器修改对两台机器都不是优化,这应该从本讨论中排除。 : 当qmod > qbase时不令人满意,因为一台机器的看法在比特率降低后仍然一致,而另一台恶化,即针对一台机器的编解码器优化导致另一台机器的性能变差。但如果qmod < qbase,则无关,因为修改对两台机器都不是优化,这应该从本讨论中排除。 : 不令人满意,因为一台机器的看法得到改善,而另一台保持不一致,即针对一台机器的编解码器优化对另一台机器无效。 : 令人满意,因为一台机器的看法得到改善,而另一台保持一致。
IV. 满意机器比率
V. SMR数据集
A. 图像准备
B. 机器库构建
C. SMR注释
D. 数据集研究
E. SMR与JND
F. SMR与SUR
VI. SMR建模
VII. 实验
A. 实现细节
B. 评估协议
我们选择几个SMR阈值形成一个集合TSMR,覆盖广泛的比特率和可达的SMR值。 对于TSMR中的每个阈值TSMR,参考已知的SMR分布DSMR = {SMRq1, SMRq2, ..., SMRqn},我们搜索满足SMRqb ≥ TSMR的QP qb作为基线。如果没有QP完全匹配,我们选择具有最小|SMRqb − TSMR|的QP。 我们使用提出的SMR模型预测使用QP = qb, qb+1, qb+2, ..., qn压缩的图像的SMR。预测的SMR记为SMRpred(·)。 我们反向搜索预测的SMR以找到第一个SMRpred(Iqb+k) ≥ TSMR。相应的qb+k被认为是压缩I0的最优QP。
C. 基本结果
D. 在未见机器上的泛化
E. 在未见编解码器上的泛化
F. 在未见数据集上的泛化
G. 在帧间编码上的泛化
H. 与最先进的感知VCM方法比较
VIII. 结论
声明
#论 文 推 广#
让你的论文工作被更多人看到
你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 PaperEveryday 小编