在计算机视觉中分离“融合”的人类
新加坡现代汽车集团创新中心的一篇新论文提供了一种在计算机视觉中分离“融合”人类的方法——在物体识别框架发现人类在某种程度上与另一个人类“太接近”的情况下(例如作为“拥抱”动作或“站在后面”的姿势),并且无法解开所代表的两个人,将他们混淆为一个人或一个实体。
两者合而为一,但这在语义分割中并不是一件好事。在这里,我们看到论文的新系统在复杂且具有挑战性的图像中对相互交织的人进行个体化方面取得了最先进的结果。
这是一个值得注意的问题,近年来在研究界受到了极大的关注。在没有明显但通常负担不起的超大规模费用的情况下解决这个问题,以人为主导的自定义标签最终可以改善文本到图像系统中的人类个性化,例如稳定扩散,在提示姿势需要多人的情况下,这种系统经常将人们“融化”在一起彼此靠近。
拥抱恐怖——文本到图像的模型,如 DALL-E 2 和 Stable Diffusion(均在上面介绍)难以代表彼此非常接近的人。
尽管 DALL-E 2 和 Stable Diffusion 等生成模型(据任何人所知,在闭源 DALL-E 2 的情况下)目前无论如何都没有使用语义分割或对象识别,但这些怪诞的人工合成器不能目前可以通过应用这种上游方法来治愈——因为最先进的对象识别库和资源在解开人方面并不比基于CLIP的潜在扩散模型工作流好多少。
为了解决这个问题,题为“人类不需要标记更多人类:遮挡复制和粘贴用于遮挡人类实例分割”的新论文调整并改进了最近对半合成数据的“剪切和粘贴”方法,以实现新的 SOTA 领先任务,即使面对最具挑战性的源材料:
新的遮挡复制和粘贴方法目前在该领域处于领先地位,甚至与以前的框架和方法相比,这些框架和方法以复杂和更专用的方式应对挑战,例如专门为遮挡建模。
把它剪掉!
修改后的方法——名为Occlusion Copy & Paste——源自 Google Research 领导的 2021 年Simple Copy-Paste论文,该论文表明,将提取的对象和人叠加在不同的源训练图像中可以提高图像识别系统的离散化能力在图像中找到的每个实例:
从 2021 年 Google Research 主导的论文“Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation”中,我们看到从一张照片“迁移”到其他照片的元素,目的是训练更好的图像识别模型。
新版本在这种自动和算法“重新粘贴”中增加了限制和参数,将这个过程类比为一个图像“篮子”,其中充满了基于几个关键因素“转移”到其他图像的潜在候选者。
OC&P 的概念工作流程。
控制元素
这些限制因素包括发生剪切和粘贴的可能性,这确保了该过程不会一直发生,这将实现破坏数据增强的“饱和”效果;一个篮子在任何时候都会拥有的图像数量,其中更多的“片段”可能会提高实例的多样性,但会增加预处理时间;和range,它确定将粘贴到“主机”图像中的图像数量。
关于后者,论文指出“我们需要发生足够的遮挡,但不要太多,因为它们可能会使图像过度混乱,这可能不利于学习。”
OC&P 的另外两项创新是目标粘贴和增强实例粘贴。
有针对性的粘贴可确保合适的图像落在目标图像中的现有实例附近。在之前的方法中,从之前的工作来看,新元素只被限制在图像的边界内,没有考虑上下文。
尽管这种带有针对性粘贴的“粘贴”对人眼来说是显而易见的,但 OC&P 及其前身都发现,增加视觉真实性并不一定很重要,甚至可能是一种负担(参见下面的“现实咬伤”)。
另一方面,增强的实例粘贴确保粘贴的实例不会表现出“独特的外观”,最终可能会以某种方式被系统分类,这可能会导致排除或“特殊处理”,从而阻碍泛化和适用性. 增强粘贴可调节亮度和锐度、缩放和旋转以及饱和度等视觉因素以及其他因素。
从新论文的补充材料来看:将 OC&P 添加到现有的识别框架中是相当简单的,并且会在非常接近的范围内产生优越的个体化。
此外,OC&P 规定了任何粘贴实例的最小大小。例如,可以从大量人群场景中提取一个人的图像,然后将其粘贴到另一幅图像中——但在这种情况下,所涉及的少量像素不太可能有助于识别。因此,系统根据目标图像的均衡边长比应用最小比例。
此外,OC&P 制定了规模感知粘贴,除了寻找与粘贴主题相似的主题外,它还考虑了目标图像中边界框的大小。然而,这并不会导致人们认为合理或真实的合成图像(见下图),而是以有助于训练的方式将语义上恰当的元素组合在一起。
眼见为实
OC&P 所基于的先前工作和当前实施都对真实性或任何最终“蒙太奇”图像的“照片真实性”给予了低溢价。虽然重要的是最终的组装不要完全落入达达主义(否则受过训练的系统的真实世界部署永远不会希望在他们接受训练的场景中遇到元素),但这两项举措都发现“视觉”的显着增加可信度”不仅增加了预处理时间,而且这种“真实感增强”实际上可能适得其反。
来自新论文的补充材料:带有“随机混合”的增强图像示例。尽管这些场景对一个人来说可能会让人产生幻觉,但它们仍然将相似的主题放在一起;尽管遮挡对人眼来说是奇幻的,但无法提前知道潜在遮挡的性质,也无法对其进行训练——因此,这种奇异的“截断”形式足以迫使受过训练的系统去寻找识别出部分目标对象,而无需开发复杂的 Photoshop 风格的方法来使场景更加合理。
数据和测试
在测试阶段,该系统在MS COCO数据集的person类上进行了训练,包含 64,115 张图像中的 262,465 个人类示例。然而,为了获得比 MS COCO 质量更好的掩码,图像还接受了LVIS掩码注释。
来自 Facebook 研究的 LVIS 于 2019 年发布,是用于大型词汇实例分割的海量数据集。
为了评估增强系统对抗大量被遮挡的人体图像的能力,研究人员将 OC&P 与OCHuman(Occluded Human)基准进行对比。
OCHuman 数据集的示例,在 2018 年为支持 Pose2Seg 检测项目而引入。该计划旨在通过使用人的姿态和姿势作为代表身体的像素的语义分隔符来改进人的语义分割。
由于没有对 OCHuman 基准进行详尽的注释,新论文的研究人员创建了一个仅包含完全标记的示例的子集,名为 OCHuman FL。这将用于验证的 1,113 个图像中的人员实例数量减少到 2,240 个,在用于测试的 951 个实际图像中减少 1,923 个实例。使用平均平均精度 (mAP) 作为核心指标,对原始集和新策划的集进行了测试。
为了保持一致性,该架构由具有ResNet-50主干和特征金字塔网络的Mask R-CNN组成,后者在准确性和训练速度之间提供了可接受的折衷。
由于研究人员已经注意到上游ImageNet影响在类似情况下的有害影响,整个系统在 4 个 NVIDIA V100 GPU 上从头开始训练 75 个 epoch,遵循 Facebook 2021 年发布的Detectron 2的初始化参数。
结果
除了上述结果之外,针对测试的MMDetection(及其三个相关模型)的基线结果表明,OC&P 在从复杂的姿势中识别出人类的能力方面明显领先。
除了优于PoSeg和Pose2Seg 之外,也许该论文最杰出的成就之一是该系统可以非常普遍地应用于现有框架,包括那些在试验中与之抗衡的框架(参见第一个结果框中的有/无比较,在文章开头附近)。
论文的结论是:
'我们方法的一个主要好处是它很容易与任何模型或其他以模型为中心的改进一起应用。考虑到深度学习领域发展的速度,拥有与训练的其他各个方面高度互操作的方法对每个人都是有利的。作为未来的工作,我们将其与以模型为中心的改进相结合,以有效解决被遮挡的人实例分割问题。
改进文本到图像合成的潜力
主要作者 Evan Ling 在给我们的一封电子邮件中观察到,OC&P 的主要好处是它可以保留原始面具标签,并在新的环境中“免费”从它们那里获得新的价值——即它们一直存在的图像粘贴到。
尽管人类的语义分割似乎与稳定扩散等模型在个体化人方面的困难密切相关(而不是像通常那样“将它们混合在一起”),但语义标签文化可能对噩梦般的人类产生任何影响SD和DALL-E 2经常输出的渲染是非常非常上游的。
填充稳定扩散生成能力的数十亿个LAION 5B子集图像不包含对象级标签,例如边界框和实例掩码,即使从图像和数据库内容组成渲染的 CLIP 架构可能在某些时候受益于此类实例化;相反,LAION 图像被标记为“免费”,因为它们的标签来自元数据和环境说明等,当它们从网络上抓取到数据集中时,它们与图像相关联。
“但除此之外,”玲告诉我们。'在文本到图像生成模型训练期间可以使用类似于我们的 OC&P 的某种增强。但我认为增强训练图像的真实性可能会成为一个问题。
“在我们的工作中,我们表明,监督实例分割通常不需要‘完美’的真实性,但我不太确定是否可以为文本到图像生成模型训练得出相同的结论(尤其是当它们的输出预计将是高度现实的)。在这种情况下,可能需要在增强图像的“完美”真实性方面做更多的工作。
CLIP已经被用作语义分割的一种可能的多模态工具,这表明改进的人识别和个性化系统(如 OC&P)最终可以开发成系统内过滤器或分类器,可以任意拒绝“融合”和扭曲的人类表征——这是一项任务目前使用 Stable Diffusion 很难做到这一点,因为它理解错误所在的能力有限(如果它有这样的能力,它可能一开始就不会犯错误)。
只是目前使用 OpenAI 的 CLIP 框架(DALL-E 2 和稳定扩散的核心)进行语义分割的众多项目之一。
“另一个问题是,”凌建议道。'会在训练工作期间简单地为这些生成模型提供被遮挡的人类图像,而不需要补充模型架构设计来缓解“人类融合”的问题吗?这可能是一个很难直接回答的问题。看看我们如何在文本到图像生成模型训练期间注入某种实例级指导(通过实例级标签,如实例掩码)肯定会很有趣。