深度学习模型可能难以识别AI生成的图像
一篇新论文的研究结果表明,最先进的人工智能识别和解释人工智能合成图像的能力明显低于人类,这在即将到来的机器学习模型越来越多地接受合成数据训练的气候中可能会引起关注,并且不一定知道数据是否“真实”。
在这里,我们看到resnext101_32x8d_wsl预测模型在“百吉饼”类别中挣扎。在测试中,如果核心目标词(在本例中为“百吉饼”)未出现在前五个预测结果中,则认为发生了识别失败。
新研究测试了两类基于计算机视觉的识别框架:对象识别和视觉问答(VQA)。
左侧是对象识别系统的推理成功和失败;在右侧,VQA任务旨在以更具探索性和意义的方式探索AI对场景和图像的理解。
在由图像合成框架DALL-E 2和Midjourney生成的精选数据集上测试的十个最先进的模型中,表现最好的模型在两种类型中只能达到60%和80%的top-5准确率测试,而在非合成的真实数据上训练的ImageNet在相同类别中分别可以达到91%和99%,而人类的表现通常明显更高。
解决分布变化(又名“模型漂移”,即预测模型在从训练数据转移到“真实”数据时预测能力下降)的问题,该论文指出:
'人类能够识别生成的图像并轻松回答有关它们的问题。我们得出结论:a)深度模型难以理解生成的内容,并且在微调后可能会做得更好,并且b)生成的图像和真实照片之间存在很大的分布偏移。分布变化似乎与类别有关。
鉴于在上周轰动一时的强大的稳定扩散潜扩散合成模型开源之后,大量的合成图像已经充斥着互联网,随着“假”图像涌入诸如Common Crawl等行业标准数据集的可能性自然会出现,多年来准确性的变化可能会受到“虚幻”图像的显着影响。
尽管合成数据被认为是数据匮乏的计算机视觉研究领域的潜在救星,该领域通常缺乏超大规模管理的资源和预算,但稳定扩散图像的新洪流(以及自问世以来合成图像的普遍上升和DALL-E 2的商业化不太可能都带有方便的标签、注释和主题标签,以便在贪婪的机器视觉系统从互联网上抓取它们时将它们区分为“假”。
开源图像合成框架的发展速度明显超过了我们对来自这些系统的图像进行分类的能力,导致人们对“假图像”检测系统的兴趣日益浓厚,类似于deepfake检测系统,但其任务是评估整个图像而不是部分图像面孔。
这篇新论文的标题是深度模型在理解生成的图像方面有多好?来自旧金山机器学习初创公司Quintic AI的Ali Borji。
数据
该研究早于Stable Diffusion发布,实验使用DALL-E 2和Midjourney生成的17个类别的数据,包括大象、蘑菇、比萨饼、椒盐卷饼、拖拉机和兔子。
测试识别和VQA系统面临挑战以识别最重要的关键概念的图像示例。
图像是通过网络搜索和Twitter获得的,并且根据DALL-E 2的政策(至少在当时),不包括任何人脸图像。只选择了人类可识别的高质量图像。
策划了两组图像,一组用于对象识别和VQA任务。
每个测试类别中用于对象识别的图像数量。
测试对象识别
对于对象识别测试,十个模型都在ImageNet上进行了测试:AlexNet、ResNet152、MobileNetV2、DenseNet、ResNext、GoogleNet、ResNet101、Inception_V3、Deit和ResNext_WSL。
测试系统中的某些类比其他类更细化,因此需要应用平均方法。例如,ImageNet包含三个保留到“时钟”的类,并且有必要定义某种仲裁度量,其中在任何图像的前五个获得的标签中包含任何类型的任何“时钟”被认为是成功的在那种情况下。
17个类别的每个模型的性能。
这一轮中表现最好的模型是resnext101_32x8d_ws,在前1名中达到了近60%(即,它在五次猜测中的首选预测是图像中体现的正确概念的时间),在前五名中达到了80%(即期望的概念至少在模型对图片的五种猜测中的某个地方列出)。
作者认为,该模型的良好性能是由于它经过训练用于社交媒体平台中的主题标签的弱监督预测。然而,作者指出,这些领先的结果明显低于ImageNet在真实数据上所能达到的水平,即91%和99%。他认为这是由于ImageNet图像(也是从网络上抓取的)和生成图像的分布之间存在重大差异所致。
该系统最难的五个类别,按照难度顺序,分别是风筝、乌龟、松鼠、太阳镜和头盔。该论文指出,风筝类经常与气球、降落伞和雨伞混淆,尽管这些区别对于人类观察者来说很容易区分。
某些类别,包括风筝和乌龟,导致所有模型普遍失败,而其他类别(特别是椒盐卷饼和拖拉机)在测试模型中几乎普遍成功。
两极分化类别:选择的一些目标类别要么固定所有模型,要么对所有模型都相当容易识别。
作者假设这些发现表明所有对象识别模型都可能具有相似的优势和劣势。
测试视觉问答
接下来,作者在开放式和自由形式的VQA上测试了VQA模型,带有二进制问题(即答案只能是“是”或“否”的问题)。该论文指出,最近最先进的VQA模型能够在VQA-v2数据集上达到95%的准确率。
在这一阶段的测试中,作者策划了50张图片,并围绕它们制定了241个问题,其中132个有正面答案,109个负面答案。平均问题长度为5.12个单词。
本轮使用OFA模型,一个任务无关和模态无关的框架来测试任务的全面性,并且最近是VQA-v2测试标准集的领先得分者。OFA在生成的图像上获得了77.27%的准确度,而在VQA-v2测试标准集中它自己的得分为94.7%。
测试的VQA部分的示例问题和结果。“GT”是“Ground Truth”,即正确答案。
该论文的作者认为,部分原因可能是生成的图像包含VQA-v2数据集中不存在的语义概念,并且为VQA测试编写的问题可能更具挑战VQA-v2问题的一般标准,尽管他认为前一种原因的可能性更大。
数据流中的LSD?
意见AI合成图像的新扩散可以呈现自然界中不存在的核心概念的即时连接和抽象,并且通过传统方法生成会非常耗时,这可能会给弱监督数据带来特殊问题-收集系统,可能无法正常失败——主要是因为它们的设计目的不是处理大量、未标记的合成数据。
在这种情况下,这些系统可能会将一定比例的“奇异”合成图像归入不正确的类别,因为这些图像具有不同的对象,而这些对象并不真正属于一起。
“宇航员骑马”可能已成为新一代图像合成系统最具象征意义的视觉效果——但这些“不真实”的关系可能会进入真正的检测系统,除非小心谨慎。
除非在训练之前的预处理阶段可以防止这种情况,否则这种自动化管道可能会导致将不可能甚至怪诞的关联训练到机器学习系统中,从而降低其有效性,并有可能将高级关联传递到下游系统和子类中和类别。
或者,不连贯的合成图像可能会对后来系统的准确性产生“寒蝉效应”,最终会出现新的或修正的架构,试图解释临时合成图像,并撒下太宽的网。
在任何一种情况下,后稳定扩散时代的合成图像都可能让计算机视觉研究部门头疼,他们的努力使这些奇怪的创造和能力成为可能——尤其是因为它危及该部门希望收集和管理数据能够最终将比现在更加自动化,而且成本和耗时也更少。