使用AI总结冗长的“操作方法”视频
主图:DALL-E 2
如果您喜欢加快油管操作视频的速度以获取您真正想要的信息;查阅视频的文字记录,以收集隐藏在漫长且经常充满赞助商的运行时中的基本信息;或者希望WikiHow能够在教学视频中创建一个耗时更少的版本;那么你可能会对加州大学伯克利分校、谷歌研究院和布朗大学的一个新项目感兴趣。
标题TL;DW?总结具有任务相关性和跨模式显着性的教学视频,新论文详细介绍了人工智能辅助视频摘要系统的创建,该系统可以识别视频中的相关步骤并丢弃其他所有内容,从而产生快速切入正题的简短摘要。
IV-Sum项目使用WikiHow对文本和视频信息的现有长视频剪辑的利用来生成虚假摘要,这些摘要提供了训练系统的基本事实。
生成的摘要只有原始视频运行时间的一小部分,而在此过程中还会记录多模式(即基于文本)信息,以便未来的系统可能自动创建能够自动解析的WikiHow风格的博客文章将冗长的操作方法视频转换为简洁且可搜索的短文,并配有插图,可能会节省时间和挫败感。
新系统称为IV-Sum(“教学视频汇总器”),它使用开源ResNet-50计算机视觉识别算法以及其他几种技术来区分冗长源视频的相关帧和片段。
IV-Sum的概念工作流程。
该系统根据WikiHow网站的内容结构生成的伪摘要进行训练,其中真实的人经常将流行的教学视频转化为更扁平的基于文本的多媒体形式,经常使用从源教学视频中获取的短片和动画GIF。
在讨论该项目使用WikiHow总结作为系统的基本事实数据来源时,作者指出:
“WikiHow视频网站上的每篇文章都包含一个主要的教学视频,该视频演示了一项任务,该任务通常包括宣传内容、教练对着摄像机说话的剪辑,没有任务的视觉信息,以及对执行任务并不重要的步骤。
“想要了解任务概览的观众会更喜欢没有上述所有不相关信息的较短视频。WikiHow文章(例如,请参阅如何制作寿司饭)包含以下内容:包含视频中列出的所有重要步骤的相应文本以及说明任务中各个步骤的随附图像/剪辑。
这种网络抓取生成的数据库称为WikiHow摘要。该数据库包含2,106个输入视频及其相关摘要。这是一个比视频摘要项目通常可用的数据集大得多的数据集,这些项目通常需要昂贵且劳动密集型的手动标记和注释——由于摘要范围更受限制,这一过程在新工作中已基本自动化教学(而不是一般)视频。
IV-Sum利用时间3D卷积神经网络表示,而不是表征先前类似工作的基于帧的表示,并且论文中详述的消融研究证实,这种方法的所有组件对于系统的功能都是必不可少的。
IV-Sum针对各种可比较的框架进行了良好的测试,包括CLIP-It(该论文的几位作者也参与了该框架)。
与一般的视频摘要计划相比,IV-Sum与可比较的方法相比得分很高,这可能是由于其应用范围更受限制。本文将进一步详细介绍指标和评分方法。方法摘要过程的第一阶段涉及使用相对省力、弱监督的算法为大量网络抓取的教学视频创建伪摘要和逐帧重要性分数,每个视频中只有一个任务标签.
接下来,根据这些数据训练一个教学摘要网络。该系统将自动转录的语音(例如,油管自己的AI为视频生成的字幕)和源视频作为输入。
该网络包括一个视频编码器和一个分段评分转换器(SST),训练由伪摘要中分配的重要性分数指导。最终摘要是通过连接获得高重要性分数的段来创建的。
从论文中:
“我们的伪摘要生成管道背后的主要直觉是,给定任务的许多视频,对任务至关重要的步骤可能会出现在多个视频中(任务相关性)。
“此外,如果一个步骤很重要,示范者通常会在执行之前、期间或之后谈论该步骤。因此,使用自动语音识别(ASR)获得的视频字幕可能会参考这些关键步骤(跨模态显着性)。
为了生成伪摘要,首先将视频统一划分为多个片段,然后根据它们的视觉相似性将这些片段分组为“步骤”(上图中的不同颜色)。然后根据“任务相关性”和“跨模态显着性”(即ASR文本和图像之间的相关性)为这些步骤分配重要性分数。然后选择高分步骤来表示伪摘要中的阶段。
该系统通过将解释的语音与视频中的图像和动作进行比较,使用跨模态显着性来帮助建立每个步骤的相关性。这是通过使用预训练的视频文本模型来实现的,其中每个元素都在MIL-NCE损失下联合训练,使用由DeepMind等开发的3D CNN视频编码器。
然后从这些任务相关性和跨模态分析阶段的计算平均值中获得一般重要性分数。
数据为该过程生成了一个初始伪摘要数据集,包括两个先前数据集的大部分内容——COIN,一个2019年的集合,包含与180个任务相关的11,000个视频;和Cross-Task,其中包含4,700个教学视频,其中3,675个用于研究。Cross-Task包含83个不同的任务。
以上,来自COIN的示例;下面,来自跨任务。
使用在两个数据集中仅出现一次的视频,研究人员因此能够获得12,160个视频,涵盖263个不同的任务,并为他们的数据集获取628.53小时的内容。
为了填充基于WikiHow的数据集并为系统提供基本事实,作者从WikiHow视频中提取了所有长教学视频,以及与每个步骤相关的图像和视频剪辑(即GIF)。因此,WikiHow派生内容的结构将用作新系统中步骤个性化的模板。
通过ResNet50提取的特征用于交叉匹配WikiHow图像中精选的视频部分,并执行步骤的本地化。在5秒视频窗口内获得的最相似的图像被用作锚点。
然后将这些较短的剪辑拼接成视频,这些视频将构成模型训练的基本事实。
标签被分配给输入视频中的每一帧,以声明它们是否属于输入摘要,每个视频从研究人员那里接收一个帧级二进制标签,并通过所有帧的重要性分数获得平均摘要分数在段中。
在这个阶段,每个教学视频中的“步骤”现在都与基于文本的数据相关联并进行了标记。
培训、测试和指标
最终的WikiHow数据集分为1,339个测试视频和768个验证视频——与专门用于视频分析的非原始数据集的平均大小相比显着增加。
新网络中的视频和文本编码器在S3D网络上联合训练,权重从预训练的HowTo100M模型加载,在MIL-NCE损失下。
该模型使用Adam优化器进行训练,学习率为0.01,批量大小为24,分布式数据并行链接将训练分布在8个NVIDIA RTX 2080 GPU上,总共24GB的分布式VRAM。
然后根据类似的先前工作(包括对CLIP-It的研究)将IV-Sum与CLIP-It的各种场景进行比较。使用的指标是精度、召回率和F-Score值,跨越三个无监督基线(详见论文)。
结果列在前面的图像中,但研究人员还指出,CLIP-It在测试的各个阶段错过了一些可能的步骤,而IV-Sum没有。他们将此归因于CLIP-It使用比新的WikiHow语料库小得多的数据集进行训练和开发。
影响这一系列研究的长期价值(IV-Sum与视频分析的更广泛挑战共享)可能是使教学视频剪辑更容易被传统搜索引擎索引访问,并实现那种减少的结果Google经常从较长的传统文章中提取视频的“片段”。
显然,任何人工智能辅助流程的开发都可以减少我们对视频内容应用线性和独家关注的义务,这可能会对媒体对一代营销人员的吸引力产生影响,对他们来说,视频的不透明性可能是他们认为的唯一方式他们可以专门与我们互动。
由于“有价值”内容的位置难以确定,用户贡献的视频在产品放置、赞助商位置和视频价值主张的一般自我宣传方面受到媒体消费者的广泛(如果不情愿)放纵经常躺着。IV-Sum等项目承诺最终视频内容的子方面将变得细化,并与许多人认为是内容内广告和非内容即兴化的“压舱物”分开。