沃卡惠移动端logo

沃卡惠  行业资讯

资讯详情

打架识别,基于循环神经网络RNN的视频分类任务

沃卡惠2023-03-03 09:51:524636

哈喽,大家好。

rn

今天给大家分享AI项目——打架识别。

rn

图片

rn

使用的技术跟我们上次分享的摔倒识别不同,摔倒识别使用的是基于骨骼点的时空卷积神经网络,适用于人体骨骼行为,而这次分享的打架识别使用的是循环神经网络RNN,可以实现更通用的视频分类任务。

rn

当然也可以用Vision Transformer,文中也有介绍。

rn

代码已经打包好了,获取方式见评论区。

rn

1.整体思路

rn

视频其实就是某种行为的连续序列,因此要使用序列模型处理,循环神经网络RNN就是序列模型。

rn

RNN最初应用在自然语言处理中,如:根据输入词,判断下一次词的概率

rn

图片

rn

模型为了读懂每个词代表的含义,模型会把每个词用n维向量表示,这个过程其实就是word embedding。

rn

按照这个思路,一段视频其实就是一句话,视频里每张画面就是一个词,同样地,我们也可以用卷机神经网络将每张图映射成n维向量。

rn

所以,我们就可以训练一个RNN模型,将表示视频的n维向量送入RNN模型,让他输出视频类别的概率。

rn

现在比较流行的RNN模型有LSTM、GRU,本文使用的是GRU。

rn

2.数据集

rn

打架的开源数据集有很多,如:fight-detection-surv-dataset、A-Dataset-for-Automatic-Violence-Detection-in-Videos和UBI_FIGHTS等等。

rn

我使用的是fight-detection-surv-dataset数据集,包括150个打架视频和150个正常视频。

rn

数据集很小,训练的时候很容易过拟合,精度只有70%。但思路和代码都是可以复用的。

rn

大家做的时候可以换成大的数据集,比如:ucf数据,包含很多动作视频

rn

图片

rn

ucf50数据集

rn

我用这个数据集训练过GRU和Transformer模型,效果还可以。

rn

3.提取视频特征

rn

接下来,我们要做的就是提取视频特征,将视频中每张画面映射成n维向量。

rn

使用InceptionResNetV2网络,输入一张图片,输出的是1536维向量。

rn
rndef video_feat_extractor():
rn

inception_resnetv2=InceptionResNetV2(

rn

include_top=False,

rn

weights='imagenet',

rn

pooling='avg',

rn

input_shape=(IMAGE_SIZE,IMAGE_SIZE,3))

rn

inputs=tf.keras.Input(shape=(IMAGE_SIZE,IMAGE_SIZE,3))

rn

inputs_preprocessed=preprocess_input(inputs)

rn

outputs=inception_resnetv2(inputs_preprocessed)

rn

return tf.keras.Model(inputs,outputs,name='video_feat_extractor')

rn

这样,词向量就已经有了。然后再抽取每个视频的前20帧,组成一个句子。

rn
rnMAX_FRAMES=20
rn

video_feat_extractor_model=video_feat_extractor()

rn

#取前MAX_FRAMES帧

rn

frames=frames[:MAX_FRAMES]

rn

#计算视频特征

rn

video_feat=video_feat_extractor_model(frames)

rn

dataset_feats.append(video_feat)

rn

dataset_feats是20*1536的向量。

rn

这样,我们就将一个视频用向量形式表示出来了。

rn

4.循环神经网络

rn

GRU是LSTM的一个变种

rn

图片

rn

模型搭建也比较简单。

rn
rnmodel=keras.Sequential([
rn

layers.InputLayer(input_shape=(MAX_FRAMES,FRAME_FEAT_LEN)),

rn

layers.GRU(4,return_sequences=False),

rn

layers.Dropout(0.1),

rn

layers.Dense(class_num,activatinotallow='softmax')

rn

])

rn

GRU超参数4代表4个unit,即:模型输出向量长度是4,大家如果做其他分类任务,可以尝试调整该值。

rn

图片

rn

编译模型

rn
rnmodel.compile(optimizer=optimizers.Adam(0.0001),
rn

loss='sparse_categorical_crossentropy',

rn

metrics=['accuracy'])

rn

这是个多分类任务,因此损失函数使用sparse_categorical_crossentropy。

rn

接着就可以训练模型了,模型在训练集和测试集精度如下:

rn

图片

rn

5.vision transformer

rn

同样的,我们也可以用流行的Transformer来训练视频分类模型

rn

图片

rn

对于视频分类任务,不需要Decoder网络,用多头自注意力模型搭建一个Encoder网络即可。

rn

关于vision transformer后续有机会的话我会专门分享一个项目,这次代码以GRU为主。

rn

Baidu
map