摘要:我们研究了用于训练视频中行为识别的深度卷积网络架构。这个挑战是捕捉静态帧中的外观和连续帧间的运动的互补信息。我们也旨在推广这个在数据驱动的学习框架中表现得最好的手工特征。
本文一共做出了3个贡献:
- 首先,本文提出了一个two-stream卷积网络架构,这个架构由时间和空间网络构成。
- 然后,我们验证了,尽管是有限的训练数据集,在多帧密集光流上训练的卷积网络仍然能够表现出很好的性能。
- 最后,我们展示出,应用于两个不同的动作分类数据集的多任务学习,可以同时用来增加训练数据集的数量和提高性能。
我们的架构是在标准视频动作数据集UCF-101和HMDB-51上训练的,与最先进水平(state of the art)相比还是有竞争力的。它也超出了先前大部分使用深度网络对视频进行分类的方法。