发布时间:2023-08-12 10:30
https://arxiv.org/abs/2102.00719
SlowFast/README.md at master · bomri/SlowFast · GitHub
ICCV2021
Video action recognition
总结:相当于把CNN+LSTM结构中的LSTM替换为VTN
适用于处理长视频,在inference时可以一次输入整个视频
模型框架是模块化的,2D backbone可以换成不同的网络,注意力模块也可以设置为不同的transformer模型,修改分类头可以适用于不同的视频任务。
与当前其他的视频处理网络不同,VTN不使用3D卷积,而是采用2D的空间卷积来得到空间信息,并利用Longformer进行时间处理。
总体结构一共可以分为三个部分:
使用一些spatial backbones pre-trained on 2D images来测试VTN的效果:
技术分享 | 大事务阻塞 show master status
【微信小程序】2 - 轮播图:swiper 、scroll-view 、flex
【MindSpore-GPU-1.1.0】【LeNet5】训练报cudaHostAlloc failed
Attention Is All You Need 翻译 Transformer翻译
人群定向组件——筛选,搜索,排序,手动展开收起对于展示内容的优先级整理
数据平台调度升级改造 | 从Azkaban 平滑过度到 Apache DolphinScheduler 的操作实践