随着网络多媒体技术的快速发展和视频采集设备的不断完善,越来越多的视频被共享到网络平台,视频逐渐占据了人类生活,因此视频理解已成为计算机视觉研究的热点之一。作为视频理解的首要任务,对动作识别的研究具有重要的意义。目前基于深度学习的二维图像识别分类方法已经取得了较大的进展,但是视频动作识别仍面临着巨大挑战。其原因在于视频和二维图像相差一个时间维度,对视频中行走、跑步、跳高和跳远等动作的理解不仅需要二维图像所具有的空间语义信息,还需要时序信息。因此,如何利用视频的时序信息对动作识别非常重要。首先介绍了动作识别的研究背景以及发展过程,分析了当前视频动作识别所面临的挑战,然后详细介绍了时序建模及参数优化的方法,分析了常用的动作识别数据集和度量参数,最后对未来的研究方向进行了展望。