图学学报 ›› 2021, Vol. 42 ›› Issue (1): 8-14.DOI: 10.11996/JG.j.2095-302X.2021010008
摘要: 针对现有的情感分析方法缺乏对短视频中信息的充分考虑,从而导致不恰当的情感分析结果。 基于音视频的多模态情感分析(AV-MSA)模型便由此产生,模型通过利用视频帧图像中的视觉特征和音频信息 来完成短视频的情感分析。模型分为视觉与音频 2 分支,音频分支采用卷积神经网络(CNN)架构来提取音频图 谱中的情感特征,实现情感分析的目的;视觉分支则采用 3D 卷积操作来增加视觉特征的时间相关性。并在 Resnet 的基础上,突出情感相关特征,添加了注意力机制,以提高模型对信息特征的敏感性。最后,设计了一 种交叉投票机制用于融合视觉分支和音频分支的结果,产生情感分析的最终结果。AV-MSA 模型在 IEMOCAP 和微博视听(WB-AV)数据集上进行了评估, 实验结果表明,与现有算法相比,AV-MSA 在分类精确度上有了较 大的提升。
中图分类号: