TACFN: 一种用于多模态情感识别的基于Transformer的自适应跨模态融合网络

文章题目：TACFN: Transformer-based Adaptive Cross-modal Fusion Network for Multimodal Emotion Recognition

文章来源：CAAI Artificial Intelligence Research预录用（原创）

模型代码可以从/shuzihuaiyu/TACFN获取

(资料图片)

Introduction:

在当前的多模态情感识别任务中，融合技术被广泛的应用并成为关键技术。基于注意力机制的跨模态融合方法近年来表现出了高性能和强鲁棒性。

然而，跨模态注意力存在着特征冗余的问题，不能很好地捕捉互补特征。研究表明，在跨模态的交互特征中，没有必要使用一种模态的全部信息来加强另一种模态，能够加强一种模态的特征可能只包含它的一部分。

据此，我们设计了一种基于Transformer的自适应跨模态融合网络（TACFN）。对于冗余特征，通过自注意力机制使一种模态进行模态内特征选择，使所选择的特征能够自适应且高效地与另一种模态交互。同时，为了更好地捕捉模态间的互补信息，通过拼接得到融合权重向量，并利用该权重向量实现模态的特征强化。

Proposed Method:

文中我们将TACFN网络架构分为两个steps：Unimodal representation（单模态表示） & Multimodal fusion（多模态融合）。目标是从多模态序列中进行高效的跨模态融合，聚合模态内的和模态间的特征。下图展示了TACFN的整体框架：

Audio Encoder:

对于音频模态的处理，有相关的工作[1-2]已经证明了基于梅尔频率倒谱系数（MFCC）特征的深度学习方法的有效性。据此设计了一个简单高效的1D-CNN来进行MFCC特征提取。

具体而言，我们使用特征预处理后的音频模态特征作为输入，首先通过一个2层的卷积操作来提取音频元素的局部特征，然后采用最大池化进行下采样，压缩特征，并删除冗余信息。最后，将上面得到的特征展平。

Visual Encoder:

对于视频模态处理，考虑到视频数据在空间和时间维度上都具有依赖性，因此需要一个具有3D卷积核（空间维度：平面二维 + 时间维度：一维）的网络来学习面部表情和动作。综合考虑网络的性能以及训练效率，选择3D-ResNeXt[3]网络来获取视觉模态的时空结构特征。ResNeXt提出了一种介于普通卷积核深度分割卷积之间的分组卷积策略，通过控制分组数量实现了两种策略之间的平衡，结构简单但性能强大。

Fusion via Cross-modal Attention:

跨模态注意力操作通过学习源模态和目标模态之间的定向成对注意力，使用来自源模态的信息来强化目标模态[4-5]。跨模态注意力是对自注意力机制的一种修改。

（不太了解自注意力机制中Q,K,V的笔者推荐可以通过该链接进行了解和简单学习：/qq_42672770/article/details/128231573）

将Q作为一种模态，K和V作为另一种模态，以获得模态的强化。我们定义了两个张量的跨模态注意力X和Y，其中X作为Query查询，Y作为Keys和Values用于重加权Query：

利用获得的单模态高层的表示，在音频和视觉模态之间进行跨模态注意力交互，以获得彼此的增强特征。

Fusion via Adaptive Cross-modal Blocks:

现有实验表明：模型融合进一步考虑了模态之间的内在联系，具有更好的效果和性能。但是目前的跨融合方案存在一些问题：

1. 跨模态注意力存在特征冗余；

2. 跨模态注意力不能很好地捕获互补特征；

3. )由于模式是动态变化的，有些模式比其它模式具有更多的任务表示信息。例如，视觉模态比音频模态更好地分类“快乐”，音频模态更好地分类“恐惧”。

因此，在跨模态注意力的基础上，引入了自适应跨模态块的设计。上图说明了跨模态注意力和自适应跨模态块的架构。在获得单模态表示后，将其输入自适应跨模态块，以获得两种模态的强化特征。以使用音频模态来加强视觉模态的过程为例，使用视觉模态来加强音频模态的过程是相同的：

首先使音频模态通过Transformer-encoder来进行模态内特征选择。这里的Query、Keys和Values都是同一个张量的线性投影，该操作使得音频模态的高阶特征能够进行特征选择，使其更专注于对结果有更大影响的特征。

然后，利用自动选择的特征和视频模态进行高效的模态间交互。该模块接受两种模式的输入，然后通过线性投影获得两种模态的特征映射表示，接着用Add和Tanh激活函数处理，再通过Softmax得到权重向量。经过Softmax处理后，再与视频模态张量进行相乘的操作，以实现特征强化。在这个过程中，为了保证视觉模态的信息不丢失，通过残差结构保证了视觉模态原始结构特征的完整性。

上述为利用音频加强视频模态的步骤，得到的输出记为X(a->v)，反过来利用视频加强音频模态的步骤相同，得到的输出记为X(v->a)，然后对增强模态进行拼接，得到融合后的数据I=[X(v->a), X(a->v)]。最后经过一个简单的线性层进行预测，并利用交叉熵损失对模型进行优化。

Datasets:

本文使用两个主流数据集：RAVDESS[6]和IEMOCAP[7]。为简单起见，本研究首先关注视觉和音频两种模态的融合。进一步，将设计的融合模块扩展到视觉、音频和文本三种模态的跨模态融合。对于RAVDESS数据集，我们使用两种模态：视觉和音频。对于IEMOCAP数据集，我们使用三种模态：视觉、音频和文本。

RAVDESS:

Ryerson情感语音和歌曲视听数据库(Ryerson Audio-Visual Database of Emotional Speech and Song，RAVDESS) 是一个多模态情感识别数据集，包含1440个短演讲视频剪辑中的24位演员(12位男性，12位女性)。当演员被告知要表达的情感时，数据集将被执行，视频和音频记录的质量都很高。数据集中包含八种情绪:中性、平静、快乐、悲伤、愤怒、恐惧、厌恶和惊讶。在RAVDESS数据集上进行5折交叉验证，以提供更鲁棒的结果。我们将24个演员按5:1的比例分为训练集和测试集。由于演员的性别由偶数或奇数个演员id表示，我们通过轮换4个连续的演员id作为交叉验证的每个折叠的测试集，使性别均匀分布。报告的最终准确率是平均准确率超过5倍。

IEMOCAP:

IEMOCAP 是一个多模态情感识别数据集，包含151个视频以及相应的转录本和音频。在每个视频中，两名专业演员用英语进行对谈。它的目标数据分割由2,717个训练样本，798个验证样本和938个测试样本组成。分别在 Hz和15 Hz的采样频率下提取音频和视觉特征。虽然人类标注有9种情绪类别，但继之前的工作[8]之后，我们采取了4种类别:中性、快乐、悲伤和愤怒。此外，这是一个多标签任务(例如，一个人可以同时感到悲伤和愤怒)。我们根据[9]报告了每个情感类别的二分类准确率和F1分数。

Result:

在RAVDESS数据集上与Baselines的比较结果：

从表中，我们可以看到我们的模型达到了％的准确率，达到了最先进的水平。

1. TACFN在视觉和音频上的单模态性能分别达到％和％，自适应跨模态块后的准确率达到％，提升了％以上。可以看出，自适应跨模态块学习了两者的互补信息。它学习音频中存在而视觉中不存在的信息，从而为视觉表示提供音频模态的更多语义信息。

2. 使用两个跨模态注意力分别融合其他模态得到强化特征。实验结果表明，该方法的正确率为％，而该文提出的方法正确率为％。在相同的实验设置下，TACFN算法更有效。跨模态注意力不能很好地捕获互补特征的原因被认为是由于音频模态对视觉模态并不是完全有帮助的，而经常强化视觉模态的特征可能只包含视觉模态的一部分。在此基础上，设计了跨模态模块，以更有效和自适应地关注对当前模态更有用的信息，即有效互补信息。

在IEMOCAP数据集上Baselines的比较结果：

将该模型应用于IEMOCAP数据集。上表显示了结果。使用自适应跨模态块实现互补学习，即使用音频和文本融合模态获取权重信息来增强文本模态，使用视觉和文本融合模态获取权重信息来增强文本模态。

1. MulT利用跨模态注意力实现互补学习。该模型在所有指标上都优于MulT。

2. 与目前最先进的PMR进行了比较，结果达到了可比水平。同时，TACFN的参数数量有显著降低。

Ablations:

上表显示了RAVDESS数据集上的消融实验。为了验证自适应跨模态块的有效性，通过简单拼接两种模态的高层语义特征来获得最终情感。实验结果表明，跨模态分块在参数数量仅增加的情况下使性能提升了3％以上，这表明来自两种模态的有效互补信息可以对最终决策产生很大影响。

进一步探索了自适应跨模态块内部结构的有效性。在自适应跨模态块中，自注意力机制和残差结构对模型性能起着重要作用。将自注意力机制和残差结构分别分离，可以看出自注意力对最终结果的影响超过3％。这表明我们得到的音频语义特征包含冗余信息，可以通过自注意力机制进行特征选择，使其高效且自适应于跨模态交互。此外，残差结构对最终结果的影响较小，这表明残差结构的加入有助于确保在交互过程中最大限度地减少视觉特征的损失。

上表报告了RAVDESS数据集上每个类的单模态和TACFN的精度。

1. 在视觉模态上，“高兴”、“生气”和“惊讶”比音频模态更容易区分。

2. 在音频模态上，“Sad”和“afraid”表现更好。

3. 可以看出，自适应跨模态分块后，各个类的准确率相比单模态的都有所提高。“中立”的准确率最低，而“悲伤”和“恐惧”的准确率提高最为显著，约为10％。我们认为，视觉模态从音频模态中获得了互补信息，从而获得了更高的性能。

Conclusion:

本文提出一种基于transformer的自适应多模态融合网络。将该网络分为两个步骤:单模态表示和多模态融合。多模态融合主要考虑减少冗余特征和增强互补特征这两个核心问题。为了减少冗余特征，使用自注意力机制使一种模态能够进行模态内特征选择，并以高效的模态间方式自适应地与另一模态交互。为了增强互补特征，通过拼接的方式将选择的模态与另一模态融合得到一个权重向量，并将该权重向量与另一模态相乘来实现特征增强。将该模型应用于RAVDESS和IEMOCAP数据集，实验结果表明提出的融合方法更加有效。与其他模型相比，基于单模态表示学习的融合策略在情感识别上取得了显著的性能提升。

Reference：

[1] Natalia Neverova, Christian Wolf, Graham Taylor,and Florian Nebout. 2015. Moddrop: adaptive multi-modal gesturerecognition. IEEE Transactions on Pattern Analysis and MachineIntelligence 38, 8 (2015), 1692–1706.

[2] Jianyou Wang, Michael Xue, Ryan Culhane, Enmao Diao, Jie Ding, and Vahid Tarokh. 2020b. Speech emotion recognition with dual-sequence LSTM architecture. In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 6474–64.

[3] Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu, and ´Kaiming He. 2017. Aggregated residual transformations for deep neuralnetworks. In Proceedings of the IEEE conference on computer visionand pattern recognition. 1492–1500.

[4] Yao-Hung Hubert Tsai, Shaojie Bai, Paul Pu Liang, J ZicoKolter, Louis-Philippe Morency, and Ruslan Salakhutdinov. 2019. Multimodal transformer for unaligned multimodal language sequences. InProceedings of the conference. Association for Computational Linguistics. Meeting, Vol. 2019. NIH Public Access, 6558.

[5] Fengmao Lv, Xiang Chen, Yanyong Huang, Lixin Duan,and Guosheng Lin. 2021. Progressive Modality Reinforcement forHuman Multimodal Emotion Recognition From Unaligned MultimodalSequences. In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition. 2554–2562.

[6] Steven R Livingstone and Frank A . The Ryerson Audio-Visual Database of Emotional Speech andSong (RAVDESS): A dynamic, multimodal set of facial and vocalexpressions in North American English. PloS one 13, 5 (2018),e0196391.

[7] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, AbeKazemzadeh, Emily Mower Provost, Samuel Kim, Jeannette Chang,Sungbok Lee, and Shrikanth Narayanan. 2008. IEMOCAP: Interactiveemotional dyadic motion capture database. Language Resources andEvaluation 42 (12 2008), 335–359. /s10579-008-9076-6.

[8] Wenliang Dai, Zihan Liu, Tiezheng Yu, and Pascale . Modality-Transferable Emotion Embeddings for Low-ResourceMultimodal Emotion Recognition. arXiv: []

[9] Fengmao Lv, Xiang Chen, Yanyong Huang, Lixin Duan,and Guosheng Lin. 2021. Progressive Modality Reinforcement forHuman Multimodal Emotion Recognition From Unaligned MultimodalSequences. In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition. 2554–2562.

TACFN: 一种用于多模态情感识别的基于Transformer的自适应跨模态融合网络

首惠产业金融：首钢京票突破51亿，助推供应链金融科技平台腾飞

权健主帅弃用当红国脚引发争议年少成名18岁就是国足主力！

英特尔新GPU曝光：采用Xe2架构、225W功耗

株洲人注意了！今晚10点停水，涉这些区域

踩线完成业绩承诺后就变脸？大亚圣象遭问：所购资产是否涉利益输送？

守护河湖安全河南这样干！

节食难吗？锡安：太难了 我才20岁 感觉自己有全世界所有的钱

冒险类游戏《儒林外史·范进篇》Steam页面上线 明年发售

桂林新城投资3亿元公司债将于7月18日兑付 债项利率6.5%

孙颖莎差点输日本一姐！讲艰难取胜原因，韩国华裔名将陪练小魔王

7月11日南京东方己内酰胺价格动态

陕国投信托上半年营收同比增长29.65% 净利同比增长28.72%

小份菜量小价高成本贵 不少商家上架只为应付检查

铜冠铜箔：3.5um铜箔仍处研发成功向下游客户送样对接阶段 加工费预计比4.5um铜箔高

省第二督察组组长带队调研湘潭蓝天保卫战工作

欢迎卢基奇加盟长春亚泰 身披32号战袍征战中超

开发贷等支持政策延期 房企再迎利好

稳经济 促发展 强信心｜优化营商环境 激发内生动力

齐心集团(002301.SZ)：齐心好视通建设互动教育云平台系统，推进“三个课堂”常态化应用，覆盖教学、教研、办公、管理等全教育场景应用

新番尺度夸张？要说老司机不得不服宫崎骏老爷子不愧前辈开车很稳

别被原作党影响了

木材平衡含水率(对于木材平衡含水率简单介绍)

一直觉得他油腻做作娘兮兮

凯越中控锁失灵怎么办（凯越中控锁在哪个位置？）

青岛公安开展夏夜治安巡查宣防行动 点亮城市平安夜色

【何以中国】赓续中华文脉，书写民族复兴新篇章

《〈养老机构等级划分与评定〉国家标准实施指南（2023版）》发布

何以中国丨“简”述中国 “牍”懂丝路：天下大同

红土地上振兴路：乡贤带动 小辣椒变身“致富椒”

三峡电站累计发电超16000亿千瓦时

西湖龙井审评几分钟

确山县举行首例跨市“双随机、一公开”监管工作战略合作协议签约仪式

龙虎榜丨晋控电力今日涨停，东方财富证券拉萨东环路第二证券营业部买入1344.61万元

金固股份：获得比亚迪新能源车型项目的定点

云南一娱乐公司用恐龙扛狼命名 恐龙扛狼被注册为公司名

继魔童降世、哪吒重生后，又一部哪吒宣布上映，这次你还看好吗？

上海迪士尼再上热搜 这次是因为一把进不了园的"折叠椅"

吉祥航空计划执行超2.6万架次航班迎接暑运

潜水员戴夫各池塘怎么养鱼 潜水员戴夫池塘养鱼推荐

以购代销助振兴 消费助农暖民心——川北幼儿师范高等专科学校开展以购代帮元宝村定点助农帮扶

欧元/美元今日亚盘技术分析（2023年7月10日）

【读财报】公募基金清盘透视：上半年136只产品清盘

弘德村：板上发电 板下种菜

2023春季福建莆田市仙游县政府序列事业单位考试招聘拟聘用人员名单（第1批）公示（四）

我们要如何应对日本核辐射水排放？

海通证券：下半年重视基本面改善的消费及科技板块

中金：市场中期机会仍大于风险 结合二季报业绩关注三条投资主线

潍柴动力：高度重视新能源技术开发和布局 在纯电动、混动及燃料电池三条技术路线上做了大量投入

“鲜味”如何从枝头直达手头

mfcclub理财平台华克金（mfcclub）

龙河路社区：安全护航预防溺水

勒东个人资料图片 勒东个人资料

三家IPO 突然终止！

阿里巴巴：蚂蚁集团拟回购约 5671 亿元股份，正考虑是否参与

V观财报｜中国恒大：截至5月末恒大地产未清偿到期债务约2776.88亿

拉布拉多犬和金毛有什么关系（拉布拉多犬和金毛的区别）

太极集团荣登中国医药榜单

女性存款险些被骗走！160多万元差点被转走

爱新疆 游家乡 | 好热闹！这个夜市平价好吃“火出圈”

如何自制夜光漂 怎么自制夜光漂

甘肃省敦煌市发布高温橙色预警

世界科幻大会将于10月在成都举行 深圳作家作品入围“雨果奖”

开店宝支付被罚1984万

付向宇任南昌市公路事业发展中心党组书记

女子在地铁车厢内宣扬辱华言论，上海警方通报

突然公告，顺丰要搞大事情？

实名制登记，精准服务！福建省开展青年就业服务攻坚行动

“深圳创投日”走进盐田 多项重磅级协议签约落地

知乎宣布下线匿名功能

夏季冰箱的正确打开方式，你做对了吗？

有几分约老师的影子，湖人真是淘到了一个宝藏型内线？

曝上海地铁一女子发表辱华言论 基本信息讲解

美反战组织联合创始人：集束弹药将使乌克兰未来数十年承受后果

13个科学记忆英语单的方法！建议收藏

恒隆地产张琳娜：可持续发展已纳入到集团每年的KPI中 真正做到落实运营

马斯克回应垄断火箭发射市场：SpaceX 的使命是让生命多行星化

真没想到，《猫和老鼠》的奇葩汤姆造型，被万代制作成周边了

i5系列处理器性能对比（i5级和i5有什么区别）

怎样做鲫鱼豆腐汤好喝而且有营养 ？大厨教你不外传的技巧，汤浓味鲜营养高

节食难吗？锡安：太难了我才20岁感觉自己有全世界所有的钱

冒险类游戏《儒林外史·范进篇》Steam页面上线明年发售

桂林新城投资3亿元公司债将于7月18日兑付债项利率6.5%

小份菜量小价高成本贵不少商家上架只为应付检查

铜冠铜箔：3.5um铜箔仍处研发成功向下游客户送样对接阶段加工费预计比4.5um铜箔高

欢迎卢基奇加盟长春亚泰身披32号战袍征战中超

开发贷等支持政策延期房企再迎利好

稳经济促发展强信心｜优化营商环境激发内生动力

青岛公安开展夏夜治安巡查宣防行动点亮城市平安夜色

红土地上振兴路：乡贤带动小辣椒变身“致富椒”

云南一娱乐公司用恐龙扛狼命名恐龙扛狼被注册为公司名

上海迪士尼再上热搜这次是因为一把进不了园的"折叠椅"

潜水员戴夫各池塘怎么养鱼潜水员戴夫池塘养鱼推荐

以购代销助振兴消费助农暖民心——川北幼儿师范高等专科学校开展以购代帮元宝村定点助农帮扶

弘德村：板上发电板下种菜

中金：市场中期机会仍大于风险结合二季报业绩关注三条投资主线

潍柴动力：高度重视新能源技术开发和布局在纯电动、混动及燃料电池三条技术路线上做了大量投入

勒东个人资料图片勒东个人资料

爱新疆游家乡 | 好热闹！这个夜市平价好吃“火出圈”

如何自制夜光漂怎么自制夜光漂

世界科幻大会将于10月在成都举行深圳作家作品入围“雨果奖”

“深圳创投日”走进盐田多项重磅级协议签约落地

曝上海地铁一女子发表辱华言论基本信息讲解

恒隆地产张琳娜：可持续发展已纳入到集团每年的KPI中真正做到落实运营

怎样做鲫鱼豆腐汤好喝而且有营养？大厨教你不外传的技巧，汤浓味鲜营养高

《玉骨遥》重明真实身份是什么揭秘重明一共有几种身份

卡酷全卡通玩具店卡酷玩具店

禾川科技两名股东合计减持123.80万股减持时间过半

外交部：无论日方如何“洗白” 核污染水就是核污染水日方不要推卸责任了！

A股收评：指数午后冲高回落沪指跌0.28% 农业、供销社、证券等板块午后走强人工智能概念股全线回调