216 讀數

VEATIC：熟悉度和享受度评级及参考

经过 Kinetograph: The Video Editing Technology Publication11m2024/05/27

太長; 讀書

在本文中，研究人员引入了用于人类情感识别的 VEATIC 数据集，解决了现有数据集的局限性，实现了基于上下文的推理。

该论文可在 arxiv 上根据 CC 4.0 许可获取。

作者：

（1）加州大学伯克利分校的任志航和本文其他作者对本文的贡献相同（Email: [email protected]）；

（2）加州大学伯克利分校的 Jefferson Ortega 和本文其他作者对本文做出了同等贡献（电子邮箱：[email protected]）；

（3）加州大学伯克利分校的 Yifan Wang 和本文其他作者对本文的贡献相同（电子邮箱：[email protected]）；

（4）陈志敏，加州大学伯克利分校（电邮：[email protected]）；

（5）郭云晖，德克萨斯大学达拉斯分校（电子邮箱：[email protected]）

（6）Stella X. Yu，加州大学伯克利分校和密歇根大学安娜堡分校（电子邮箱：[email protected]）

（7）加州大学伯克利分校的 David Whitney（电子邮箱：[email protected]）。

链接表

11.熟悉度和享受度评分

如图 13 所示，我们收集了参与者对每个视频的熟悉度和享受度评分。视频 ID 0-83 的熟悉度和享受度评分分别以 1-5 和 1-9 的等级收集。视频 ID 83-123 的熟悉度和享受度评分是在规划 VEATIC 数据集之前收集的，并且以不同的等级收集。视频 ID 83-97 的熟悉度和享受度评分以 0-5 的等级收集，而视频 ID 98-123 的熟悉度/享受度评分没有收集。出于分析和可视化目的，我们将视频 ID 83-97 的熟悉度和享受度评分分别重新调整为 1-5 和 1-9，以匹配视频 ID 0-83。为了将熟悉度值从 0-5 重新缩放到 1-5，我们进行了线性变换，首先将数据标准化为 0 到 1 之间，然后将值乘以 4 并加 1。同样，我们将享受度值从 0-5 重新缩放到 1-9，首先将数据标准化为 0 到 1 之间，然后将值乘以 8 并加 1。结果，对于视频 ID 0-97，平均熟悉度评分为 1.61，而平均享受度评分为 4.98。

参考

[1] Anurag Arnab、Mostafa Dehghani、Georg Heigold、Chen Sun、Mario Luciˇc 和 Cordelia Schmid。Vivit：视频视觉转换器。IEEE/CVF 国际计算机视觉会议论文集，第 6836-6846 页，2021 年。

[2] Hillel Aviezer、Shlomo Bentin、Veronica Dudarev 和 Ran R Hassin。《情绪面孔-情境整合的自动化》。《情绪》，11(6):1406，2011 年。

[3] Simon Baron-Cohen、Sally Wheelwright、Jacqueline Hill、Yogini Raste 和 Ian Plumb。《“读懂眼睛中的心思”测试修订版：针对正常成人和患有阿斯伯格综合征或高功能自闭症的成人的研究》。《儿童心理学和精神病学及相关学科杂志》，42(2):241–251，2001 年。

[4] Lisa Feldman Barrett 和 Elizabeth A Kensinger。情境在情绪感知过程中通常会被编码。心理科学，21(4):595–599，2010 年。

[5] Pablo Barros、Nikhil Churamani、Egor Lakomkin、Henrique Siqueira、Alexander Sutherland 和 Stefan Wermter。omg-emotion 行为数据集。2018 年国际神经网络联合会议 (IJCNN)，第 1-7 页。IEEE，2018 年。

[6] Margaret M Bradley 和 Peter J Lang。英语单词的情感规范（新版）：使用手册和情感评级。技术报告，技术报告 C-1，心理生理学研究中心……，1999 年。

[7] Marta Calbi、Francesca Siri、Katrin Heimann、Daniel Barratt、Vittorio Gallese、Anna Kolesnikov 和 Maria Alessandra Umilta。情境如何影响对面部表情的解读：“库里绍夫效应”的源定位高密度脑电图研究。科学报告，9(1):1–16，2019 年。

[8] 陈志敏和 David Whitney。《追踪未见过面的人的情感状态》。《美国国家科学院院刊》，116(15):7559–7564，2019 年。

[9] 陈志敏和 David Whitney。推理情感追踪揭示了基于情境的情绪感知的惊人速度。认知，208：104549，2021 年。

[10] 陈志敏和 David Whitney。推理情绪追踪（iet）揭示了情境在情绪识别中的关键作用。情绪，22(6):1185，2022 年。

[11] Kyunghyun Cho、Bart Merrienboer、Caglar Gulcehre、Fethi Bougares、Holger Schwenk 和 Yoshua Bengio。使用 rnn 编码器-解码器学习短语表征以进行统计机器翻译。EMNLP，2014 年。

[12] Jules Davidoff。视觉感知的差异：个体眼睛。Elsevier，2012 年。[13] Abhinav Dhall、Roland Goecke、Simon Lucey、Tom Gedeon 等人。从电影中收集大量、注释丰富的面部表情数据库。IEEE 多媒体，19(3):34，2012 年。

[14] Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、Xiaohua Zhai、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Sylvain Gelly 等人。一张图片胜过 16x16 个单词：用于大规模图像识别的 Transformers。arXiv 预印本 arXiv:2010.11929，2020 年。

[15] Ellen Douglas-Cowie、Roddy Cowie、Cate Cox、Noam Amir 和 Dirk Heylen。敏感的人工聆听者：一种产生情绪色彩对话的诱导技术。在 LREC 情绪和情感研究语料库研讨会上，第 1-4 页。ELRA Paris，2008 年。

[16] 保罗·艾克曼。关于基本情绪的论证。认知与情绪，6(3-4):169–200，1992 年。

[17] Paul Ekman 和 Wallace V Friesen。面部动作编码系统。环境心理学和非语言行为，1978 年。

[18] 高志云, 赵文涛, 刘莎, 刘志芬, 杨成祥, 徐勇.精神分裂症中的面部情绪识别。精神病学前沿，12：633717，2021年。

[19] Rohit Girdhar、Joao Carreira、Carl Doersch 和 Andrew Zisserman。视频动作变换器网络。在 IEEE/CVF 计算机视觉和模式识别会议论文集，第 244-253 页，2019 年。

[20] 何开明、张翔宇、任少卿、孙健。深入研究整流器：在 ImageNet 分类中超越人类水平的表现。IEEE 国际计算机视觉会议论文集，第 1026-1034 页，2015 年。

[21] 何开明、张翔宇、任少卿、孙健。深度残差学习在图像识别中的应用。IEEE 计算机视觉与模式识别会议论文集，第 770–778 页，2016 年。

[22] Will E Hipson 和 Saif M Mohammad。电影对话中的情绪动力学。PloS one，16(9):e0256153，2021 年。[23] Sepp Hochreiter 和 Jurgen Schmidhuber。长期短期记忆。神经计算，9(8):1735–1780，1997 年。

[24] John J Hopfield。具有新兴集体计算能力的神经网络和物理系统。美国国家科学院院刊，79(8):2554–2558, 1982 年。

[25] 赵凯丽、楚文胜和张洪刚。深度区域和多标签学习用于面部动作单元检测。《IEEE 计算机视觉和模式识别会议论文集》，第 3391-3399 页，2016 年。

[26] Mary Kayyal、Sherri Widen 和 James A Russell。情境比我们想象的更强大：情境线索甚至比面部线索更能影响情绪。《情绪》，15(3):287，2015 年。

[27] Diederik P Kingma 和 Jimmy Ba. Adam：一种随机优化方法。arXiv preprint arXiv:1412.6980，2014 年。

[28] Sander Koelstra、Christian Muhl、Mohammad Soleymani、Jong-Seok Lee、Ashkan Yazdani、Touradj Ebrahimi、Thierry Pun、Anton Nijholt 和 Ioannis Patras。Deap：使用生理信号进行情绪分析的数据库。IEEE 情感计算交易，3(1):18–31，2011 年。

[29] 迪米特里斯·科利亚斯 (Dimitrios Kollias) 和斯特凡诺斯·扎菲里乌 (Stefanos Zafeiriou)。 Aff-wild2：扩展 aff-wild 数据库以进行情感识别。 arXiv 预印本 arXiv:1811.07770，2018 年。

[30] Dimitrios Kollias 和 Stefanos Zafeiriou。表情、情感、动作单元识别：Aff-wild2、多任务学习和 arcface。arXiv 预印本 arXiv:1910.04855，2019 年。

[31] Jean Kossaifi、Georgios Tzimiropoulos、Sinisa Todorovic 和 Maja Pantic。用于野外效价和唤醒度估计的 Afew-va 数据库。图像与视觉计算，65:23–36，2017 年。

[32] Ronak Kosti、Jose M Alvarez、Adria Recasens 和 Agata Lapedriza。使用表情数据集进行基于上下文的情绪识别。IEEE 模式分析与机器智能交易，42(11):2755–2766，2019 年。

[33] Jiyoung Lee、Seungryong Kim、Sunok Kim、Jungin Park 和 Kwanghoon Sohn。情境感知情绪识别网络。《IEEE/CVF 国际计算机视觉会议论文集》，第 10143-10152 页，2019 年。

[34] Tae-Ho Lee, June-Seek Choi, 和 Yang Seok Cho. 面部情绪感知的情境调节因个体差异而不同. PLOS one, 7(3):e32987, 2012.

[35] Yong Li、Jiabei Zeng、Shiguang Shan 和 Xilin Chen。通过视频进行自监督表征学习以进行面部动作单元检测。IEEE/CVF 计算机视觉和模式识别会议论文集，第 10924–10933 页，2019 年。

[36] Ze Liu、Jia Ning、Yue Cao、Yixuan Wei、Zheng Zhang、Stephen Lin 和 Han Hu。视频 swin Transformer。IEEE/CVF 计算机视觉和模式识别会议论文集，第 3202-3211 页，2022 年。

[37] 罗程，宋思阳，谢伟成，沈琳琳，Hatice Gunes。学习基于多维边缘特征的 AU 关系图进行面部动作单元识别。第三十一届国际人工智能联合会议论文集，IJCAI-22，第 1239-1246 页，2022 年。

[38] Daniel McDuff、Rana Kaliouby、Thibaud Senechal、May Amr、Jeffrey Cohn 和 Rosalind Picard。Affectiva-mit 面部表情数据集 (am-fed)：收集自然和自发的面部表情。IEEE 计算机视觉和模式识别研讨会论文集，第 881-888 页，2013 年。

[39] Gary McKeown、Michel Valstar、Roddy Cowie、Maja Pantic 和 Marc Schroder。《每周数据库：个人与有限主体之间情感色彩对话的带注释多模态记录》。《IEEE 情感计算学报》，3(1):5–17，2011 年。

[40] Trisha Mittal、Pooja Guhan、Uttaran Bhattacharya、Rohan Chandra、Aniket Bera 和 Dinesh Manocha。表情符号：使用弗雷格原理实现情境感知多模态情绪识别。IEEE/CVF 计算机视觉与模式识别会议论文集，第 14234-14243 页，2020 年。

[41] MA Nasri、Mohamed Amine Hmani、Aymen Mtibaa、Dijana Petrovska-Delacretaz、M Ben Slima 和 A Ben Hamida。基于卷积神经网络的静态图像人脸情绪识别。2020 年第五届信号和图像处理先进技术国际会议 (ATSIP)，第 1-6 页。IEEE，2020 年。

[42] Erik C Nook、Kristen A Lindquist 和 Jamil Zaki。情绪感知的新视角：概念加速和塑造面部情绪识别。情绪，15(5):569，2015 年。

[43] Desmond C Ong、Zhengxuan Wu、Zhi-Xuan Tan、Marianne Reddan、Isabella Kahhale、Alison Mattek 和 Jamil Zaki。复杂故事中的情感建模：斯坦福情感叙事数据集。IEEE 情感计算学报，12(3):579–594，2019 年。

[44] Desmond C Ong、Jamil Zaki 和 Noah D Goodman。心智理论中的情绪推理计算模型：回顾与路线图。认知科学主题，11(2):338–357，2019 年。

[45] Timea R Partos、Simon J Cropper 和 David Rawlings。你看不到我所看到的：个体对视觉刺激意义的感知差异。PloS one，11(3):e0150615，2016 年。

[46] Soujanya Poria、Devamanyu Hazarika、Navonil Majumder、Gautam Naik、Erik Cambria 和 Rada Mihalcea。Meld：用于对话中情绪识别的多模态多方数据集。arXiv 预印本 arXiv:1810.02508，2018 年。

[47] Jonathan Posner、James A Russell 和 Bradley S Peterson。《情感的循环模型：情感神经科学、认知发展和精神病理学的综合方法》。《发展与精神病理学》，17(3):715–734，2005 年。

[48] 任志航、李新宇、Dana Pietralla、Mauro Manassi 和 David Whitney。皮肤病学判断中的序列依赖性。《诊断学》，13(10):1775, 2023。

[49] Fabien Ringeval、Andreas Sonderegger、Juergen Sauer 和 Denis Lalanne。介绍远程协作和情感互动的 recola 多模态语料库。2013 年第 10 届 IEEE 自动人脸和手势识别 (FG) 国际会议和研讨会，第 1-8 页。IEEE，2013 年。

[50] David E Rumelhart、Geoffrey E Hinton、Ronald J Williams 等人，通过误差传播学习内部表征，1985 年。

[51] Olga Russakovsky、Jia Deng、Hao Su、Jonathan Krause、Sanjeev Satheesh、Sean Ma、Zhiheng Huang、Andrej Karpathy、Aditya Khosla、Michael Bernstein 等人。Imagenet 大规模视觉识别挑战赛。国际计算机视觉杂志，115:211–252，2015 年。

[52] 詹姆斯·A·拉塞尔。《情感的循环模型》。《人格与社会心理学杂志》，39(6):1161, 1980。

[53]詹姆斯·A·拉塞尔。维度语境视角。《面部表情心理学》，第295页，1997年。

[54] Andrey V Savchenko。基于轻量级神经网络多任务学习的面部表情和属性识别。2021 年 IEEE 第 19 届智能系统和信息学国际研讨会 (SISY)，第 119-124 页。IEEE，2021 年。

[55] Andrey V Savchenko、Lyudmila V Savchenko 和 Ilya Makarov。基于单个面部表情识别神经网络对在线学习中的情绪和参与度进行分类。IEEE 情感计算学报，13(4):2132–2143，2022 年。

[56] 邵志文，刘志磊，蔡建飞，马立庄。深度自适应注意力机制用于联合面部动作单元检测和面部对齐。欧洲计算机视觉会议论文集（ECCV），第 705-720 页，2018 年。

[57] 佘佳慧、胡一波、石海林、王俊、沈秋、梅涛。深入探究模糊性：面部表情识别的潜在分布挖掘和成对不确定性估计。IEEE/CVF 计算机视觉和模式识别会议论文集，第 6248–6257 页，2021 年。

[58] Ian Sneddon、Margaret McRorie、Gary McKeown 和 Jennifer Hanratty。贝尔法斯特诱发的自然情绪数据库。IEEE 情感计算学报，3(1):32–41，2011 年。

[59] Mohammad Soleymani、Jeroen Lichtenauer、Thierry Pun 和 Maja Pantic。用于情感识别和隐式标记的多模态数据库。IEEE 情感计算学报，3(1):42–55，2011 年。

[60] Paweł Tarnowski、Marcin Kołodziej、Andrzej Majkowski 和 Remigiusz J Rak。利用面部表情识别情绪。 Procedia计算机科学，108：1175–1184，2017年。

[61] YI Tian, Takeo Kanade 和 Jeffrey F Cohn. 识别用于面部表情分析的动作单元. IEEE 模式分析与机器智能学报, 23(2):97–115, 2001.

[62] Vedat Tumen、¨ Omer Faruk S ¨ oylemez 和 Burhan Ergen。¨ 使用卷积神经网络对数据集进行面部情绪识别。2017 年国际人工智能和数据处理研讨会 (IDAP)，第 1-5 页。IEEE，2017 年。

[63] Gaetano Valenza、Antonio Lanata 和 Enzo Pasquale Scilingo。非线性动力学在情感效价和唤醒识别中的作用。IEEE 情感计算学报，3(2):237–249，2011 年。

[64] Raviteja Vemulapalli 和 Aseem Agarwala。面部表情相似性的紧凑嵌入。在 IEEE/CVF 计算机视觉和模式识别会议论文集，第 5683-5692 页，2019 年。

[65] Kannan Venkataramanan 和 Haresh Rengaraj Rajamohan。从语音中识别情绪。arXiv 预印本 arXiv:1912.10458，2019 年。

[66] 王凯、彭晓江、杨建飞、陆诗剑、乔宇。抑制大规模面部表情识别的不确定性。IEEE/CVF 计算机视觉和模式识别会议论文集，第 6897-6906 页，2020 年。

[67] 薛芳蕾、谭子昌、朱宇、马忠松、郭国栋。用于视频面部表情识别的由粗到细级联网络和平滑预测。IEEE/CVF 计算机视觉与模式识别会议论文集，第 2412-2418 页，2022 年。

[68] Seunghyun Yoon、Seokhyun Byun 和 Kyomin Jung。使用音频和文本进行多模态语音情感识别。2018 年 IEEE 口语技术研讨会 (SLT)，第 112-118 页。IEEE，2018 年。

[69] Stefanos Zafeiriou、Dimitrios Kollias、Mihalis A Nicolaou、Athanasios Papaioannou、Guoying Zhao 和 Irene Kotsia。《Aff-wild：‘野外’挑战中的效价和唤醒》。《IEEE 计算机视觉和模式识别研讨会论文集》，第 34-41 页，2017 年。

[70] 张媛媛，杜军，王子瑞，张建姝，涂彦晖。基于注意力机制的全卷积网络语音情感识别。2018 年亚太信号和信息处理协会年度峰会和会议（APSIPA ASC），第 1771-1775 页。IEEE，2018 年。

[71] 张远航、黄儒林、曾嘉贝和单世光。M 3 f：野外多模态连续效价-唤醒估计。2020 年第 15 届 IEEE 自动人脸和手势识别国际会议（FG 2020），第 632-636 页。IEEE，2020 年。

该论文。