Este documento está disponible en arxiv bajo licencia CC 4.0.
Autores:
(1) Zhihang Ren, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);
(2) Jefferson Ortega, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);
(3) Yifan Wang, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);
(4) Zhimin Chen, Universidad de California, Berkeley (correo electrónico: [email protected]);
(5) Yunhui Guo, Universidad de Texas en Dallas (correo electrónico: [email protected]);
(6) Stella X. Yu, Universidad de California, Berkeley y Universidad de Michigan, Ann Arbor (correo electrónico: [email protected]);
(7) David Whitney, Universidad de California, Berkeley (correo electrónico: [email protected]).
En este estudio, proponemos una nueva tarea de reconocimiento de emociones en contexto, es decir, inferir la valencia y la excitación del personaje seleccionado a través del contexto y la información del personaje en cada cuadro de video. Aquí, proponemos un modelo de referencia simple para comparar la nueva tarea de reconocimiento de emociones en contexto. La canalización del modelo se muestra en la Figura 8. Adoptamos dos submódulos simples: un módulo de red neuronal convolucional (CNN) para la extracción de características y un módulo de transformador visual para el procesamiento de información temporal. La estructura del módulo CNN se adopta de Resnet50 [21]. A diferencia de CAER [33] y EMOTIC [32], donde las características faciales/de carácter y contextuales se extraen por separado y se fusionan más tarde, codificamos directamente el cuadro completamente informado. Para una única predicción, N fotogramas de vídeo consecutivos se codifican de forma independiente. Luego, los vectores de características de fotogramas consecutivos se incrustan en primera posición y se introducen en el codificador del transformador que contiene L conjuntos de módulos de atención. Por fin, la predicción de la excitación y la valencia se logra mediante una cabeza de perceptrón multicapa (MLP).
La función de pérdidas de nuestro modelo base es una combinación ponderada de dos pérdidas separadas. La pérdida de MSE regulariza la alineación local de la verdad fundamental de las calificaciones y las predicciones del modelo. Para garantizar la alineación de las calificaciones y predicciones a mayor escala, como aprender las estadísticas temporales de las calificaciones emocionales, también utilizamos el coeficiente de correlación de concordancia (CCC) como regularización. Este coeficiente se define de la siguiente manera,
El SAGR mide cuánto coinciden los signos de los valores individuales de dos vectores X e Y. Toma valores en [0, 1], donde 1 representa el acuerdo completo y 0 representa una contradicción completa. La métrica SAGR puede capturar información de desempeño adicional que otras. Por ejemplo, dada una verdad fundamental de valencia de 0,2, las predicciones de 0,7 y -0,3 conducirán al mismo valor de RMSE. Pero claramente, 0,7 es más adecuado porque es una valencia positiva.
Comparamos la nueva tarea de reconocimiento de emociones en contexto utilizando las 4 métricas antes mencionadas, CCC, PCC, RMSE y SAGR. Los resultados se muestran en la Tabla 3. En comparación con otros conjuntos de datos, nuestro método simple propuesto está a la par con los métodos más modernos en sus conjuntos de datos.
También investigamos la importancia del contexto y la información de los personajes en las tareas de reconocimiento de emociones al introducir los marcos de solo contexto y de solo personajes en el modelo previamente entrenado en marcos completamente informados. Para obtener comparaciones justas y excluir la influencia de las diferencias en la distribución de píxeles del cuadro, también ajustamos el modelo previamente entrenado en los cuadros de solo contexto y de solo caracteres. Los resultados correspondientes se muestran también en la Tabla 3. Sin información completa, el rendimiento del modelo disminuye tanto para condiciones de solo contexto como de solo caracteres.
Para mostrar la efectividad del conjunto de datos de VEATIC, utilizamos nuestro modelo previamente entrenado en VEATIC, lo ajustamos en otros conjuntos de datos y probamos su rendimiento. Solo probamos EMOTIC [32] y CAER-S [33] dada la simplicidad de nuestro modelo y la similitud de nuestro modelo con los modelos propuestos en otros artículos sobre conjuntos de datos. Los resultados se muestran en la Tabla 4. Nuestro modelo previamente entrenado funciona a la par con los métodos propuestos en EMOTIC [32] y CAERS [33]. Por lo tanto, muestra la efectividad de nuestro conjunto de datos VEATIC propuesto.
Este documento está bajo licencia CC 4.0.