172 판독값

VEATIC: 비디오 기반 감정 및 상황 데이터 세트의 영향 추적: 실험

~에 의해 Kinetograph: The Video Editing Technology Publication4m2024/05/27

너무 오래; 읽다

본 논문에서 연구자들은 인간 감정 인식을 위한 VEATIC 데이터 세트를 소개하여 기존 데이터 세트의 한계를 해결하고 상황 기반 추론을 가능하게 합니다.

featured image - VEATIC: 비디오 기반 감정 및 상황 데이터 세트의 영향 추적: 실험

이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.

저자:

(1) 캘리포니아 대학교 버클리 캠퍼스의 Zhihang Ren과 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: [email protected]).

(2) 캘리포니아 대학교 버클리 캠퍼스의 Jefferson Ortega와 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: [email protected]).

(3) University of California, Berkeley의 Yifan Wang과 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: [email protected]).

(4) 캘리포니아 버클리 대학교 Zhimin Chen(이메일: [email protected]);

(5) 댈러스 텍사스대학교 Yunhui Guo (이메일: [email protected]);

(6) Stella X. Yu, University of California, Berkeley 및 University of Michigan, Ann Arbor (이메일: [email protected]);

(7) David Whitney, University of California, Berkeley (이메일: [email protected]).

링크 표

4. 실험

본 연구에서는 맥락 작업에서 새로운 감정 인식을 제안합니다. 즉, 각 비디오 프레임의 맥락 정보와 캐릭터 정보를 통해 선택된 캐릭터의 밸런스와 각성을 추론하는 것입니다. 여기서는 상황 작업에서 새로운 감정 인식을 벤치마킹하기 위한 간단한 기본 모델을 제안합니다. 모델의 파이프라인은 그림 8에 나와 있습니다. 우리는 특징 추출을 위한 CNN(Convolutional Neural Network) 모듈과 시간 정보 처리를 위한 시각적 변환기 모듈이라는 두 가지 간단한 하위 모듈을 채택했습니다. CNN 모듈 구조는 Resnet50[21]에서 채택되었습니다. 얼굴/인물 및 맥락 특징이 별도로 추출되고 나중에 병합되는 CAER [33] 및 EMOTIC [32]와 달리 우리는 완전히 정보가 있는 프레임을 직접 인코딩합니다. 단일 예측의 경우 연속 N개의 비디오 프레임이 독립적으로 인코딩됩니다. 그런 다음 연속 프레임의 특징 벡터가 첫 번째 위치에 삽입되어 L개의 주의 모듈 세트를 포함하는 변환기 인코더에 공급됩니다. 마지막으로 각성 및 원자가 예측은 다층 퍼셉트론(MLP) 헤드에 의해 수행됩니다.

4.1. 손실 함수 및 훈련 설정

기본 모델의 손실 함수는 두 가지 개별 손실의 가중치 조합입니다. MSE 손실은 평가의 실제값과 모델 예측의 로컬 정렬을 정규화합니다. 감정 평가의 시간적 통계 학습과 같이 더 큰 규모에서 평가와 예측의 정렬을 보장하기 위해 일치 상관 계수(CCC)를 정규화로 활용합니다. 이 계수는 다음과 같이 정의됩니다.

4.2. 평가 지표

SAGR은 두 벡터 X와 Y의 개별 값의 부호가 얼마나 일치하는지 측정합니다. 이는 [0, 1]의 값을 취합니다. 여기서 1은 완전한 일치를 나타내고 0은 완전한 모순을 나타냅니다. SAGR 측정항목은 다른 측정항목보다 추가 성능 정보를 캡처할 수 있습니다. 예를 들어, Valence Ground Truth가 0.2인 경우 0.7과 -0.3의 예측은 동일한 RMSE 값으로 이어집니다. 그러나 분명히 0.7은 양의 원자가이기 때문에 더 적합합니다.

4.3. 벤치마크 결과

앞서 언급한 4가지 지표인 CCC, PCC, RMSE 및 SAGR을 사용하여 상황 작업에서 새로운 감정 인식을 벤치마킹합니다. 결과는 표 3에 나와 있습니다. 다른 데이터 세트와 비교하여 제안된 간단한 방법은 데이터 세트에 대한 최첨단 방법과 동등합니다.

또한 완전히 정보가 제공되는 프레임의 사전 훈련된 모델에 상황 전용 프레임과 캐릭터 전용 프레임을 공급하여 감정 인식 작업에서 상황 및 캐릭터 정보의 중요성을 조사합니다. 공정한 비교를 얻고 프레임 픽셀 분포 차이의 영향을 배제하기 위해 컨텍스트 전용 프레임과 문자 전용 프레임에 대해 사전 훈련된 모델을 미세 조정합니다. 해당 결과는 표 3에도 나와 있습니다. 전체 정보가 없으면 컨텍스트 전용 조건과 문자 전용 조건 모두에서 모델 성능이 저하됩니다.

VEATIC 데이터세트의 효율성을 보여주기 위해 우리는 VEATIC에서 사전 훈련된 모델을 활용하고 다른 데이터세트에서 이를 미세 조정한 후 성능을 테스트했습니다. 우리는 모델의 단순성과 다른 데이터 세트 논문에서 제안된 모델과의 유사성을 고려하여 EMOTIC [32] 및 CAER-S [33]에 대해서만 테스트했습니다. 결과는 표 4에 나와 있습니다. 사전 훈련된 모델은 EMOTIC [32] 및 CAERS [33]에서 제안된 방법과 동등한 성능을 발휘합니다. 따라서 제안된 VEATIC 데이터세트의 효율성을 보여줍니다.