[연구] AIM LAB(지도교수 : 홍성은 교수) , CVPR 2025 논문 1편 게재 승인
- 실감미디어공학과
- 조회수380
- 2025-03-12
인공지능 및 미디어 (AI & Media, AIM LAB) 연구실의 논문 1편이 컴퓨터 비전 및 패턴 인식 분야에서 세계 최고 수준의 학술대회인 CVPR 2025 (“The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025”)에 게재 승인되었습니다.
논문은 6월 미국 내슈빌에서 발표될 예정입니다.
저자: 김홍엽*, 정인영*, 서다윤, Youjia Zhang, 이상민, 홍성은 (*공동 1저자)
논문에서는 Audio-Visual Question Answering(AVQA) 문제를 다루며, 기존 방식의 한계를 극복하기 위해 새로운 프레임워크인 QA-TIGER를 제안했습니다. 기존 연구들은 모든 프레임을 동일하게 취급하거나 Top-K 프레임 선택 방식을 사용했으나, 이는 연속적인 시간 정보를 충분히 반영하지 못하는 한계가 있었습니다.
QA-TIGER는 두 가지 핵심 모듈로 구성되었습니다.
1. 질문 인식 융합(Question-Aware Fusion) 모듈은 질문 정보를 초기 단계부터 오디오 및 비주얼 피처에 명시적으로 주입하여 효과적인 정보 융합을 수행했습니다. 이를 위해 사전 학습된 인코더를 활용하고, 셀프 어텐션 및 크로스 어텐션을 적용하여 질문과 모달리티 간의 상호작용을 강화했습니다.
2. 가우시안 전문가 시간적 통합(Temporal Integration of Gaussian Experts) 모듈은 기존의 이산적인 프레임 선택 방식 대신 Mixture of Experts(MoE) 기법을 활용하여 연속적인 시간 정보를 정밀하게 반영했습니다. 각 가우시안 전문가는 특정 시간 구간에 초점을 맞춰 동적 가중치를 부여하며, 이를 통해 모델이 질문에 맞는 시간적 단서를 효과적으로 학습하도록 설계했습니다.
결과적으로 QA-TIGER는 질문 특화 정보와 정밀한 시간적 모델링을 결합하여 AVQA 분야에서 새로운 기준을 제시하는 모델임을 입증했습니다.