[연구] Pixel Lab (지도교수: 이상민 교수), CVPR 2025 논문 5편 게재 승인
- 실감미디어공학과
- 조회수467
- 2025-03-12
성균관대 Pixel Lab의 논문 5편이 인공지능 및 컴퓨터비전 분야 세계 최고 수준의 학술대회인 CVPR 2025 (“The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025”)에 게재 승인되었습니다.
해당 연구들은 UIUC, Georgia Tech, UW-Madison, Meta, KHU 등 국제적으로 다양한 기관과의 협업을 통해 이루어졌으며, 6월 미국 내슈빌에서 발표될 예정입니다.
논문1. SocialGesture: Delving into Multi-person Gesture Understanding
저자: Xu Cao, Pranav Virupaksha, Wenqi Jia, Bolin Lai, Fiona Ryan, Sangmin Lee✝, James M. Rehg✝ (✝ Corresponding Author)
인간의 제스처 인식에 관한 기존의 연구는 대부분 다인 간 상호작용을 충분히 고려하지 않았습니다. 하지만 다인 간 상호작용은 자연스러운 제스처가 지닌 사회적 맥락을 이해하는 데 매우 중요한 요소입니다. 이러한 기존 데이터셋의 한계로 인해 인간의 제스처를 언어나 음성 등 다른 모달리티와 효과적으로 연계하는 데 어려움이 있었습니다. 이 문제를 해결하고자 본 연구에서는 다인 간 제스처 분석을 위해 특별히 설계된 최초의 대규모 데이터셋인 SocialGesture를 소개합니다. SocialGesture는 다양한 자연스러운 상황을 포함하고 있으며, 영상 기반의 제스처 인식과 시간적 위치를 비롯한 여러 제스처 분석 작업을 지원합니다. 따라서 복잡한 사회적 상호작용 상황에서 제스처 연구를 발전시키는 데 있어 중요한 자료를 제공합니다. 또한 본 논문은 사회적 제스처 이해를 위한 비주얼 질의응답(Visual Question Answering, VQA)이라는 새로운 태스크를 제안하여 비전-언어 모델(Vision-Language Models, VLM)의 성능 평가를 위한 벤치마크를 제공합니다. 실험 결과는 현재의 제스처 인식 모델이 가지는 여러 한계를 보여주며, 앞으로 이 분야에서 개선할 방향성에 대한 통찰력을 제시합니다.
논문2. Object-aware Sound Source Localization via Audio-Visual Scene Understanding
저자: Sung Jin Um, Dongjin Kim, Sangmin Lee✝, Jung Uk Kim✝ (✝ Corresponding Author)
음원 위치 추정(Sound Source Localization) 태스크는 시각적 장면 내에서 소리를 발생시키는 각 객체의 영역을 정확하게 찾아내는 것을 목표로 합니다. 기존의 방법들은 단순한 오디오-시각적 외관 대응 관계에만 의존하여, 시각적으로 유사한 무음 객체가 여럿 존재하는 등의 도전적인 환경에서는 실제 음원에 해당하는 개별 객체의 정확한 위치를 찾는 데 어려움을 겪었습니다. 이러한 문제를 해결하고자 본 논문에서는 세부적인 맥락 정보를 활용하여 정밀한 음원 위치 추정을 수행하는 새로운 프레임워크를 제안합니다. 구체적으로, 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 활용하여 시청각 특징을 바탕으로 세부적인 장면 설명 정보를 생성합니다. 또한 생성된 세부 정보를 효과적으로 활용하기 위해 객체 인식 대비 정렬 손실과 객체 영역 분리 손실이라는 두 가지 손실 함수를 새롭게 제안합니다. 본 방법은 이 두 가지 손실 함수를 통해 세밀한 시청각 대응관계를 바탕으로 정밀한 음원 위치 추정을 효과적으로 수행할 수 있습니다. MUSIC 및 VGGSound 데이터셋을 이용한 광범위한 실험 결과, 본 연구가 단일 음원과 다중 음원이 포함된 상황 모두에서 기존 방법 대비 성능을 크게 향상시킴을 입증했습니다.
논문3. Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation
저자: Bolin Lai, Felix Juefei-Xu, Miao Liu, Xiaoliang Dai, Nikhil Mehta, Chenguang Zhu, Zeyi Huang, James M. Rehg, Sangmin Lee, Ning Zhang, Tong Xiao
텍스트 기반 이미지 편집(Text-guided image manipulation)은 최근 수년간 눈부신 발전을 이루었습니다. 하지만 언어의 모호성을 줄이기 위해, 훈련 데이터에서 잘 나타나지 않거나 순수하게 언어로 설명하기 어려운 명령어에 대해 시각적 예시를 활용한 소수 샷 학습(few-shot learning)이 사용되기도 합니다. 그러나 시각적 프롬프트로부터 학습하는 것은 매우 뛰어난 추론 능력을 요구하기 때문에, 최근 널리 사용되는 확산 모델(diffusion models)들이 이 문제를 효과적으로 다루지 못하고 있습니다. 이러한 한계를 극복하기 위해 본 연구에서는 InstaManip이라는 새로운 멀티모달 자기회귀 모델을 제안합니다. InstaManip은 문장과 이미지로 구성된 가이던스를 통해, 인-컨텍스트 러닝 방식으로 이미지 편집 작업을 빠르게 습득하고, 이를 새로운 이미지에 즉시 적용할 수 있습니다. 구체적으로, 본 논문에서는 혁신적인 그룹 자기 어텐션 메커니즘을 통해 인-컨텍스트 학습을 학습(learning)과 적용(applying)이라는 두 개의 독립된 단계로 명확히 구분함으로써 복잡한 문제를 보다 단순한 두 개의 하위 태스크로 분할합니다. 또한, 예시 이미지 내에서 이미지 변환과 직접 관련되지 않은 콘텐츠를 분리하기 위한 관계 정규화 방법도 함께 제안합니다. 광범위한 실험을 통해 본 논문의 방법이 기존의 소수 샷 이미지 편집 모델들에 비해 인간 평가 기준으로 최소 19% 이상의 큰 성능 향상을 보임을 확인하였습니다. 나아가, 제안한 모델이 예시 이미지의 개수나 다양성을 높일수록 성능이 더욱 향상될 수 있음을 발견했습니다.
논문4. Question-Aware Gaussian Experts for Audio-Visual Question Answering
저자: Hongyeob Kim, Inyoung Jung, Dayoon Suh, Youjia Zhang, Sangmin Lee, Sungeun Hong
오디오-비주얼 질의응답(Audio-Visual Question Answering, AVQA)은 질문 기반의 멀티모달 추론은 물론이고, 미세한 동적 변화를 포착할 수 있도록 정확한 시간적 근거를 요구하는 태스크입니다. 그러나 기존 연구들은 주로 질문 정보를 암묵적으로만 활용하기 때문에, 질문과 관련된 세부적인 부분에 명확히 집중하지 못한다는 한계가 있었습니다. 또한 대부분의 방법이 일정 간격으로 균등하게 프레임을 샘플링하기 때문에, 질문과 관련된 핵심 프레임들을 놓칠 수 있습니다. 최근 이를 해결하기 위해 Top-K 프레임 선택 방식이 제안되었으나, 이 방법들 또한 이산적이어서 보다 세밀한 연속적 시간 정보는 제대로 반영하지 못하고 있습니다. 이러한 문제점을 해결하기 위해 본 논문에서는 질문 정보를 명시적으로 활용하며 연속적인 시간 역학을 모델링하는 새로운 프레임워크 QA-TIGER를 제안합니다. QA-TIGER는 가우시안 기반 모델링을 통해 질문 내용을 바탕으로 연속적 및 비연속적 프레임들에 적응적으로 집중하고, 질문 정보를 명시적으로 주입함과 동시에 점진적으로 세부 사항을 정교화하는 방식을 핵심 아이디어로 사용합니다. 구체적으로, 본 연구는 전문가 혼합 모델(Mixture of Experts, MoE) 방식을 활용해 다양한 가우시안 모델들을 유연하게 구현하고, 질문별로 특화된 시간 전문가를 활성화합니다. 여러 AVQA 벤치마크 데이터셋에서 수행한 폭넓은 실험을 통해 QA-TIGER가 기존 방법들에 비해 state-of-the-art 성능을 달성했음을 확인했습니다.
논문5. Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders
저자: Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg
본 논문에서는 장면 내에서 사람이 어디를 바라보고 있는지를 예측하는 시선 대상 추정(gaze target estimation) 문제를 다룹니다. 사람의 시선 대상을 정확히 예측하기 위해서는 인물의 외형적 특성과 해당 장면의 콘텐츠에 대한 종합적인 추론이 필요합니다. 기존 연구들은 이 문제를 해결하기 위해 장면 인코더, 헤드 인코더, 깊이 및 포즈와 같은 보조 모델 등에서 얻은 특징들을 정교하게 결합하는, 점점 더 복잡한 hand-crafted 파이프라인을 개발해 왔습니다. 본 연구에서는 최근 다양한 시각적 작업에서 우수한 성능을 입증한 범용적(general-purpose) 특징 추출기의 성공에서 영감을 받아, 사전학습된 DINOv2 인코더로부터 추출한 특징을 활용해 시선 대상 추정을 단순화하는 새로운 트랜스포머 기반 프레임워크 Gaze-LLE를 제안합니다. 구체적으로, 장면에 대해 단일한 특징 표현을 추출한 후, 인물에 특화된 위치 프롬프트를 적용하여 간단한 디코딩 모듈로 시선 방향을 예측합니다. 여러 벤치마크 실험을 통해 본 논문의 방법이 기존 연구들을 뛰어넘는 state-of-the-art을 달성했으며, 본 연구에서 설계한 구성 요소들의 타당성을 입증하기 위한 폭넓은 분석도 함께 제시합니다.