-
[연구] DXLab (박은일 교수 연구실), AAAI 2026 1편, WACV 2026 1편 게재 승인
2025-11-17DXLab (지도교수: 박은일, https://dsl.skku.edu)의 논문이 인공지능 분야 우수학회인 AAAI 2026에 1편, WACV 2026에 1편 게재 승인(Accept)되었습니다. 해당 논문은 26년 1월(싱가포르)와 3월(애리조나)에서 발표될 예정입니다. 1) (AAAI 2026) “MASP: Multi-Aspect Guided Emotion Reasoning with Soft Prompt Tuning in Vision-Language Models” 논문은 이상은 졸업생(인공지능융합학과, 現 ETRI 연구원), 이유빈 박사과정생(인공지능융합학과)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 기존 Vision-Language Model (VLM) 기반 감정 인식이 이미지의 단일 표현이나 제한된 단서에 의존해 세밀한 감정 판단에 어려움을 겪는 문제를 해결하기 위해, 인간의 감정 판단 과정에서 활용되는 여러 시각 단서를 구조적으로 통합하는 MASP를 제안합니다. MASP는 얼굴 표정, 장면, 객체, 색채, 밝기, 행동의 여섯 가지 감정 단서를 독립적으로 인코딩하는 Multi-Aspect Module을 학습하고, 이를 전체 이미지 특징과 결합하여 보다 풍부한 시각 표현을 구성합니다. 기존 연구가 제한된 관점만 활용한 것과 달리, MASP는 여섯 가지 단서를 모두 분리×통합해 더 정교한 감정 해석을 지원합니다. 이후 Soft Prompt Tuning을 통해 언어 모델에 감정 인식에 특화된 추론 구조를 유도함으로써, 기존 대비 높은 정확도와 안정적인 성능을 달성합니다. Soft Prompt는 프롬프트 표현 변화에 대한 강건성을 높여 실제 환경에서도 안정적인 추론을 가능하게 합니다. MASP는 유사 감정 구분이나 소수 클래스 분류와 같은 까다로운 상황에서도 강인한 성능을 보이며, 멀티모달 감정 이해가 필요한 인간-에이전트 상호작용 등 실제 응용 분야에서 높은 활용 가능성을 보여줍니다. 2) (WACV 2026) “Alignment and Distillation: A Robust Framework for Multimodal Domain Generalizable Human Action Recognition” 논문은 지현빈 석사과정생(실감미디어공학과), 이주엽 박사과정생(인공지능융합학과)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 기존 Human Action Recognition(HAR) 모델이 단일 모달리티나 정적인 융합 방식에 머물러 실제 환경의 도메인 변화에 취약하다는 문제를 해결하기 위해, 멀티모달 단서를 시간적으로 정렬 및 통합하는 Multimodal Alignment and Distillation for Domain Generalization(MAD-DG) 프레임워크를 제안합니다. 이를 위해 MAD-DG는 두 가지 핵심 요소를 중심으로 보다 안정적인 행동 표현을 학습합니다. 먼저, Segment-Label Aligned Contrastive Learning(SLA-CL)은 RGB, Optical Flow, Audio 간의 비동기적 기록 문제를 Temporal Binding Window 기반으로 보정해 모달리티 간 의미적 대응을 정밀하게 맞춥니다. 이를 통해 센서 지연이나 녹화 불일치로 발생하는 잡음을 줄이고 행동의 핵심 패턴을 강조합니다. 이어서 Online Self-Distillation Temporal Module(OSDTM)은 행동이 시간적으로 여러 단계로 전개된다는 점에 착안해 다양한 길이의 segment tuple을 구성하고, soft attention으로 중요한 조합을 선택합니다. Teacher–student 방식의 self-distillation을 통해 도메인 변화에도 흔들리지 않는 시간적 표현을 형성합니다. MAD-DG는 이러한 모달리티 정렬과 다중 스케일 temporal reasoning을 결합해, 기존 모델이 어려워하던 멀티소스 도메인 일반화나 콘텍스트 제거 환경(Mimetics)에서도 높은 성능을 달성합니다. 특히 Optical Flow 정보를 적극적으로 활용해 실제 행동 중심의 표현을 구성하며, 복잡한 행동 이해나 인간–에이전트 협력 시스템 등 다양한 실사용 환경에서 높은 활용 가능성을 보여줍니다.
인공지능융합학과/실감미디어공학과 학생 12명, AI 서울테크 대학원 장학생 선정
2025-11-10우리 학교 인공지능융합학과/실감미디어공학과 학생 12명이 AI 서울테크 대학원 장학생에 선정되었다. 선정된 장학생은 다음과 같다. 석사과정: 류보곤(지도교수 홍성은), 주세진, 양시현, 김지은, 박지안(지도교수 한진영), 최린, 전희정, 김기원, 박채원, 지현빈(지도교수 박은일) 박사과정: 최소윤(지도교수 홍성은), 김동재(지도교수 박은일) 서울장학재단은 위 학생들에게 각 500만원(석사과정)과 1천만원(박사과정)의 연구 장려금을 지원할 계획이다. 해당 장학금은 서울 소재의 AI 인재양성을 위해 서울특별시에서 신설한 사업으로 AI 기반의 전문 인재 양성을 위하여 조성되었다. *각 연구실 링크 홍성은 교수 - AIM LAB (https://aim.skku.edu/) 한진영 교수 - DSAIL (http://dsail.skku.edu/) 박은일 교수 - dxlab (https://dsl.skku.edu/)
인공지능융합학과 박은일 교수 연구팀, ICCV 2025 - ABAW VA Estimation Challenge 우승
2025-11-03▲(왼쪽부터) 성균관대 이유빈 박사과정생, 이상은 졸업생(現 ETRI 연구원), 박채원 석사과정생, 차준엽 박사과정생, 박은일 교수 우리 대학 인공지능융합학과 박은일 교수 연구팀이 세계 최고 권위의 인공지능(컴퓨터 비전) 학술대회인 ICCV 2025 (International Conference on Computer Vision)에서 개최된 ABAW (Affective Behavior Analysis in the Wild) / Valence-Arousal Estimation Challenge에서 1위를 차지했다고 밝혔다. 이번 대회는 2025년 10월 미국 하와이에서 열렸으며, 전 세계 유수 대학과 연구기관이 참가해 영상과 음성 등 비정형 멀티모달 데이터를 활용한 감정 상태 예측 기술을 경쟁했다. ▲ ICCV 2025 - ABAW Valence-Arousal Estimation Challenge에서 1위를 차지하며 수상한 인증서 ▲ ICCV 2025에서 1위 수상 연구를 발표하는 이유빈 박사과정(2025년 10월 20일, 미국 하와이 호놀룰루 컨벤션센터) ABAW 챌린지는 실제 환경에서 수집된 복잡한 멀티모달 데이터를 바탕으로 인간의 감정을 Valence-Arousal(긍정-부정, 활성화-비활성화) 축에서 정밀하게 추정하는 기술력을 평가한다. 특히 올해 대회는 시간적 변화에 대한 이해와 멀티모달 융합의 정교함을 요구해, 실시간 감정 추정 및 인간-인공지능 상호작용 분야의 핵심 벤치마크로 자리잡았다. 박은일 교수 연구팀은 Time-aware Gated Fusion(TAGF) 기반의 정서 인식 프레임워크를 제안해 우수한 성과를 거두었다. 제안된 모델은 BiLSTM 게이팅 메커니즘을 활용하여 시간에 따른 감정 변화를 동적으로 반영하고, 불필요한 잡음을 억제하면서 핵심 정서 단서를 강조함으로써 기존 모델 대비 높은 예측 성능을 달성했다. 이 결과는 실제 환경에서도 안정적이고 해석 가능한 감정 인식이 가능함을 보여주며, 향후 인간-AI 상호작용, 감정 기반 콘텐츠 분석, 정서 지능형 에이전트 개발 등 다양한 응용 분야로 확장될 수 있을 것으로 기대된다. ▲ 시각 및 음성 정보를 융합한 Time-aware Gated Fusion(TAGF) 기반 정서 예측 프레임워크 개략도 이번 성과는 박은일 교수 연구팀이 꾸준히 축적해 온 사용자 이해 기반의 범용 인공지능 기술 연구 역량을 다시 한번 세계적으로 인정받은 사례로 평가된다. 연구팀은 향후 감정 이해를 넘어, 인간의 인지적 맥락과 의도를 정밀하게 해석하는 차세대 정서 지능형 인공지능 기술 개발에 주력할 계획이다. 또한 이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 인간지향적 차세대 도전형 AI 기술 개발과 딥페이크 연구센터 사업의 일환으로 수행되었으며, ICCV 2025에서 공식 발표되었다. ※ 논문명: Dynamic Temporal Gating Networks for Cross-Modal Valence-Arousal Estimation ※ 저자명: 이유빈(제1저자), 이상은, 박채원, 차준엽(공동저자), 박은일(교신저자) ※ 학술대회: ICCV 2025 (International Conference on Computer Vision)
삼성학술정보관 3차원 공간데이터 국제표준화기구 MPEG의 공식 평가 영상으로 채택 달성
2025-10-14삼성학술정보관 3차원 공간데이터 국제표준화기구 MPEG의 공식 평가 영상으로 채택 달성 2025년 10월 11일, 성균관대학교 소프트웨어융합대학 실감미디어공학과 류은석 교수 연구실(MCSLab) 연구팀이 개발한 대규모 3D 영상 데이터셋 “Library”가 국제표준화기구 ISO/IEC JTC 1/SC 29/WG 4 (MPEG Video Coding)의 Gaussian Splat Coding(GSC) 필수 실험 평가용 공식 영상으로 채택되었다. 이번 성과는 한국전자통신연구원(ETRI)과 공동으로 추진된 국제 기고 결과로, 구래건, 김영규, 안승혁, 양이삭 연구원이 저자로 참여하였다. Library Sequence는 본교 내 삼성학술정보관과 주변 공간을 드론을 활용하여 실감형 3D로 기록한 대규모 데이터셋이다. 연구팀은 캠퍼스 공간을 실제와 동일한 비율로 항공 촬영하고, 이를 3차원 형태로 정밀 복원함으로써 현실 세계를 가상 공간으로 확장한 새로운 형태의 3D 디지털 자산을 구축하였다. 해당 데이터는 가우시안 스플래팅(Gaussian Splatting) 기술을 활용해 재구성되었으며, 이는 최근 전 세계에서 주목받고 있는 차세대 3D 실감 영상 기술이다. 국제표준화기구 MPEG은 현재 3D Gaussian Splatting 기반 영상 압축 기술(GSC)의 표준화를 추진 중이며, Library Sequence는 이 과정에서 성능 평가 검증을 위한 공식 실험 데이터(Exploration Experiment, JEE 6.1)로 지정되었다. 이는 향후 전 세계의 연구기관과 기업이 제안하는 모든 GSC 알고리즘이 Library Sequence를 기준으로 비교 및 검증된다는 것을 의미한다. 즉, 성균관대학교에서 제작한 데이터가 국제표준의 품질을 결정하는 ‘공통 시험 영상’으로 활용되는 사례로 평가된다. 또한 이번 성과는 한국전자통신연구원(ETRI) 와의 공동 연구를 통해 이루어졌으며, 국내 학계와 연구기관이 협력하여 국제표준의 중심에서 기술을 선도하고 있음을 보여준다. 이번 채택으로 인해 캠퍼스의 대표 공간이 전 세계 연구자들과 함께 실험하고 인용하는 국제 데이터 레퍼런스로 자리를 잡을 수 있게 되었다. 실감미디어 기술을 통해 본교의 공간이 글로벌 연구 무대에서 디지털 문화 자산으로 재탄생한 상징적인 사례가 되었고, 이에 연구팀은 국제표준화기구와 협력을 지속하며, Library Sequence를 기반으로 한 다양한 3차원 공간 데이터 압축 및 전송 실험과 기술 검증을 이어 나갈 예정이다. ※ 지도교수: 류은석 (성균관대학교 소프트웨어융합대학 실감미디어공학과) ※ 구래건, 김영규, 안승혁, 양이삭, 류은석 (성균관대학교) / 이하현, 방건 (ETRI) ※ 문의: esryu@skku.edu | http://mcsl.skku.edu/
발전기금






