-
- DSAIL.(지도교수: 한진영), EMNLP2023 논문 채택
- DSAIL.(지도교수: 한진영)의 이다은(인공지능융합학과), 손세정(인공지능융합학과), 전효림(인공지능융합학과) 학생들이 연구한 논문 “Learning Co-Speech Gesture for Multimodal Aphasia Type Detection” 이 세계 최고 권위 자연어처리 학회인 EMNLP 2023 (The 2023 Conference on Empirical Methods in Natural Language Processing), Main conference paper로 채택되었습니다. 논문은 23년 12월 싱가포르에서 발표될 예정입니다. 본 논문은 인공지능융합학과 박사과정 및 석사과정 학생들의 협업을 통한 결과물로서, 실어증 유형을 예측하기 위해 음성과 제스처 간의 상관관계를 반영하는 multimodal graph neural network를 제안하였습니다. 논문의 자세한 내용은 다음과 같습니다. [논문] Daeun Lee, Sejung Son, Hyolim Jeon, Seungbae Kim and Jinyoung Han, ““Learning Co-Speech Gesture for Multimodal Aphasia Type Detection,” The 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP 2023), Dec. 2023. [Abstract]. Aphasia, a language disorder resulting from brain damage, requires accurate identification of specific aphasia types, such as Broca’s and Wernicke’s aphasia, for effective treatment. However, little attention has been paid to developing methods to detect different types of aphasia. Recognizing the importance of analyzing co-speech gestures for distinguish aphasia types, we propose a multimodal graph neural network for aphasia type detection using speech and corresponding gesture patterns. By learning the correlation between the speech and gesture modalities for each aphasia type, our model can generate textual representations sensitive to gesture information, leading to accurate aphasia type detection. Extensive experiments demonstrate the superiority of our approach over existing methods, achieving state-of-the-art results (F1 84.2%). We also show that gesture features outperform acoustic features, highlighting the significance of gesture expression in detecting aphasia types.
-
- 작성일 2023-11-02
- 조회수 791
-
- 멀티미디어컴퓨팅시스템연구실 연구팀, 제144차 MPEG 국제표준화 미팅에서 성균관대 이름의 실험표준영상 채택
- ▲(왼쪽부터)정종범, 박준형, 최재열 박사과정 및 학석연계과정 학생 ISO/IEC JTC1 SC29 산하 MPEG(Moving Picture Experts Group)은 영상 및 오디오 데이터 압축 기술에 관한 세계적인 표준을 설정하는 국제 기구로, 디지털 멀티미디어 분야의 혁신적인 기술 개발을 촉진하고 있다. 2023년 10월 15일부터 20일까지 독일 하노버에 위치한 Hannover Congress Centrum 에서 개최된MPEG 144회 회의는 전 세계에서 비디오, 오디오, 그리고 멀티미디어 시스템과 관련된 다양한 전문가들이 한자리에 모여 기술적 토론을 펼치고 새로운 표준 제안을 논의하는 장이 되었다. 류은석 교수 연구팀 Multimedia Computing Systems Lab(MCSLab) 소속 정종범, 박준형, 최재열 연구원이 제 144차 MPEG 미팅에 참석하여 SKKU 이름이 포함된 실사 중심의 “SKKU_VRroom1D, SKKU_VRroom2D” 데이터셋을 포함한 3개의 기고서를 ISO/IEC JTC1/ SC29/ WG4 그룹내 MPEG Immersive Video (MIV), Implicit neural Visual Representation (INVR) 분야에 발표하였다. 이는 인공지능 기반의 NeRF(Neural Radiance Fields) 렌더러를 가상현실(VR) 비디오 압축기술인 MIV 표준에 적용하여 차세대 가상현실 영상압축기술의 표준으로 주목받는 기술이다. 따라서, 본 성균관대학교 SW융합대학 실감미디어공학과 연구팀에서 제안한 ‘SKKU_VRroom1D’ 시퀀스가 향후 INVR 실험에 사용될 표준실험영상(Test sequence)으로 채택되어 향후 해당 분야의 국제표준화 작업에 큰 기여를 할 뿐 아니라 성균관대학교의 이름을 국제적으로 알릴 좋은 기회로 생각된다. 연간 네차례씩 열리는 국제표준화 미팅에 꾸준히 참석해오고 있는 MCSLab 연구원들은 “이번 미팅은 그동안 연구한 내용을 세계 각국의 연구자에게 발표할 수 있는 의미 있는 시간이었으며, 몰입형영상 프로세싱 분야의 최신 국제 표준에 대해 직접적인 기여를 할 수 있는 좋은 기회였다”고 밝혔다.
-
- 작성일 2023-10-24
- 조회수 712