-
DLI Lab(지도교수: 최윤석 교수), ACL 2025 논문 1편 게재 승인
2025-05-26데이터 및 언어 지능(Data & Language Intelligence, DLILAB) 연구실의 논문 1편이 세계 최고 권위의 자연어처리 국제학술대회인 ACL 2025 (“2025 Annual Conference of the Nations of the Association for Computational Linguistics”)에 게재 승인되었습니다. 논문은 7월 오스트리아 빈에서 발표될 예정입니다. - Jihyung Lee, Jin-Seop Lee, Jaehoon Lee, YunSeok Choi†, Jee-Hyong Lee†, "DCG-SQL: Enhancing In-Context Learning for Text-to-SQL with Deep Contextual Schema Link Graph", Proceedings of the 2025 Annual Conference of the Association for Computational Linguistics (ACL 2025) († Corresponding Author) 자연어 질문을 SQL 쿼리로 변환하는 Text-to-SQL Task는 대형 언어 모델(LLM)의 In-context learning을 통해 발전해왔습니다. 하지만 기존의 방법들은 무작위로 선택한 Demonstration과 비교해도 성능 향상이 거의 없으며, Llama 3.1-8B와 같은 소형 LLM을 사용할 경우 성능이 크게 하락하는 문제를 보입니다. 이는 현재 방법들이 실제로 유용한 Demonstration을 효과적으로 검색하기보다는, 초대형 LLM의 내재된 능력에 과도하게 의존하고 있습니다. 본 논문에서는 Demonstration을 효과적으로 검색하고 SQL 쿼리를 생성하기 위한 새로운 접근법을 제안합니다. 우리는 질문(Query)과 스키마(Schema) 항목 간의 핵심 정보와 의미적 관계를 포함하는 Deep Contextual Schema Link Graph를 구성합니다. 제안된 방법은 Text-to-SQL 샘플을 효과적으로 표현하고, In-context learning에 유용한 Demonstration을 검색할 수 있도록 합니다. Spider 벤치마크에서의 실험 결과는 제안된 방법의 효용성을 입증하며, 다양한 초대형 LLM뿐만 아니라 소형 LLM에서도 SQL 생성 성능이 향상됨을 보여줍니다. 본 방법은 소형 모델과 초대형 모델 모두에서 효율성과 효과성을 입증했습니다. 최윤석 교수: ys.choi@skku.edu | 데이터 및 언어 지능 연구실: https://dli.skku.edu/
I2SLAB 송인표, 주민준 학생 (지도교수: 이장원 교수), WACV2025 논문 발표
2025-05-02I2SLAB(지도교수: 이장원)의 송인표, 주민준 학생(실감미디어공학과)이 지난 2025년 2월 28일부터 3월 4일까지 미국 애리조나 투손에서 열린 컴퓨터 비전 분야의 대표 국제학회인 WACV 2025 (IEEE/CVF Winter Conference on Applications of Computer Vision)에 참가해 주목할 만한 연구 성과를 발표했다. 이번 학회에서 I2SLAB 연구팀은 웨어러블 360도 카메라를 활용해 사용자의 주변 환경을 인식하고, 시각장애인이 일상에서 마주칠 수 있는 다양한 위험 상황—예를 들어, 도로 위에서의 소매치기, ATM 이용 중 비밀번호를 도청당하는 상황 등—을 탐지할 수 있는 새로운 인공지능 모델을 제안했다. 해당 연구는 시각장애인의 안전한 사회 활동을 지원할 수 있는 기술적 가능성을 제시하며, WACV 2025 참석자들로부터 많은 관심과 긍정적인 평가를 받았다. I2SLAB 연구팀이 발표한 논문의 주요 내용은 다음과 같다. [논문] Inpyo Song, Sanghyeon Lee, Minjun Joo, and Jangwon Lee. “Anomaly detection for people with visual impairments using an egocentric 360-degree camera.” In IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Feb 2025. [Abstract] Recent advancements in computer vision have led to a renewed interest in developing assistive technologies for individuals with visual impairments. Although extensive research has been conducted in the field of computer vision-based assistive technologies, most of the focus has been on understanding contexts in images, rather than addressing their physical safety and security concerns. To address this challenge, we propose the first step towards detecting anomalous situations for visually impaired people by observing their entire surroundings using an egocentric 360-degree camera. We first introduce a novel egocentric 360-degree video dataset called VIEW360 (Visually Impaired Equipped with Wearable 360-degree camera), which contains abnormal activities that visually impaired individuals may encounter, such as shoulder surfing and pickpocketing. Furthermore, we propose a new architecture called the FDPN (Frame and Direction Prediction Network), which facilitates frame-level prediction of abnormal events and identifying of their directions. Finally, we evaluate our approach on our VIEW360 dataset and the publicly available UCF-Crime and Shanghaitech datasets, demonstrating state-of-the-art performance.
올림플래닛 김명현 CTO, 2025년 IAB 위촉 및 시스터기업 가입
2025-03-27[사진] 홍성은 실감미디어공학과학과장(좌측), 김명현 올림플래닛 CTO, 김진필 실감미디어공학과 산학협력교수 (우측) 지난 3월 19일(수), 올림플래닛이 실감미디어공학과의 IAB(기업자문위원: Industrial Advisory Board)에 합류하였습니다. IAB는 기업 친화적인 교육과 연구를 위해, 기술과 콘텐츠 트랙을 대표하는 기업 담당 부서의 임원급 전문가들로 구성된 단체입니다. IAB는 학과 및 연구 전반에 대한 조언을 제공하며, 실감미디어공학과의 연말 연구 성과 발표회(Year-end Research Review)에 초청되어 심사위원으로 참여하고, 연구 및 개발 성과에 대해 피드백을 제공합니다. 실감미디어공학과는 2024년 LG전자 CTO그룹 i-LAB 이석수 연구소장(상무)을 1호 IAB 위원으로 위촉했으며, 삼성전자, SK텔레콤, 한국전자통신연구원(ETRI), 한국전자기술연구원(KETI), LG유플러스, NAVER 클라우드센터, LG헬로비전, KBS 미디어연구소, (주)상화, SOS LAB 등의 임원 및 소장들과 함께 11명의 IAB 기구를 운영해왔습니다. 그에 이어, 2025년에는 올림플래닛이 새롭게 합류하게 되었습니다. 올림플래닛은 메타버스 기반의 3D 공간 데이터 플랫폼을 제공하는 기업으로, 부동산, 전시, 리테일, 교육 등 다양한 분야에서 혁신적인 실감형 가상공간 솔루션을 선도하는 스타트업입니다. 이날 올림플래닛은 2025년부터 시작하는 실감미디어공학과 가족기업(Sister 기업)에 참여를 신청하였으며, 홍성은 학과장과 함께 IAB 위촉장 수여식 및 가족기업을 통한 상호 기술/교육 협력 및 공유 프로세스에 대해 환담하는 시간을 가졌습니다. https://www.instagram.com/share/p/BAGA1OKLAp
AIM LAB(지도교수 : 홍성은 교수) , CVPR 2025 논문 1편 게재 승인
2025-03-12인공지능 및 미디어 (AI & Media, AIM LAB) 연구실의 논문 1편이 컴퓨터 비전 및 패턴 인식 분야에서 세계 최고 수준의 학술대회인 CVPR 2025 (“The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025”)에 게재 승인되었습니다. 논문은 6월 미국 내슈빌에서 발표될 예정입니다. 저자: 김홍엽*, 정인영*, 서다윤, Youjia Zhang, 이상민, 홍성은 (*공동 1저자) 논문에서는 Audio-Visual Question Answering(AVQA) 문제를 다루며, 기존 방식의 한계를 극복하기 위해 새로운 프레임워크인 QA-TIGER를 제안했습니다. 기존 연구들은 모든 프레임을 동일하게 취급하거나 Top-K 프레임 선택 방식을 사용했으나, 이는 연속적인 시간 정보를 충분히 반영하지 못하는 한계가 있었습니다. QA-TIGER는 두 가지 핵심 모듈로 구성되었습니다. 1. 질문 인식 융합(Question-Aware Fusion) 모듈은 질문 정보를 초기 단계부터 오디오 및 비주얼 피처에 명시적으로 주입하여 효과적인 정보 융합을 수행했습니다. 이를 위해 사전 학습된 인코더를 활용하고, 셀프 어텐션 및 크로스 어텐션을 적용하여 질문과 모달리티 간의 상호작용을 강화했습니다. 2. 가우시안 전문가 시간적 통합(Temporal Integration of Gaussian Experts) 모듈은 기존의 이산적인 프레임 선택 방식 대신 Mixture of Experts(MoE) 기법을 활용하여 연속적인 시간 정보를 정밀하게 반영했습니다. 각 가우시안 전문가는 특정 시간 구간에 초점을 맞춰 동적 가중치를 부여하며, 이를 통해 모델이 질문에 맞는 시간적 단서를 효과적으로 학습하도록 설계했습니다. 결과적으로 QA-TIGER는 질문 특화 정보와 정밀한 시간적 모델링을 결합하여 AVQA 분야에서 새로운 기준을 제시하는 모델임을 입증했습니다.