서울대학교 공과대학 AIDAS 연구실 도재영 교수 연구팀은 글자·이미지·영상·소리를 하나의 모델이 동시에 이해하고 생성하는 차세대 통합 인공지능 ‘Dynin-Omni’를 개발했다고 밝혔다.
왼쪽 상단에서 시계방향으로 서울대학교 전기정보공학부·협동과정 인공지능전공 도재영 교수, 김재익 연구원, 김우진 연구원, 홍지환 연구원, 이예준 연구원, 현시은 연구원, 임민택 연구원, 한윤석 연구원, 김도근 연구원, 이호은 연구원, 김형근 연구원, 김진혁 연구원
이번 연구는 기존 AI가 정보 이해와 생성 기능을 분리하거나 여러 모델을 결합해 사용하던 한계를 극복한 것이 핵심이다. 연구팀은 모든 감각 정보를 하나의 구조로 통합해 동시에 처리하는 ‘완전 통합형’ AI 모델을 구현했다. 이를 통해 글자부터 영상까지 다양한 데이터를 단일 모델이 유기적으로 이해하고 생성할 수 있게 됐다.
Dynin-Omni는 기존 생성형 AI와 구조적으로 차별화된다. 기존 모델이 단어를 순차적으로 생성하는 방식이었다면, 이번 모델은 결과물 전체를 한 번에 구성한 뒤 정교하게 다듬는 디퓨전 방식을 적용했다. 이로 인해 영상이나 음성과 같은 대용량 데이터도 보다 빠르고 효율적으로 처리할 수 있다.
또한 텍스트 중심으로 다른 데이터를 해석하던 기존 방식과 달리 모든 정보를 동일한 기준으로 동시에 처리한다. 변환 과정 없이 다양한 데이터를 직접 연결함으로써 정보 간 관계를 보다 정확하게 파악할 수 있다는 설명이다. 이해와 생성 기능 역시 하나의 모델에 통합해 별도의 AI를 조합할 필요 없이 연속적인 처리 구조를 갖췄다.
성능 측면에서도 경쟁력을 입증했다. 연구팀에 따르면 Dynin-Omni는 19개 글로벌 벤치마크 평가에서 정보 추론, 영상 이해, 이미지 생성·편집, 음성 처리 등 다양한 분야에서 기존 통합 모델을 상회하는 결과를 기록했다. 일부 작업에서는 특정 분야에 특화된 전문 모델과 비교해도 뒤지지 않는 수준을 보였으며, 생성 속도는 기존 대비 최대 4~5배 향상됐다.
이번 기술은 로봇, AI 비서, 스마트 기기 등 실시간 상호작용이 요구되는 산업에서 활용도가 클 것으로 전망된다. 하나의 모델이 다양한 감각 정보를 동시에 처리할 수 있어 별도 모델 재구성 없이 다양한 환경에 적용할 수 있다는 점도 강점으로 꼽힌다.
도재영 교수는 “이번 연구는 AI가 정보를 이해하는 능력과 결과물을 만들어내는 능력을 하나로 합쳐 글자나 이미지 등 다양한 정보를 사람처럼 동시에 처리하는 통합 AI의 가능성을 열었다는 점에서 큰 의미가 있다”며 “앞으로는 단순히 화면 속 데이터를 처리하는 수준을 뛰어넘어 사람과 실시간으로 소통하며 현실 세계에서 직접 작동하는 지능형 로봇이나 스마트 기기처럼 우리 삶에 실질적 도움을 주는 기술로 연구를 확장해 나갈 계획”이라고 밝혔다.
연구팀은 향후 Dynin-Omni를 고도화해 로봇에 적용하는 ‘피지컬 AI’로 확장할 계획이다. 특히 국내 연구 생태계와 협력을 강화해 통합 옴니모달 AI 분야에서 경쟁력을 확보한다는 구상이다. 이번 연구는 한국연구재단 기초연구사업과 과학기술정보통신부, 정보통신산업진흥원의 고성능 컴퓨팅 지원사업을 통해 수행됐다.
채현숙
기자
