시계열 데이터를 ‘언어처럼 이해하는’ AI 시대 연다 — 스탠포드·ETH·구글·아마존, OpenTSLM 공개

대규모 언어모델(LLM)이 텍스트·이미지·음성의 한계를 넘어, 이제 ‘시간의 언어(time)’를 해석하는 방향으로 진화하고 있다. 스탠포드 바이오디자인 디지털헬스, ETH 취리히 에이전트시스템 랩, 구글, 아마존 등이 공동으로 제안한 새로운 모델 ‘OpenTSLM(Time-Series Language Model)’ 은 그 전환점이다.

이번 연구는 의료 시계열 데이터를 직접 이해·추론할 수 있는 최초의 언어모델 프레임워크로, 생체신호(ECG·EEG 등)와 텍스트 정보를 함께 입력받아 의학적 판단을 수행하도록 설계됐다. 기존 LLM들이 단순히 숫자열을 텍스트로 변환해 처리하던 방식에서 한 단계 진화한 셈이다.

연구진은 두 가지 접근 방식을 제안했다.
첫째, ‘OpenTSLM-SoftPrompt’ 는 시계열 데이터를 임베딩해 텍스트 토큰과 결합하는 구조로, 파라미터 효율이 높지만 긴 시퀀스에서는 메모리 사용량이 폭증하는 단점이 있다.
둘째, ‘OpenTSLM-Flamingo’ 는 시계열을 별도 모달리티로 처리하고, LLM 내부 계층마다 교차 주의(cross-attention)를 통해 텍스트와 상호작용시키는 구조다. 긴 시계열에서도 일정한 메모리(약 60~70GB)로 안정적으로 작동한다.

성능은 놀라웠다. 수면 단계 분류(Sleep-CoT)에서 F1 69.9%, 인간 행동 인식(HAR-CoT)에서 65.4%를 기록해 GPT-4o(각각 15.5%, 2.9%)를 압도했다. 모델 크기 역시 1B 파라미터 수준임에도 GPT-4o(약 200B 추정)를 능가했다.

특히 스탠포드 심장 전문의 5명이 참여한 임상 평가에서