대뇌를 넘어 ‘세계 모델’로, 얀 르쿤이 말하는 AI의 다음 단계

언어를 넘어 세계를 이해하는 AI로: 얀 르쿤의 문제 제기

최근 AI 담론에서 가장 중요한 질문 중 하나는 “현재의 거대 언어 모델이 과연 ‘이해하는 지능’인가”입니다. 텍스트와 코드 영역에서는 이미 인간 수준에 근접한 성능을 보이고 있지만, 물리적 세계와의 상호작용이라는 관점에서는 여전히 근본적인 한계를 드러내고 있습니다. 이 문제를 가장 명확하게 제기하는 인물이 Yann LeCun입니다.

얀 르쿤은 무엇을 문제 삼고 있는가

르쿤의 주장은 단순히 “LLM은 부족하다”는 수준이 아닙니다. 그는 현재의 AI가 언어적 패턴은 정교하게 학습하지만, 세계에 대한 인과적 구조는 제대로 이해하지 못하고 있다고 봅니다. LLM은 방대한 텍스트를 기반으로 다음 토큰을 예측하는 구조이며, 이 방식은 문장 생성이나 요약과 같은 작업에서는 매우 효과적입니다. 그러나 물체의 운동, 충돌, 행동과 결과의 관계와 같은 문제는 단순한 언어 패턴으로 환원되기 어렵습니다. 이 때문에 AI가 실제 세계에서 행동하는 단계로 넘어갈수록 오류와 리스크가 증가하게 됩니다.

생성과 이해는 왜 다른 문제인가

이 지점에서 르쿤은 ‘생성’과 ‘이해’를 구분합니다. OpenAI의 비디오 생성 모델은 매우 사실적인 장면을 만들어내지만, 그것이 곧 세계를 이해한다는 의미는 아닙니다. 생성 모델은 주어진 데이터의 분포를 기반으로 결과를 만들어내는 데 최적화되어 있으며, 미래의 상태를 일관되게 예측하는 능력과는 본질적으로 다른 문제를 다룹니다. 르쿤이 강조하는 것은 “그럴듯하게 만드는 능력”이 아니라 “앞으로 무엇이 일어날지를 예측하는 능력”입니다.

World Model: 세계를 예측하는 내부 구조

이러한 문제의식 속에서 제시되는 개념이 ‘World Model’입니다. 이는 단순한 생성 모델이 아니라, 시간의 흐름에 따라 상태가 어떻게 변화하는지를 예측하는 내부 시뮬레이션 구조를 의미합니다. 예를 들어 공이 굴러가다 멈출지, 장애물과 충돌한 뒤 어떤 방향으로 이동할지를 미리 추론하는 능력은 인간에게는 자연스럽지만, 현재 AI에게는 부족한 영역입니다. 르쿤은 이러한 능력이야말로 지능의 핵심이라고 봅니다.

비디오 데이터는 왜 중요한가

World Model을 학습시키기 위한 핵심 데이터로 주목받는 것이 비디오입니다. 동영상은 시간, 운동, 인과관계를 동시에 담고 있기 때문입니다. V-JEPA와 같은 접근은 픽셀을 그대로 재현하는 대신, 일부 정보를 가린 뒤 이후의 상태를 추상적으로 예측하는 방식으로 학습을 진행합니다. 이는 단순한 시각 인식이 아니라, 세계의 변화를 이해하는 방향으로 나아가는 시도입니다.

이 논쟁은 아직 끝나지 않았다

한편, 이러한 관점에 대해 반론도 존재합니다. Ilya Sutskever를 중심으로 한 일부 연구자들은 충분한 데이터와 연산 자원이 확보된다면, LLM 자체가 세계에 대한 암묵적 모델을 학습할 수 있다고 주장합니다. 즉, 별도의 World Model 없이도 문제를 해결할 수 있다는 입장입니다. 이 논쟁은 현재 진행 중이며, 어느 쪽의 접근이 더 우월한지는 아직 결정되지 않았습니다.

결론: AI는 ‘말하는 존재’에서 ‘이해하는 존재’로 이동하고 있다

현재의 AI는 이미 인간처럼 말하고 글을 쓸 수 있는 수준에 도달했습니다. 그러나 다음 단계는 분명합니다. 세상의 인과관계를 이해하고, 이를 기반으로 미래를 예측하며, 나아가 행동까지 연결하는 능력입니다. LLM이 만들어낸 언어 중심의 혁신 이후, AI의 다음 진화는 ‘세계 이해’라는 방향으로 이동하고 있으며, 그 중심에는 World Model이라는 개념이 자리 잡고 있습니다.