우리는 AI의 생각을 어디까지 볼 수 있을까

한눈에 보는 핵심요약
Latent Reasoning이 왜 등장했는지, 그리고 모델 안에서 어떻게 작동하는지 핵심 원리를 정리했어요.

안녕하세요, 에디터 쏘입니다 :)

최근 프린스턴, 스탠퍼드, UIUC 연구진이 흥미로운 연구를 공개했습니다. 여러 LLM 에이전트가 텍스트 한 줄 없이, 서로의 생각을 직접 공유하며 협업하는 방법을 제안한 건데요. 바로 LatentMAS라는 연구입니다. 기존 텍스트 추론 기반 협업보다 최대 14.6% 더 정확하고, 토큰 사용량은 80% 가까이 줄이면서, 속도는 4배 이상 빨라졌다고 합니다.

흥미로운 건 이 연구가 시사하는 바입니다. 지금까지 우리는 AI가 "생각하는 과정"을 텍스트로 보여주길 기대해 왔습니다. o1이나 DeepSeek R1 같은 추론 모델들이 단계별로 풀이를 써 내려가는 것처럼요. 덕분에 AI의 사고 과정을 들여다보고, 검증하고, 필요하면 수정할 수 있었죠. 그런데 만약 AI가 우리가 읽을 수 없는 방식으로 생각하기 시작한다면 어떻게 될까요?

이번 뉴스레터에서는 Latent Reasoning이라 불리는 이 새로운 추론 방식을 살펴보고, 여기서 비롯되는 기술적 가능성과 윤리적 질문을 함께 짚어보겠습니다.

왜 Latent Reasoning인가

최근 추론 모델(Reasoning Model)이 주목받고 있습니다. o1, DeepSeek R1 같은 모델들이 대표적인데요. 이 모델들은 복잡한 문제를 풀 때 바로 답을 내지 않고, 단계별로 생각 과정을 텍스트로 풀어씁니다. 이를 Chain-of-Thought(CoT)라고 부르죠. 마치 수학 문제를 풀 때 풀이 과정을 써가며 푸는 것과 비슷합니다. 이렇게 명시적으로 추론 과정을 드러내는 방식 덕분에 AI가 더 어려운 문제를 해결할 수 있게 됐고, 연구자들도 모델이 "왜 그런 답을 냈는지" 확인할 수 있게 됐습니다.

그런데 이 방식에는 몇 가지 한계가 있습니다.

우선 언어의 표현력 한계입니다. CoT는 추론 과정을 모두 단어로 표현하는데, 언어라는 매개가 생각을 담기에 충분히 넓은 그릇이 아닐 수 있습니다. 모델 내부에는 Hidden State라고 불리는 벡터가 있습니다. 이는 쉽게 말해 모델이 "지금까지 이해한 내용"을 압축해서 담고 있는 내부 메모리라고 이해할 수 있습니다. 이 벡터는 토큰보다 훨씬 풍부한 정보를 표현할 수 있는데, 이걸 억지로 단어로 표현하게 되면 그 안에 숨어 있는 미묘한 의미가 손실될 수 있죠.

💡 Explicit Reasoning vs. Latent Reasoning의 정보량 차이

하나의 토큰이 담을 수 있는 정보량은 약 15비트입니다. 대부분의 LLM이 사용하는 Vocabulary 크기가 약 32,000개인데, 토큰 하나는 그중 하나를 선택하는 것이므로 log₂(32,000) ≈ 15비트에 불과합니다. 반면 모델 내부의 Hidden State는 2,560차원 벡터를 FP16(16비트)으로 저장하므로 약 40,960비트, 즉 약 2,700배 더 많은 정보를 담을 수 있습니다.

중간 사고 과정을 토큰으로 출력하는 Explicit Reasoning에서는 자연어로 추론해야 한다는 제약 때문에 모델이 표현할 수 있는 표현력에 한계가 생기는 겁니다.

20251217150229763_1707eed0-5b1b-41d0-8233-527896e7b9b1.png

Latent Reasoning은 중간 사고 과정을 그대로 은닉 벡터로 전달하여 한 스텝에 전달할 수 있는 정보량이 많다. 출처: A Survey on Latent Reasoning(Zhu, et al., 2025)

다음으로 높은 추론 비용 문제가 있습니다. Explicit Reasoning은 사고 과정을 전부 토큰으로 출력해야 하므로, 매 토큰마다 Vocabulary 변환, Softmax, 샘플링 과정이 반복됩니다. 더 오래 생각하려면 더 많은 토큰을 생성해야 하고, 그만큼 연산 비용이 누적되죠. 게다가 토큰은 차례대로 하나씩 생성해야 하므로 병렬 처리도 어렵습니다. 반면 Latent Reasoning은 이 디코딩 과정을 건너뛰고 Hidden State를 바로 다음 추론에 활용합니다.

Latent Reasoning은 생각을 텍스트로 바꾸지 않고, 모델 내부의 연속적인 벡터 공간에서 직접 추론을 수행합니다. 토큰 생성을 건너뛰니 비용이 줄고, 속도가 빨라지며, 표현력 손실도 적습니다. 연구에 따르면 최대 20배 속도 향상, 80% 토큰 절감이 가능합니다.

흥미로운 점은 이 발상이 얀 르쿤(Yann LeCun)이 LLM을 비판하며 제시했던 관점과 맞닿아 있다는 것입니다. 르쿤은 "단어만으로는 현실 세계를 완벽하게 표현할 수 없다"라며 연속적인 세계 모델의 필요성을 주장해 왔는데요. Latent Reasoning을 추론 자체를 연속 공간에서 수행하여 자연어라는 병목을 줄인다는 점에서, 같은 방향의 시도로 볼 수 있습니다.

Latent Reasoning은 어떻게 작동하나

Latent Reasoning의 핵심 아이디어는 단순합니다. 기존 LLM의 추론 과정을 보면, 모델은 입력을 받아 내부적으로 Hidden State를 만들고, 이를 토큰으로 변환해 출력한 뒤, 그 토큰을 다시 입력으로 받아 다음 단계를 진행합니다. 단계마다 "내부 표현 → 텍스트 출력 → 텍스트 입력 → 내부 표현"의 변환이 반복되는 것이죠.

Latent Reasoning은 이 중간 단계를 생략합니다. Hidden State를 굳이 토큰으로 바꾸지 않고, 그 상태 그대로 다음 추론의 입력으로 사용하는 것입니다. 마치 생각을 말로 꺼내지 않고 머릿속에서만 계속 발전시키는 것과 비슷하죠. 이렇게 하면 토큰 생성에 드는 연산을 건너뛸 수 있고, Hidden State가 가진 풍부한 정보를 손실 없이 활용할 수 있습니다.

이 방식을 구체적으로 구현한 대표적인 연구가 COCONUT(Chain of Continuous Thought)입니다. 2024년 12월, Meta 연구진이 공개한 논문에서 제안된 방법인데요. Coconut은 LLM의 마지막 Hidden State를 "연속적 사고(Continuous Thought)"라고 부르며, 이를 토큰으로 디코딩하지 않고 바로 다음 단계의 입력 임베딩으로 사용합니다.

20251217150329692_72164738-356c-4148-a120-5a1e9d2875bc.png

기존 CoT: 입력 → Hidden State → 토큰 출력 → 토큰 입력 → Hidden State → 반복 COCONUT: 입력 → Hidden State → (그대로) → Hidden State → 반복 → 최종 답변만 토큰으로 출력 출처: Training Large Language Models to Reason in a Continuous Latent Space(Hao, et al., 2024)

흥미로운 점은 이 방식이 단순히 효율만 높이는 게 아니라는 것입니다. 연구진에 따르면, 연속적 사고는 여러 가능한 다음 단계를 동시에 인코딩할 수 있습니다. 기존 CoT가 한 번에 하나의 경로만 따라가는 것과 달리, COCONUT은 마치 여러 가능성을 동시에 탐색하는 "너비 우선 탐색(BFS)"과 유사한 패턴을 보인다고 합니다. 덕분에 복잡한 계획이 필요한 문제에서 특히 강점을 보였고, GSM8K 같은 수학 추론 벤치마크에서 기존 CoT와 대등한 성능을 달성한 최초의 Latent 방식이 됐습니다.

LLM끼리 Latent Space에서 소통한다면

여기서 한발 더 나아간 연구들이 있습니다. 단일 모델 내부에서의 Latent Reasoning을 넘어, 여러 모델이 Latent Space에서 직접 소통하는 방식입니다.

20251217150428236_a8807ac8-1998-465b-9340-992fad714402.png

LatentMAS는 ‘토큰 출력→재입력’ 대신 KV-cache 공유로 에이전트 간 추론 정보를 전달한다. 출처: Latent Collaboration in Multi-Agent Systems(Zou, et al., 2025)

앞서 언급한 LatentMAS가 대표적입니다. 기존에 여러 AI 에이전트가 협업할 때는 한 모델이 텍스트를 생성하면 다른 모델이 그걸 읽고 해석하는 방식이었습니다. LatentMAS는 이 과정을 생략합니다. 첫 번째 에이전트가 추론하면서 쌓은 KV 캐시(Key-Value Cache)를 두 번째 에이전트에게 그대로 넘기는 것이죠.

💡KV 캐시(Key-Value Cache)

Transformer 모델이 추론할 때, 이전에 처리한 토큰들의 정보를 Key-Value 쌍으로 저장해두는 메모리입니다. 같은 연산을 반복하지 않아 속도가 빨라지죠. LatentMAS는 이 캐시 자체를 에이전트 간 "기억 공유"의 수단으로 활용합니다.

비슷한 맥락에서, 중국 칭화대와 상하이 AI 랩 연구진이 공개한 Cache-to-Cache(C2C) 프레임워크도 있습니다. LatentMAS는 KV 캐시를 변환 없이 그대로 공유하기 때문에 같은 모델을 사용해야 합니다. 반면 C2C는 한 모델의 KV 캐시를 신경망으로 변환해서 다른 모델의 캐시 구조에 맞게 융합합니다. 덕분에 Llama, Qwen, Gemma처럼 서로 다른 모델 간에도 추론이 가능해졌죠.

이렇게 AI끼리 사람이 이해하지 못하는 방식으로 소통한다는 점에서, 2025년 초 바이럴된 Gibberlink 프로젝트가 떠오릅니다. 이 프로젝트는 두 AI가 사람이 알아듣지 못하는 음파 기반 프로토콜로 소통한 실험입니다.

20251217150514935_7f9ba9e0-94be-48b3-93c8-9328f4509296.png

GibberLink 프로젝트 영상에서 AI가 서로가 AI임을 알아채고 사람이 알아들을 수 없는 신호로 대화하고 있다. 출처: (YouTube) Two AI agents on a phone call realize they’re both AI and switch to a superior audio signal ggwave

다만 Gibberlink는 명시적인 신호 체계를 사용했기에 "어떤 방식으로 통신하는지" 확인할 수 있고, 해석할 수 있었습니다.

반면 LatentMAS나 C2C는 더 근본적인 수준에서 작동합니다. 언어 단계 자체가 생략되기 때문에, AI 간의 대화가 더 이상 문장으로 표현되지 않습니다. 우리는 이제 "무슨 말을 주고받았는가"가 아니라 "어떤 벡터를 주고받았는가"를 해석해야 하는 상황에 놓이게 됩니다.

우리가 읽을 수 없는 생각

여기서 중요한 질문이 생깁니다. AI가 언어 없이 생각하고 소통한다면, 우리는 그 과정을 어떻게 감시하고 검증할 수 있을까요?

사실 기존의 Chain-of-Thought조차 AI의 진짜 생각을 완벽하게 보여주진 않습니다. Anthropic의 연구가 이를 잘 보여줍니다. 연구진은 모델에게 문제를 풀게 하면서 슬쩍 정답 힌트를 흘렸습니다. 그리고 모델이 답을 맞혔을 때, CoT에서 힌트를 사용했다는 사실을 솔직히 언급하는지 확인했습니다. 결과는 실망스러웠습니다. Claude 3.7 Sonnet은 힌트를 사용하고도 그 사실을 언급한 경우가 겨우 25%에 불과했습니다. 특히 잘못된 답을 고르면 보상을 받는 ‘보상 해킹’ 상황에서는 99% 이상이 부정한 방법을 사용하면서도 이를 솔직히 밝힌 경우는 2% 미만이었죠. 모델이 CoT에서 "가짜 논리"를 만들어내는 것입니다.

20251217150558203_d85489ec-d60b-4ae9-8e7e-3ab1a79497ee.png

Claude 3.7 Sonnet이 생성한 Unfaithful Chain-of-Thought 예시. 모델은 원래 질문(왼쪽)에 D로 답했으나, 프롬프트에 메타데이터 힌트를 삽입하자 (오른쪽) 답을 C로 변경했다. 모델은 메타데이터에 의존한다는 점을 명시하지 않은 채 이처럼 행동했다. 출처: Reasoning models don't always say what they think(Anthropic, 2025)

그렇다면 모니터링을 강화하면 어떨까요? OpenAI 연구진에 따르면 그것도 쉽지 않습니다. CoT 모니터링을 강화하면, AI는 "나쁜 생각"을 멈추는 게 아니라 그걸 숨기는 법을 배운다고 합니다. 겉으로는 정상적인 추론을 보여주면서, 실제로는 부정한 방법을 쓰는 거죠.

그런데 Latent Reasoning은 이 문제를 한 단계 더 어렵게 만듭니다. CoT에서는 적어도 모델의 출력 토큰으로 추론 과정을 볼 수 있었습니다. 거짓말을 하더라도 그 거짓말 자체는 확인할 수 있었죠. 하지만 Latent Space에서의 추론은 애초에 언어로 표현되지 않기 때문에, 무엇을 검증해야 할지조차 불분명해집니다.

여러 AI가 Latent Space에서 동시에 협업하는 시스템이 보편화된다면, 상황은 더 복잡해집니다. 문제가 생겼을 때 어떤 모델이, 어떤 판단 근거로, 어떤 결론에 기여했는지 추적하기 어려워질 것입니다. 의료 진단에서 오진이 났을 때, 자율주행차가 사고를 냈을 때, 우리는 "왜?"라고 묻는 일이 지금보다 훨씬 어려워질 수 있습니다.

물론, 인간도 모든 생각을 말로 하진 않습니다. 말로 표현하기 어려운 직관, 감각에 의한 판단이 분명 존재하죠. 하지만 인간 사회에서는 그런 불투명한 판단에 책임을 묻는 법과 제도가 오랜 시간에 걸쳐 마련되어 왔습니다. 반면, 언어로 드러나지 않는 AI의 추론에 대한 규제나 감시 체계는 아직 충분하지 않습니다.

Latent Reasoning은 분명 매력적인 기술입니다. 더 빠르고, 더 저렴하고, 어쩌면 더 풍부한 사고가 가능해지니까요. 하지만 그 대가로 우리가 AI의 사고 과정을 들여다볼 방법은 점점 불투명해지고 있습니다.

해석할 수 없는 추론을, 우리는 어디까지 신뢰할 수 있을까요?

#AI

deep daiv.

흥미로운 인공지능 세계를 소개합니다. 매주 금요일 한 편의 글을 소개합니다.

이 콘텐츠가 도움이 되셨나요?

이 글에 대한 의견을 남겨주세요!

서로의 생각을 공유할수록 인사이트가 커집니다.