모듈 조립이 여는 AI 대협력 시대

한눈에 보는 핵심요약
가상 현실에서 몸을 지닌 AI는 어떻게 협력할까요? AI가 하나의 과제를 함께 해결하려면 어떤 기능이 필요할까요? 이번 글에서는 Embodied Multi Agent, 그중에서도 모듈화 아키텍처 연구를 소개합니다!

안녕하세요 에디터 느리입니다:>

성공적인 팀 프로젝트를 위해 가장 중요한 건 무엇이라고 생각하시나요?

먼저 과제에 대한 정확한 문제 정의가 필요합니다. 그러기 위해서는 현재 상황을 잘 인식(Perception)해야 합니다. 다음으로 각자가 다른 사람의 말을 듣고 자신의 의견을 전달(Communication)해야 합니다. 그렇지 않으면 중복된 일을 하거나 협력이 원활하게 이뤄지지 않을 수 있으니까요. 그런 다음 과제를 위해 전체적인 계획을 세우고(Plan), 상황에 따라서는 그 계획을 수정(Replan)해야 합니다. 더욱이 이 모든 것들을 기억(Memory)할 수도 있어야겠죠.

그렇다면 가상현실 속에서 활동하는 AI 에이전트는 이런 모든 능력을 발휘할 수 있을까요? 우리는 이런 능력을 발휘하는 에이전트를 Embodied Agent라고 합니다.

Embodied Agent

가상환경 기반 Embodied Agent는 여러 로봇이나 에이전트가 시뮬레이션 환경에서 계획을 세우고, 자연어 명령을 수행하며, 복합적인 과제를 해결합니다. 여기서 Embodied란 에이전트가 단순히 데이터를 처리하는 데 그치지 않고, 가상 공간 속 ‘몸’을 통해 환경을 인식하고 상호작용하는 특성을 의미합니다.

Habitat 2.0 출처: Meta AI Research

기존 Embodied AI는 단일 에이전트를 중심으로 발전해 왔습니다. Habitat, iGibson, ALFWorld, Minecraft와 같은 가상환경은 현실보다 안전하고 반복 실험이 가능해 센서 데이터 처리, 경로 계획, 행동 정책 학습 등에서 높은 성과를 만들어냈습니다.

여기서 다중 에이전트 환경으로 확장하는 순간 난이도는 급격히 상승합니다. 각 에이전트는 자신이 본 부분적인 정보만으로 상황을 판단해야 하는데, 그 과정에서 이미 관찰이 끝난 환경이 다른 에이전트에 의해 변할 가능성이 있기 때문입니다. 이에 에이전트는 자신만의 정책을 최적화하면서도 다른 에이전트과 효율적으로 상호작용해야 합니다.

기존의 전통적 Multi Agent System(MAS)는 각 에이전트가 서로 수집한 정보를 공유하고 과제를 분담해서 수행하기 때문에 단일 에이전트보다 성과가 좋았습니다. 그러나 특정 작업에 특화된 경우가 많아 새로운 과제에 일반화하기 어렵고, 에이전트 수가 늘어남에 따라 성능이 급격하게 낮아지는 등 확장성이 떨어졌습니다. 더욱이, 학습되지 않은 환경 변화에 대응하는 능력도 떨어진다는 한계가 있었죠.

CoELA, 최초의 모듈형 아키텍쳐

이러한 복잡성을 해결하기 위해 주목받은 접근법이 바로 LLM을 활용한 아키텍처 설계입니다. 이미 충분한 데이터로 학습해 풍부한 상식, 추론 능력, 자연어 이해 및 생성 능력을 가진 LLM을 이용해 일반적인 성능을 끌어올린 것이죠. 에이전트는 일반적으로 인식, 계획, 행동, 의사소통 등 여러 기능을 가지기 때문에 연구자들은 각각의 기능에 LLM을 붙이기로 했습니다. 이렇게 각 기능을 “모듈화”한 최초의 논문이 바로 CoELA(Cooperatvie Embodied Language Agent, ICLR, 2024)입니다.

CoELA Framework 출처 : Building Cooperative Embodied Agents Modularly with Large Language Models(Zhang, Hongxin, et al., 2023)

CoELA는 다음과 같은 다섯 가지의 모듈로 구성되어 있습니다.

Perception Module은 색상과 깊이 정보를 수집하는 RGB-D 원시 센서 데이터를 받아 물체를 인식하고 상태를 추출합니다.

Memory Module은 장기 기억 구조를 모방하는데요. Semantic Memory는 세계와 다른 에이전트 상태를, Episodic Memory는 과거 행동 및 대화 기록을, 마지막으로 Procedural Memory는 계획 실행 방법과 모델 파라미터 등을 저장하며 대부분 변경되지 않습니다.

Communication Module은 메모리에서 현재 상황과 관련된 과거 정보를 불러와 다른 에이전트에게 보낼 메시지를 생성합니다. 이 메시지는 자신의 상황일 수도 있고, 상대의 상황에 대한 질문이 수도 있습니다. 이때 만들어진 메시지는 상황에 맞춰 전송됩니다.

Planning Module은 LLM을 기반으로 고수준 계획을 수립하는 모듈로, 여기에는 언제, 무엇을 이야기할지가 포함됩니다.

마지막으로 Execution Module은 고수준 계획을 환경에 맞는 저수준 동작으로 변환 및 실행하는 모듈입니다. 여기서 말하는 고수준 계획은 “식탁에 빵을 놓으러 가야한다”와 같은 전체적인 계획을 뜻하고, 저수준 동작은 “식탁으로 가기”, “빵을 놓기”와 같은 간단한 동작을 뜻합니다.

이 구조를 통해 CoELA는 **TDW-MAT(ThreeDWorld Multi-Agent Transport)**와 C-WAH(Communicate Watch-And-Help) 두 가지 벤치마크에서 실험을 수행했습니다.

TDW-MAT 출처: ⓒ deep daiv.

C-WAH 출처: ⓒ deep daiv.

TDW-MAT는 고해상도 3D 물리 기반 시뮬레이터인 ThreeDWorld에 기반하여 여러 개의 물체를 침대 위로 운반하는 것이 목적입니다. 총 6개의 방이 연결된 주거 공간 내에서 물체들은 임의의 위치에 배치되는데요. 해당 벤치마크는 특히 방 탐색, 컨테이너 활용, 운반 전략 등 장기적이고 전략적인 협업 능력을 요구하는 것이 특징입니다.

C-WAH는 다중 에이전트가 협력하여 일상 작업을 수행하도록 하는 시뮬레이터인데요. 예를 들어 "컵을 싱크대에 두고, 사과를 테이블에 올려두기"라는 과제를 받게 되면 에이전트들은 분업과 소통을 통해 이를 수행합니다.

TDW-MAT는 고해상도 3D 물리 기반 시뮬레이터인 ThreeDWorld에 기반하여 여러 개의 물체를 침대 위로 운반하는 것이 목적입니다. 총 6개의 방이 연결된 주거 공간 내에서 물체들은 임의의 위치에 배치되는데요. 해당 벤치마크는 특히 방 탐색, 컨테이너 활용, 운반 전략 등 장기적이고 전략적인 협업 능력을 요구하는 것이 특징입니다.

C-WAH는 다중 에이전트가 협력하여 일상 작업을 수행하도록 하는 시뮬레이터인데요. 예를 들어 "컵을 싱크대에 두고, 사과를 테이블에 올려두기"라는 과제를 받게 되면 에이전트들은 분업과 소통을 통해 이를 수행합니다.

CoELA와 인간의 협력 과정 출처 : Building Cooperative Embodied Agents Modularly with Large Language Models(Zhang, Hongxin, et al., 2023)

CoELA는 두 벤치마크에서 몬테카를로 트리 탐색(MCTS) 기반의 기존 전통적 방식보다 최대 40% 이상 높은 성능을 달성했습니다. 또한 자연어로 소통할 수 있다는 특성 덕에 인간과의 협력 실험에서도 더 높은 신뢰를 받았습니다.

CAPO, 메타 플랜의 수립

CoELA는 모듈형 아키텍처의 기반을 마련했으나, 고정된 계획 없이 매 순간 새로운 계획을 수립하는 방식에는 한계가 있었습니다. 단기적으로는 유연할 수 있으나 장기적인 협력 전략이 없기에 중복 작업이나 불필요한 이동이 발생할 수 있기 때문입니다. 이를 보완하고자 등장한 것이 CAPO(Cooperative Plan Optimization)입니다.

CAPO Framework 출처 : CaPo : Cooperataive Plan Optimization for Efficient Embodied Multi-Agent Cooperation(Liu, Jie, et al. 2024)

CoELA와 마찬가지로 CAPO는 여러 모듈로 이루어져 있는데요. 그중 주목할 부분은 Meta-Plan Generation Phase와 Progress-Adaptive Meta Plan&Execution Phase입니다. CAPO는 과제를 수행하기 전 메타 플랜(Meta-plan)이라는 상위 협력 전략을 수립한 뒤, 각 에이전트의 세부 계획을 조율하는 방식으로 작동합니다.

Meta Plan을 수립하는 프롬프트 출처 : CaPo : Cooperataive Plan Optimization for Efficient Embodied Multi-Agent Cooperation(Liu, Jie, et al. 2024)

두 에이전트는 상호 협의 하에 수립한 메타 플랜을 바탕으로 과제를 수행합니다. 이때 에이전트가 계획을 세우면 다른 에이전트는 이에 대한 자신의 동의 여부 및 의견을 이야기합니다. 만약 모두가 동의할 경우 해당 계획을 이행하는데요. 만약 누군 어떠한 물체를 발견하거나 하위 임무를 완료하는 등의 **“New Progress”**가 발생한다면 “Progress-Adaptive Planning Module”을 통해 메타 플랜을 새로 수립합니다. 이를 통해 중복 작업을 감소시키고 탐색 범위를 효율화할 수 있으며, 상황에 맞 계획을 수행할 수 있게 됩니다. 실제 실험에서 CAPO는 ThreeDWorld와 같은 복잡한 3D 환경에서 기존 CoELA 대비 더 높은 성공률과 자원 효율성을 보여주었습니다.

COTS, 다양한 계획의 검토

CAPO에도 한계는 있습니다. 초기 메타 플랜에 지나치게 의존하고, 실행 중 환경 변화에 대한 대응이 유연하지 않다는 점입니다. 거기에 단일 경로 기반 추론만 수행하기 때문에 치명적인 오류가 발생할 경우 이에 대한 대처가 불가능하다는 문제가 있었습니다.

CoTS Framework 출처 : Collaborative Tree Search for Enhancing Embodied Multi-Agent Collaboration(Zu, Lizheng, et al., 2024)

CoTS(Collaborative Tree Search for Enhancing Embodied Multi-Agent Collaboration, CVPR, 2025)는 이 문제를 해결하기 위해 다양한 계획을 고려합니다. Collaborative Planning Module은 여러 계획 경로를 생성하고 평가하여 최적의 협력 전략을 도출하는 모듈로, CoTS의 핵심입니다. 에이전트들은 단일한 계획을 무조건 따르는 것이 아니라, 다양한 계획 경로를 찾아내고 그 중 가장 효과적인 전략을 선택합니다. 여기서 중요한 개념이 바로 MCTS(Monte Carlo Tree Search)입니다. MCTS는 원래 바둑이나 체스 같은 게임에서 자주 쓰이던 기법인데요. 여러 선택지를 트리 형태로 탐색하면서, 무작위 시뮬레이션을 통해 가장 좋은 경로를 찾는 방법입니다.

Collaborative Tree Search 출처 : Collaborative Tree Search for Enhancing Embodied Multi-Agent Collaboration(Zu, Lizheng, et al., 2024)

위 그림에서 각 노드는 하나의 계획을 뜻하고 자식 노드는 해당 계획을 조금 수정하거나 확장한 버전입니다. 이때 탐색을 반복하면서 해당 경로가 괜찮다고 생각하면 더 탐색하고, 아닌 건 버립니다.

먼저 계획 세우는 역할을 맡은 Alice는 현재 환경 상황과 목표에 따라 단계별 계획을 제시합니다. (ex. Step1 : Alice는 냉장고로 이동, Step2 : Bob은 거실을 탐색) 이후 Bob은 계획 평가자(Critic) 역할을 수행합니다. 해당 계획이 효율적인지 판단하여 자연어 피드백 + 보상 점수를 부여하는데요. "그 계획은 좋아 보여. 하지만 부엌이 더 가까워"라고 말하며 Reward를 0.6으로 부여할 수 있습니다. 이때 이 과정은 하나의 단일 체인이 아니라 트리(Tree) 구조로 확장됩니다. 즉, 하나의 노드가 하나의 협업 계획, 평가 피드백을 담고 있고, 각 노드는 여러 개의 자식 노드로 확장되며 다양한 협업 시나리오를 모색합니다. 트리 내에서 어떤 경로를 더 확장할지는 UCT(Upper Confidence Bound for Trees) 공식을 따릅니다.

여기서 평균 보상 V가 높은 노드, 즉 성과가 좋았던 경로를 더 확장하려고 하고, 방문 횟수가 적은 노드도 일정 확률로 시도하여 새로운 전략 가능성도 열어둡니다. 즉, 탐험과 이용의 균형인 것이죠. 선택된 계획의 보상은 상위 노드로 역전파되어 이후 계획 선택에 영향을 줍니다. 즉, 좋은 계획일수록 트리 내에서 더욱 강조되는 구조입니다. 해당 과정을 통해 CoTS는 단일 응답에 의존하는 기존 LLM 시스템과는 달리 다양한 협업 계획 경로를 생성하고 평가하면서 가장 효과적인 전략을 선택합니다.

또한 CoTS는 Plan Evaluation Module을 도입하여 작업이 진행될 때마다 현재 계획이 아직 유효한지 평가합니다. 만약 유효하다면 계획을 유지하고, 그렇지 않다면 다시 계획을 세우는 것이죠. 여기서 중요한 점은 작은 변화가 생겼다고 해서 바로 계획을 바꾸는 것이 아니라 '전체적으로 여전히 괜찮은 계획인가?'를 기준으로 판단한다는 점입니다. 이를 통해 과도한 LLM 호출을 줄이고 계획 일관성을 유지하면서도 변화하는 환경에 적절하게 대응할 수 있게 됩니다.

오픈소스 LLM 도입이 가져화

Embodied Multi Agent 연구에서 에이전트의 성능은 기반이 되는 LLM의 성능에 크게 좌우됩니다. 지금까지는 GPT-4와 같은 API 상용 모델을 주로 사용했기 때문에 연구자들은 대규모 실험 시 API 사용료에 대한 부담을 안고 있었습니다. 더욱이 아키텍처나 가중치를 수정할 수 없어 세밀한 조정이 불가능했기에 프롬프트 엔지니어링만으로 성능을 최적화해야 하는 어려움이 뒤따랐죠.

2025년 8월, OpenAI는 gpt-oss-20b와 gpt-oss-120b라는 두 개의 오픈소스 LLM을 공개했습니다. 상용 모델급 성능을 지닌 오픈소스의 등장은 이러한 한계를 근본적으로 바꿉니다. 연구자는 gpt-oss를 특정 모듈의 특성에 맞춰 직접 파인튜닝하거나 아키텍처를 수정해 새로운 기능을 추가할 수 있습니다. Planning Module에는 추론 능력을 강화한 버전을, Communication Module에는 간결하고 정확한 언어 생성에 특화된 버전을 만들 수도 있죠. 이렇게 맞춤형 LLM을 모듈 단위로 조합하면 이전보다 한층 강력 Embodied AI를 구축할 수 있습니다. 이제 연구자들은 상용 모델급 성능과 완전한 조작 자유를 동시에 손에 넣었습니다. 이 결합이 불러올 Embodied AI의 발전 속도와 범위는 어느 정도일까요?

#AI

deep daiv.

흥미로운 인공지능 세계를 소개합니다. 매주 금요일 한 편의 글을 소개합니다.

이 콘텐츠가 도움이 되셨나요?

이 글에 대한 의견을 남겨주세요!

서로의 생각을 공유할수록 인사이트가 커집니다.