Qwen이 에이전트를 위한 시뮬레이터를 만들다: '언어 세계 모델' AgentWorld를 들여다보다

알리바바 Qwen 팀이 환경에서 행동하는 대신 환경이 무엇을 할지 예측하는 모델 AgentWorld를 오픈소스로 공개했습니다.

models2026-06-27 22:00 KST·편집장·6 분

다른 종류의 에이전트 모델

지난 2년간 AI 에이전트 경쟁은 대부분 행동에 관한 것이었습니다. 버튼을 클릭하고, 터미널 명령을 실행하고, 풀 리퀘스트를 올리고, 도구를 호출하는 모델들이었죠. 그런데 2026년 6월 24일, 알리바바의 Qwen 팀은 그 전제를 뒤집는 무언가를 내놓았습니다. Qwen-AgentWorld는 환경에서 행동하기 위해 만들어진 모델이 아닙니다. 오히려 어떤 행동에 대해 환경이 어떻게 반응할지를 예측하기 위해 만들어졌습니다. 팀은 이를 "네이티브 언어 세계 모델(native Language World Model)"이라 부르며, AIbase의 보도에 따르면 Qwen은 이를 그 종류로서는 "세계 최초"라고 내세우고 있습니다.

이 표현은 한번 곱씹어 볼 만합니다. 에이전트가 터미널에서 rm -rf를 실행하거나, 안드로이드 앱을 열거나, 검색 엔진에 질의하기로 결정했을 때, 보통은 실제 터미널이나 실제 기기, 실제 API를 상대로 그 행동을 직접 실행해 봐야 무슨 일이 벌어지는지 알 수 있습니다. 세계 모델은 그 루프를 단축하려 합니다. 행동과 지금까지의 상호작용 이력이 주어지면, 환경이 반환했을 관측 결과를 생성하는 것이죠. AI 에이전트를 위한 조종사가 아니라, AI 에이전트를 위한 비행 시뮬레이터라고 생각하면 됩니다.

실제로 공개된 것

Hugging Face 모델 카드와 GitHub README에 따르면, Qwen은 두 가지 변형을 출시했으며, 둘 다 256K 컨텍스트 윈도우를 갖춘 Mixture-of-Experts(MoE) 모델입니다.

Qwen-AgentWorld-35B-A3B — 총 35B 파라미터, 활성 3B, 256개의 전문가(expert)와 순전파당 9개 활성화.
Qwen-AgentWorld-397B-A17B — 총 397B 파라미터, 활성 17B.

두 모델 모두 Apache 2.0 라이선스로 공개되었으며, 가중치는 GitHub와 Hugging Face(그리고 AIbase에 따르면 ModelScope)에 배포되었습니다. 이 라이선싱은 중요합니다. Apache 2.0은 진정으로 관대한 라이선스로, 상업적 사용과 수정을 허용합니다. 그래서 이는 "오픈 가중치, 사용 제한" 방식의 공개와는 다른 범주에 속합니다.

이 모델은 일곱 가지 상호작용 도메인을 다룹니다. MCP(도구 호출), Search, Terminal, SWE(소프트웨어 엔지니어링), Android, Web, OS입니다. README에 명시된 학습 레시피는 세 단계 파이프라인으로, "CPT가 환경 지식을 주입하고, SFT가 다음 상태 예측 추론을 활성화하며, RL이 시뮬레이션 충실도를 다듬는다"고 요약됩니다. 이는 **1천만 개가 넘는 실세계 상호작용 궤적(trajectory)**에 대해 수행되었습니다. 핵심적인 아키텍처상의 주장은, 환경 모델링이 나중에 덧붙인 기능이 아니라 처음부터 학습 목표였다는 점입니다.

Qwen이 스스로를 채점하려고 만든 벤치마크

모델과 함께 Qwen은 동일한 일곱 도메인을 아우르는 평가 도구 모음인 AgentWorldBench도 공개했습니다. AIbase에 따르면 이 벤치마크의 특징은, 모델이 예측한 관측 결과를 시뮬레이션이나 합성된 정답이 아니라 **실제 환경에서 수집한 짝지어진 정답 관측 결과(paired ground-truth observations)**와 대조해 채점한다는 점입니다. 각 예측은 다섯 가지 차원으로 평가됩니다. Format, Factuality, Consistency, Realism, Quality입니다.

모델 카드와 README의 대표 결과는 다음과 같습니다.

Qwen-AgentWorld-397B-A17B는 종합 58.71점을 기록했으며, 팀은 이것이 GPT-5.4의 58.25점을 포함해 모든 프런티어 독점 모델을 능가한다고 밝혔습니다.
Qwen-AgentWorld-35B-A3B는 종합 56.39점을 기록했는데, GitHub README에 따르면 범용 모델인 Qwen3.5-35B-A3B 대비 +8.66점 상승한 수치입니다. 도메인별 점수는 최저 **36.69(Search)**부터 최고 **65.92(OS)**까지 분포했습니다.

여기에는 두 가지 솔직한 단서가 따라붙어야 합니다. 첫째, 이는 모델을 만든 바로 그 팀이 설계하고 발표한 벤치마크입니다. 이는 흔한 관행이긴 하지만 언제나 외부의 재현을 필요로 합니다. 둘째, GPT-5.4에 대한 격차는 0.46점입니다. 이 지표상으로는 분명한 우위지만 좁은 차이이며, 그 자체만으로 경쟁 구도를 다시 그릴 만한 종류의 격차는 아닙니다.

에이전트를 위한 "세계 모델"이 왜 중요할 수 있는가

독립적인 검증에서도 시뮬레이션 품질이 유지된다면, 그 실용적 함의는 벤치마크 점수 차이가 시사하는 것보다 큽니다. 두 가지가 두드러집니다.

첫째는 에이전트 학습의 비용과 안전성입니다. 에이전트를 위한 강화학습 루프는 환경 상호작용이 병목입니다. 실제 브라우저, OS, 코드베이스를 상대로 한 모든 시도는 느리고, 때로는 되돌릴 수 없으며, 가끔은 파괴적입니다. 좋은 세계 모델은 에이전트가 어떤 행동의 결과를(나쁜 결과까지 포함해) 운영 시스템을 건드리지 않고 "상상"할 수 있게 해 줍니다. 이는 학습 데이터를 생성하고 계획을 스트레스 테스트하는 비용을 극적으로 낮추며, 위험한 행동 경로를 실제 머신이 아니라 샌드박스에서 탐색할 수 있게 해 줍니다.

둘째는 추론 시점의 계획 수립입니다. "이 명령을 실행하면 무엇이 돌아올까?"를 시뮬레이션할 수 있는 에이전트는, 체스 엔진이 수를 평가하듯이 결정을 내리기 전에 여러 단계 앞을 내다볼 수 있습니다. 이는 오늘날 지배적인 패턴, 즉 행동하고, 실제 결과를 관측하고, 수정하는 방식과는 다른 자세입니다.

이는 더 큰 2026년의 흐름과도 맞아떨어집니다. 가장 흥미로운 에이전트 연구는 "모델이 행동을 취할 수 있는가"에서 "모델이 자신이 행동하는 세계에 대한 정확한 내부 모델을 갖고 있는가"로 옮겨가고 있습니다. 그리고 바로 그 간극이 에이전트가 장기 과제에서 실패하는 원인입니다. 에이전트는 자신의 행동이 무엇을 초래할지 모르기 때문입니다.

과장과 실체를 가르는 장부

여기서 진정으로 주목할 만한 점은 이렇습니다. 오픈 가중치, Apache 2.0 모델이 에이전트형 AI를 환경 예측을 중심으로 재정의했고, 두 가지 크기로 출시되었으며, 저자들 자신의 실환경 벤치마크에서 이름이 명시된 프런티어 독점 시스템을 근소하게 앞선다고 주장한다는 사실입니다. 35B 변형이 범용 형제 모델 대비 약 9점을 끌어올린 것 또한, 다음 상태 예측에 특화하는 것이 실제로 무언가를 얻게 해 준다는 의미 있는 신호입니다.

여전히 입증되지 않은 점은 이렇습니다. 모든 세계 모델은 **오차 누적 문제(compounding-error problem)**에 직면합니다. 한 단계를 정확히 예측하는 것과, 수십 단계의 예측을 그럴듯하지만 틀린 "환각" 상태로 표류하지 않고 이어가는 것은 전혀 다른 차원의 어려움입니다. 그리고 우리가 읽은 자료에 묘사된 바로는, AgentWorldBench는 장기 롤아웃(rollout)의 충실도가 아니라 단일 관측 예측 품질을 측정하는 것으로 보입니다. 또한 자료들은 추론 지연 시간, 397B-A17B 모델을 구동하는 비용, 혹은 독립적인 제3자 벤치마크에 대해서는 보고하지 않습니다. 그리고 "세계 최초의 네이티브 언어 세계 모델"이라는 표현은 출시에 따라붙은 마케팅 주장이지 판정된 사실이 아닙니다. 세계 모델에 관한 관련 연구는 이번 공개보다 앞섭니다. 외부 그룹이 수치를 재현하고 다단계 시뮬레이션을 검증하기 전까지, 올바른 해석은 "해결됨"이 아니라 "유망하고 이례적으로 개방적임"입니다.

정리

Qwen-AgentWorld는 이번 달 공개된 것 중 개념적으로 가장 흥미로운 축에 드는데, 바로 더 빠르게 행동하거나 더 많은 도구를 호출하는 또 하나의 에이전트가 아니기 때문입니다. 이는 에이전트에게 자신의 환경에 대한 예측 모델을 부여하려는 시도이며, 그것도 관대한 라이선스 아래 공개적으로, 그리고 적당한 하드웨어에 배포할 수 있는 활성 3B 모델부터 팀이 자체 벤치마크에서 프런티어 독점 모델을 근소하게 앞선다고 주장하는 397B-A17B 시스템까지 다양한 크기로 시도한 것입니다. 벤치마크 격차는 얇고 자체 보고된 것이며, 장기 시뮬레이션 문제는 활짝 열려 있고, 비용과 지연 시간에 대한 그림은 언급되지 않았습니다. 하지만 핵심은 그 방향성입니다. 2025년이 행동하는 에이전트에 관한 해였다면, 2026년의 프런티어는 행동이 무엇을 치르게 할지를 먼저 상상할 수 있는 에이전트에 관한 것일지도 모릅니다. AgentWorld는 그 명제에 대한 구체적이고 들여다볼 수 있는 베팅입니다. 그리고 가중치가 Apache 2.0으로 공개되어 있기에, 나머지 업계가 그 계산을 직접 검증해 볼 수 있습니다.

#qwen#world-models#ai-agents#open-weights

1차 출처

Qwen/Qwen-AgentWorld-35B-A3B (Hugging Face model card)QwenLM/Qwen-AgentWorld (GitHub)Qwen-AgentWorld Released with Native Language World Model (AIbase)