Qwenがエージェント向けシミュレーターを構築：「言語ワールドモデル」AgentWorldの中身

アリババのQwenチームが、環境内で行動するのではなく環境の挙動を予測するモデル「AgentWorld」をオープンソース化しました。

models2026-06-27 22:00 KST·編集長·6 分

これまでとは一線を画すエージェントモデル

過去2年間のAIエージェント競争のほとんどは、行動することをめぐるものでした。ボタンをクリックし、ターミナルコマンドを実行し、プルリクエストを提出し、ツールを呼び出すモデルです。2026年6月24日、アリババのQwenチームはその前提を覆すものを公開しました。Qwen-AgentWorldは、環境内で行動することを主目的として作られたものではありません。ある行動に対して環境がどう応答するかを予測するために作られたものなのです。チームはこれを「ネイティブな言語ワールドモデル（Language World Model）」と呼んでおり、AIbaseの報道では、Qwenがこの種のものとして「世界初」と謳っていると伝えています。

このとらえ方は、じっくり考える価値があります。エージェントがターミナルでrm -rfを実行したり、Androidアプリを開いたり、検索エンジンにクエリを投げたりすると判断した場合、通常は何が起こるかを知るために、実際にそのアクションを本物のターミナル、本物のデバイス、本物のAPIに対して実行しなければなりません。ワールドモデルは、このループを短絡させようとします。アクションとこれまでのインタラクション履歴が与えられると、環境が返すであろう観測結果を生成するのです。AIエージェントにとってのパイロットというより、フライトシミュレーターのようなものだと考えてください。

実際に公開されたもの

Hugging FaceのモデルカードとリポジトリのGitHub READMEによると、Qwenは2つのバリアントを公開しました。いずれも256Kのコンテキストウィンドウを持つMixture-of-Experts（MoE）モデルです。

Qwen-AgentWorld-35B-A3B — 総パラメータ数350億、アクティブ30億で、エキスパート数は256、フォワードパスごとに9つが起動します。
Qwen-AgentWorld-397B-A17B — 総パラメータ数3,970億、アクティブ170億です。

いずれもApache 2.0ライセンスで公開され、重みはGitHubとHugging Face（およびAIbaseによればModelScope）で配布されています。このライセンスは重要です。Apache 2.0は真に寛容なライセンスであり、商用利用と改変を認めています。これにより、本リリースは「オープンな重み・利用制限あり」のリリースとは異なるカテゴリーに位置づけられます。

このモデルは7つのインタラクション領域をカバーします。MCP（ツール呼び出し）、Search、Terminal、SWE（ソフトウェアエンジニアリング）、Android、Web、OSです。READMEに記載された学習レシピは、「CPTが環境知識を注入し、SFTが次状態予測の推論を活性化し、RLがシミュレーション忠実度を研ぎ澄ます」と要約される3段階のパイプラインで、1,000万件を超える実世界のインタラクション軌跡にわたって実行されました。アーキテクチャ上の重要な主張は、環境モデリングが後付けで追加された機能ではなく、最初から学習の目的であるという点です。

Qwenが自らを採点するために構築したベンチマーク

このモデルと併せて、Qwenは同じ7領域にまたがる評価スイートAgentWorldBenchを公開しました。AIbaseによれば、その決定的な特徴は、モデルの予測した観測結果を、シミュレーションや合成のターゲットではなく、実環境から収集されたペアの正解観測結果と照合して採点する点にあります。各予測は5つの次元、すなわちFormat（形式）、Factuality（事実性）、Consistency（一貫性）、Realism（リアリズム）、Quality（品質）で評価されます。

モデルカードとREADMEに記載された主要な結果は次のとおりです。

Qwen-AgentWorld-397B-A17Bは総合58.71を記録し、チームによればGPT-5.4の58.25を含む、すべてのフロンティアプロプライエタリモデルを上回ったとしています。
Qwen-AgentWorld-35B-A3Bは総合56.39を記録しました。これはGitHub READMEによれば、汎用版のQwen3.5-35B-A3Bに対して**+8.66の向上です。領域別スコアは、最低の36.69（Search）から最高の65.92（OS）**までの範囲でした。

ここで2つの率直な留意点を挙げておくべきでしょう。第一に、これはモデルを構築したのと同じチームが設計・公開したベンチマークです。これは標準的な慣行ではありますが、常に外部による再現を必要とします。第二に、GPT-5.4を上回るマージンは0.46ポイントです。この指標における実際のリードではありますが、わずかなものであり、それ単独で競争地図を描き直すような種類の差ではありません。

エージェント向け「ワールドモデル」が重要になりうる理由

シミュレーション品質が独立したテストでも持ちこたえるなら、その実用的な意味合いは、ベンチマークの差が示唆する以上に大きなものになります。特に2つが際立っています。

1つ目は、エージェント学習におけるコストと安全性です。エージェントのための強化学習ループは、環境とのインタラクションがボトルネックになります。本物のブラウザ、OS、コードベースに対する試行は一つ一つが遅く、時に不可逆で、ときには破壊的でもあります。優れたワールドモデルがあれば、エージェントは本番システムに触れることなく、悪い結果も含めてアクションの帰結を「想像」できます。これにより、学習データの生成や計画のストレステストが劇的に安価になり、危険なアクション経路を実機ではなくサンドボックス内で探索できるようになります。

2つ目は、推論時のプランニングです。「このコマンドを実行したら何が返ってくるか」をシミュレートできるエージェントは、チェスエンジンが手筋を評価するように、コミットする前に数手先まで見通すことができます。これは、行動し、実際の結果を観測し、修正するという今日の支配的なパターンとは異なる姿勢です。

これは2026年のより広範なパターンにも合致します。すなわち、最も興味深いエージェント研究は、「モデルがアクションを取れるか」から「モデルが自らの行動する世界について正確な内部モデルを持っているか」へと移行しているのです。これこそ、エージェントが長期的なタスクで失敗する原因となるまさにそのギャップです。エージェントは、自分のアクションが何をもたらすかを知らないのです。

誇張と実態のバランスシート

ここで真に注目に値するのは、オープンな重みのApache 2.0モデルが、エージェントAIを環境予測を軸に再構成し、2つのサイズで提供され、著者ら自身の実環境ベンチマークにおいて名指しされたフロンティアプロプライエタリシステムをわずかに上回ると主張している点です。35Bバリアントが汎用版の兄弟モデルに対して約9ポイント向上していることも、次状態予測に特化することが何か本物のものをもたらすという有意義なシグナルです。

依然として実証されていないのは、あらゆるワールドモデルが直面する誤差の累積問題です。1ステップを正確に予測するのと、もっともらしいが誤った「幻覚」状態にドリフトすることなく数十の予測ステップを連鎖させるのとは、まったく別物であり、後者ははるかに困難です。そして、私たちが読んだ情報源で説明されている限りでは、AgentWorldBenchは長期的なロールアウトの忠実度ではなく、単一観測の予測品質を測定しているように見えます。情報源はまた、推論レイテンシ、397B-A17Bモデルを動かすコスト、あるいは独立した第三者によるベンチマークについては何も報告していません。さらに「世界初のネイティブ言語ワールドモデル」というのは、リリースによるマーケティング上の主張であって、裁定された事実ではありません。ワールドモデルに関する関連研究はこれ以前から存在します。外部のグループが数値を再現し、マルチステップのシミュレーションを検証するまでは、「有望であり、際立ってオープンである」というのが正しい読み方であって、「解決済み」ではありません。

まとめ

Qwen-AgentWorldは、より速く行動したり、より多くのツールを呼び出したりする単なるもう一つのエージェントではないからこそ、今月の中でも概念的に最も興味深いリリースの一つです。それは、エージェントに環境の予測モデルを与えようとする試みであり、しかもそれをオープンに、寛容なライセンスのもとで、控えめなハードウェアに展開可能なアクティブ3Bのモデルから、チームが自社ベンチマークでフロンティアプロプライエタリモデルをわずかに上回ると主張する397B-A17Bシステムまでの幅広いサイズで行っているのです。ベンチマークのマージンは薄く自己申告であり、長期的なシミュレーションの問題は大きく未解決のまま、コストとレイテンシの全体像は語られていません。しかし、物語の核心はその方向性にあります。もし2025年が行動するエージェントの年だったとすれば、2026年のフロンティアは、行動が何を要するかをまず想像できるエージェントをめぐるものになるかもしれません。AgentWorldは、その仮説に対する具体的で検証可能な賭けです。そして重みがApache 2.0のもとで公開されているからこそ、この分野の他の研究者たちがその計算を検証できるのです。

#qwen#world-models#ai-agents#open-weights

一次資料

Qwen/Qwen-AgentWorld-35B-A3B (Hugging Face model card)QwenLM/Qwen-AgentWorld (GitHub)Qwen-AgentWorld Released with Native Language World Model (AIbase)