中国Alibaba、新AIモデル「Qwen3」を発表：オープンウェイトモデルでAI活用を後押し

2025年4月29日（現地時間）、中国のテクノロジー大手Alibabaは、大規模言語モデル「Qwen（クウェン）」の最新版である「Qwen3」シリーズを発表した。

Qwen3シリーズの全モデルはApache 2.0ライセンスの下でオープンウェイトとして公開されている。主力モデル「Qwen3-235B-A22B」は、様々なベンチマーク評価において、各社上位モデルと肩を並べる性能を誇る。

本記事では、Qwen3の主要モデルの性能比較、オープンウェイトモデルの利点、中国AIの強み、中国と米国のAI競争を紐解く。

参考：Qwen3: Think Deeper, Act Faster（Qwen3：思深，行速）

Qwen3の主力モデルと性能比較

Qwen3シリーズの主力モデル「Qwen3-235B-A22B」と小型MoEモデル（Mixture of Experts：混合専門家モデル）「Qwen3-30B-A3B」は、主要ベンチマークで優れた性能を発揮。各社のDeepSeek-R1、OpenAIのo1、o3-mini、xAIのGrok-3、GoogleのGemini-2.5-Proといった上位モデルと比較しても、競争力のある結果を達成している。

以下では、Qwen3シリーズの主力モデルと他社モデルとの性能を比較する。本記事では分かりやさを重視し「高い」「低い」といった分類で記載するが、公式サイトでは具体的なスコアまで詳細に記載されている。（Qwen3の公式サイトはこちら）

「Qwen3-235B-A22B」と比較した場合の、他モデルの性能

Qwen3-235B-A22Bは、ArenaHardやCodeforcesでトップクラスの性能を持ち、Gemini-2.5-ProがArenaHardでわずかに上回る（高い）。

DeepSeek-R1やOpenAI o1はArenaHardで同程度だが、他のベンチマークでは下回る。小型モデル（Qwen3-30B-A3B、Qwen3-4B）やo3-mini、Grok-3は全体的に低い。

モデル	ArenaHard (500問)	AIME (数学)	LiveCodeBench (コーディング)	Codeforces (Eloスコア)
基準（Qwen3-235B-A22B）	基準 (95.6)	基準	基準 (70.7)	基準 (2056)
Qwen3-30B-A3B	低い	低い	高い	低い
Qwen3-4B	低い	低い	低い	低い
DeepSeek-R1	同程度 (94.5)	低い	低い (68.9)	低い (2000前後)
OpenAI o1	同程度 (94.8)	同程度	低い	低い
OpenAI o3-mini	低い	低い	低い	低い
xAI Grok-3	低い	低い	低い	低い
Gemini-2.5-Pro	高い (96.4)	同程度	同程度 (71.0)	同程度 (2050前後)

「Qwen3-30B-A3B」と比較した場合の、他モデルの性能

Qwen3-30B-A3BはLiveCodeBenchで際立つ性能（QwQ-32Bを大幅に超える）を持ち、ここでは他モデルが軒並み低い。

ArenaHardやAIMEでは、Qwen3-235B-A22B、OpenAI o1、Gemini-2.5-Proが上回り、DeepSeek-R1も部分的に高い。Qwen3-4BやGrok-3は同程度、o3-miniは低い。

モデル	ArenaHard (500問)	AIME (数学)	LiveCodeBench (コーディング)	Codeforces (Eloスコア)
基準（Qwen3-30B-A3B）	基準	基準	基準	基準
Qwen3-235B-A22B	高い (95.6)	高い	低い	高い (2056)
Qwen3-4B	同程度	同程度	低い	同程度
DeepSeek-R1	高い (94.5)	同程度	低い (68.9)	同程度
OpenAI o1	高い (94.8)	高い	低い	同程度
OpenAI o3-mini	低い	低い	低い	低い
xAI Grok-3	同程度	同程度	低い	同程度
Gemini-2.5-Pro	高い (96.4)	高い	低い (71.0)	高い (2050前後

「Qwen3-4B」と比較した場合の、他モデルの性能

Qwen3-4BはQwen2.5-72Bに匹敵する性能を持つが、大規模モデル（Qwen3-235B-A22B、DeepSeek-R1、OpenAI o1、Gemini-2.5-Pro）に比べると多くのベンチマークで性能が低い。Qwen3-30B-A3BはLiveCodeBenchで上回り、Grok-3は同程度、o3-miniは一貫して低い。

モデル	ArenaHard (500問)	AIME (数学)	LiveCodeBench (コーディング)	Codeforces (Eloスコア)
基準（Qwen3-4B）	基準	基準	基準	基準
Qwen3-235B-A22B	高い (95.6)	高い	高い (70.7)	高い (2056)
Qwen3-30B-A3B	同程度	同程度	高い	同程度
DeepSeek-R1	高い (94.5)	同程度	高い (68.9)	同程度
OpenAI o1	高い (94.8)	高い	同程度	同程度
OpenAI o3-mini	低い	低い	低い	低い
xAI Grok-3	同程度	同程度	同程度	同程度
Gemini-2.5-Pro	高い (96.4)	高い	高い (71.0)	高い (2050前後)

オープンウェイトモデルの革新性

Qwen3シリーズの全モデル（0.6B、1.7B、4B、8B、14B、32B、30B-A3B、235B-A22B）は、Apache 2.0ライセンスの下でオープンウェイトとして公開されている。オープンウェイトモデルとは、AIモデルの性能を決める重要な要素である「重み」（weights）データを公開するものだ。

オープンウェイトモデルは開発者や研究者がモデルのウェイトを自由にカスタマイズし、商用利用を含む多様なアプリケーションに活用できる点で大きなメリットをもたらす。Meta社のAIのオープンソースモデルとは異なり、Apache 2.0ライセンスは制限が少なく、企業にとって魅力的な選択肢だ。

たとえば、Qwen3-235B-A22Bは、Hugging FaceやModelScopeで公開されており、SGLangやvLLMといったフレームワークで容易にデプロイ可能。

また、OllamaやLMStudioを使ったローカル実行もサポートし、アクセシビリティが高い。オープンウェイトモデルは、イノベーションの加速とコスト削減を促進し、特にリソースが限られた組織や新興市場でのAI活用を後押しする。

人口14億人から生まれる膨大なデータ

中国のAI開発は、政府の強力な支援、そして政府の人口14億人・インターネットユーザー10億人超から生まれる膨大なデータに支えられている。監視カメラやモバイル決済（WeChat、Alipay）など、社会全体のデジタル化が進み、AIに活用可能なデータも豊富だ。

Qwen3のトレーニングには、ウェブクロール、PDFドキュメント、合成データを含む約36兆トークンのデータセットが使用され、Qwen2.5の2倍の規模に達した。

この大規模なプレトレーニングに加え、3段階のプレトレーニングと4段階のポストトレーニングにより、推論能力と多言語対応（119言語）を強化。Qwen3は、特に数学やコーディングに特化した「思考モード」と、効率的な会話のための「非思考モード」をシームレスに切り替えるハイブリッド推論を採用し、柔軟性を高めている。

中国のAI企業は、DeepSeekやBaiduなどと同様に、MoEアーキテクチャや強化学習（RL）のスケーリングに注力。Qwen3の開発では、安定したRLスケーリングや多ドメインデータのバランス調整といった技術的課題を克服し、高効率なモデルを実現した。

DeepSeekのR1もMoEを活用し、6710億パラメータ（370億アクティブ）で優れた性能を示すが、Qwen3はモデルサイズの多様性とデプロイの容易さで差別化を図っている。

中国と米国のAI競争：加速するグローバルレース

中国と米国のAI競争は、技術革新と地政学的影響力の争いとして激化している。

米国はOpenAI、Google、Anthropicといった企業が主導し、GPT-4o、Gemini-2.5-Pro、Claude-3.7などのプロプライエタリモデルで市場をリード。

しかし、OpenAIのクローズドなアプローチに対し、Qwen3やDeepSeek-R1のようなオープンウェイトモデルは、アクセシビリティとカスタマイズ性で対抗している。Xの投稿では、Qwen3が「第2のDeepSeekショック」と呼ばれ、OpenAIやGoogleのモデルに匹敵する性能が話題となっている。

今後、中国はオープンソース戦略を強化し、グローバルな開発者コミュニティを取り込む可能性が高い。一方、米国は規制や倫理的議論に直面しながらも、計算資源とイノベーションの深さで優位性を維持するだろう。

Qwen3のリリースは、中国が単なるキャッチアップではなく、独自の技術でリードする可能性を示している。競争は、DeepSeekのR1T-ChimeraやGoogleの次世代Gemini、OpenAIのo4など、新たなモデルの登場でさらに加速するだろう。