【2025年10月最新】Gemini、GemmaなどGoogle AIの主要なモデル一覧 ─特徴や料金、利用方法など

Google Geminiは、2023年12月に発表されて以来その進化を加速させています。

2025年10月現在、画像生成・編集に特化した「Gemini 2.5 Flash Image」や、動画生成モデルの最新版「Veo 3.1」、そしてビジネス利用を統合する「Gemini Enterprise」など、さらに多様なモデルやプラットフォームが登場し、その全体像を把握することはますます難しくなっているかもしれません。

本記事では、2025年10月22日 9時点で利用可能なGoogle AIの各モデルを、その特徴、料金体系、具体的な利用方法を含めて詳細に解説します。

参考サイト：

大規模言語モデル (LLM)

Googleが提供する汎用的な大規模言語モデル（LLM）は、テキストの理解、生成、要約、翻訳など、幅広い言語処理タスクに対応しており、性能や用途に応じて複数の種類が用意されています。

また、Gemini APIにはテスト目的でレート制限が緩和される無料枠が提供されている可能性があります。利用するタイミングで、Googleの公式サイトをご確認ください。

Gemini 2.5 Pro

項目	詳細
概要	Googleが提供する中で最も高度な推論能力と汎用性を持つ大規模言語モデル。複雑なタスクや長文処理、マルチモーダル（テキスト、画像、動画、音声）な入力に対応し、専門的な領域でも高い性能を発揮します。
特徴	高度な推論能力と複雑なタスク処理能力。100万トークンという長大なコンテキストウィンドウを持ち、大規模なドキュメントからの情報抽出や分析に優れています。人間を上回る性能を示す分野もあります。
利用方法	API：Google AI StudioやVertex AIを通じて開発者向けに提供されます。
コンテキストウィンドウ	100万トークン (1M tokens)
料金	API経由の従量課金制。入力$0.007/1Kトークン出力$0.021/1Kトークン（Vertex AI pricing）

Gemini 2.5 Flash

項目	詳細
概要	速度とコスト効率に最適化されたモデル。高速な応答が求められるリアルタイムアプリケーションや、大量のデータを処理するタスクに適しています。
特徴	高速な応答速度と高スループットを実現しつつ、コスト効率も高い。Proモデルに匹敵する能力を、より低コストで利用可能。幅広い汎用的な能力をバランス良く提供します。
利用方法	API：Google AI StudioやVertex AIを通じて開発者向けに提供されます。
コンテキストウィンドウ	100万トークン (1M tokens)
料金	API経由の従量課金制。入力$0.00035/1Kトークン出力$0.00105/1Kトークン（Vertex AI pricing）。

Gemini 2.5 Flash-Lite

項目	詳細
概要	Geminiファミリーの中で最も軽量で、高速かつ費用対効果が高いモデル。リソースが限られた環境や、極めて高速な処理が求められるタスクに最適化されています。
特徴	極めて高いコスト効率と速度。軽量設計で、基本的なテキスト処理タスクに特化しており、大規模なテキスト分類やシンプルなデータ変換などを効率的に実行できます。
利用方法	API：Google AI StudioやVertex AIを通じて開発者向けに提供されます。
コンテキストウィンドウ	100万トークン (1M tokens)
料金	Vertex AIを通じて利用する場合、従量課金制。入力 $0.10（テキスト、画像、動画）/1Mトークン音声入力 $0.50 /1Mトークンテキスト出力（回答、推論）$0.40 /1Mトークン

Gemini Ultra

項目	詳細
概要	過去の最上位モデルであり、現在では「Gemini Advanced」有料プランを通じて利用可能。複雑なタスクや専門的な領域で高い性能を発揮します。
特徴	非常に高度な推論能力と高品質なコンテンツ生成能力。一般的なAIモデルでは難しいニュアンスや複雑な指示を理解し、実行可能。現在はGemini 2.5 Proが最先端の性能を持ちます。
利用方法	Gemini Advanced（有料プラン）を通じて一般ユーザーが利用します。APIはGemini 1.0 Ultraとして提供されます。
コンテキストウィンドウ	32,768トークン（API版のGemini 1.0 Ultra）
料金	Gemini Advancedの月額料金（具体的な金額は為替により変動しますが、約2,900円～3,640円）に含まれます。

Gemini Pro

項目	詳細
概要	無料版のGeminiチャットインターフェースで主に利用される汎用モデル。幅広いタスクに対応し、日常的な質問応答からコンテンツ生成まで、多くのユーザーが手軽に利用できます。
特徴	幅広い汎用性を持ち、日常会話から簡単なコンテンツ生成まで対応。無料で手軽にAI体験が可能で、API経由での利用も広く行われています。
利用方法	Web：無料版Geminiのチャットインターフェースで利用します。 API：Google AI StudioやVertex AIを通じて開発者向けに提供されます。
コンテキストウィンドウ	32,768トークン（API版）
料金	Web：無料 API：従量課金入力 (100万トークンあたり) 　$1.25（プロンプトが20万トークン以下の場合）　$2.50（プロンプトが20万トークン超の場合）出力 (100万トークンあたり) 　$5.00（プロンプトが20万トークン以下の場合）　$10.00（プロンプトが20万トークン超の場合）

Gemini Nano

項目	詳細
概要	スマートフォンなどのデバイス上で動作するために設計された軽量モデル。オフライン環境や、低遅延での処理が求められる場合に適しています。
特徴	デバイス上での効率的な動作と高速なオンデバイス推論が特徴。インターネット接続なしで動作するため、プライバシー保護にも優れています。
利用方法	デバイス：Google Pixel 8 Proなどの対応デバイスに搭載。 SDK：開発者向けはAndroid AICore SDK経由でアクセスします。
コンテキストウィンドウ	デバイス向けに最適化されており、具体的なトークン数は非公開です。
料金	デバイスにバンドルされるため、直接的な料金は発生しません。

エンタープライズ向けAIプラットフォーム

2025年10月9日、組織全体の業務を変革することを目的としたエンタープライズ向けAIプラットフォームがついに登場しました。

これまでのモデルが文章生成など個別のタスクをこなす「高性能な部品」だとすれば、このプラットフォームは、それらを企業のデータや業務と安全に連携させ、複雑なワークフロー全体を自動化する「統合基盤」です。

専門家でなくとも、業務に特化したAIエージェントを構築し、組織全体の生産性向上を実現できる点が最大の魅力です。

Gemini Enterprise

項目	詳細
概要	個別のAIモデルではなく、Googleの最先端AIモデル群、ワークフロー、各種ツールを統合し、企業のあらゆる従業員、あらゆる業務に対応します。
特徴	企業のコンテキスト（データ、ワークフロー、人材）に接続し、複雑な業務を自動化・最適化する「AIエージェント」を構築・実行できます。ローコードのビジュアルビルダーも提供され、開発者でなくともAIエージェントの作成が可能です。
利用方法	Google Cloudを通じて提供されます。100万人の開発者育成を目指す「GEAR (Gemini Enterprise Agent Ready)」プログラムも発表されており、導入支援が強化されています。
コンテキストウィンドウ	100万トークン (1M tokens)
料金	具体的な料金体系は別途発表。詳細はGoogle Cloudの公式サイトをご確認ください。

オープンモデル

Gemmaは、Googleが開発したオープンウェイトモデルのファミリーです。API経由で利用するGeminiとは異なり、モデルを直接ダウンロードして自身のPCやサーバーで自由に実行・カスタマイズできる点が最大の特徴です。

Gemmaファミリーは、「基盤モデル」と「特化モデル」に大別されます。

Gemmaファミリーの「基盤モデル」

汎用的な対話や文章作成に使われる基盤モデルです。

Gemma 3 （最新世代・モバイル特化）

項目	詳細
概要	オンデバイスAIの性能を飛躍的に向上させることを目的とした、最新・最軽量のモデル。
特徴	2024年8月に発表された最新世代のモデルで、特にその性能と効率性、そして長いコンテキストウィンドウが注目されています。新しいアーキテクチャにより、小さいサイズで高い性能を発揮します。また、デバイス上でのリアルタイム翻訳や高度なテキスト要約などを可能にします。
利用方法	Hugging Face、Kaggle、Google AI Studio、NVIDIA NIMといった主要なAIプラットフォームで公開されています。ここから、用途に応じたモデル（例: 2B、9B、27Bの各サイズ）を選択してダウンロードします。
コンテキストウィンドウ	8192 トークン
料金	無料（※インフラ利用コストは別途発生）
主なモデルサイズ	・Gemma 3 2B ・Gemma 3 270M

Gemma 2

項目	詳細
概要	コーディング、数学、論理的推論など、複雑なタスクで高い性能を発揮する汎用モデル。
特徴	Gemmaファミリーの第2世代モデルであり、その性能と効率のバランスから広く利用されています。特にGoogleのAIサービスとの連携が特徴です。高性能な27Bモデルと、効率的な9Bモデルから選択可能です。
利用方法	Hugging Face、Kaggle、Google AI Studioなどのプラットフォームからダウンロードできます。また、Google CloudのVertex AIに統合されており、マネージドサービスとして簡単に利用を開始することも可能です。
コンテキストウィンドウ	8192 トークン
料金	無料（※インフラ利用コストは別途発生）
主なモデルサイズ	・Gemma 2 27B ・Gemma 2 9B

Gemmaファミリーの「特化モデル」

基盤モデルを特定のタスクに合わせてファインチューニングした、専門的なモデル群です。

CodeGemma

項目	詳細
概要	コーディングに特化した、Gemmaベースの軽量オープンモデルです。コードの生成、補完、デバッグなどを支援し、開発者の生産性向上を目的としています。
特徴	高速なコード補完や、自然言語の指示からのコード生成が可能で、Python、JavaScript、Java、C++など、主要なプログラミング言語に対応しています。また、2B、7B（2種類）、27Bのパラメータサイズがあり、ローカル環境でも動作させやすい軽量モデルです。
利用方法	アクセス方法： Hugging Face、Kaggle、Google AI Studioなどのプラットフォームから、用途に応じたモデルをダウンロードします。実装方法： Pythonの`transformers`ライブラリなどを使い、ダウンロードしたモデルを開発環境にロードします。自然言語の指示を与えることで、コード生成や補完機能として利用できます。
コンテキストウィンドウ	CodeGemma自体はGemma 2やGemma 3をベースにしており、ベースモデルに依存します。例えばGemma 3ベースであれば最大128Kトークンです。
料金	無料（※インフラ利用コストは別途発生）

PaliGemma

項目	詳細
概要	画像と言語の両方を理解できる、マルチモーダルな視覚言語モデル（VLM）です。画像とテキストのプロンプトを入力として受け取り、テキストを生成します。
特徴	画像とテキストを組み合わせて入力できるマルチモーダル入力が可能。・画像キャプション生成、VQA（画像に関する質疑応答）、物体検出、OCR（画像内の文字認識）、セグメンテーションなど、幅広い視覚言語タスクに対応します。特定のタスクに合わせて容易にファインチューニングが可能で、転移学習の容易です。
利用方法	アクセス方法： Hugging Faceなどのプラットフォームからモデルをダウンロードし、開発環境にセットアップします。実装方法： `transformers`ライブラリを使ってモデルをロードし、分析したい画像と指示テキスト（プロンプト）を一緒に入力します。これにより、画像の内容説明や分析結果を得られます。
コンテキストウィンドウ	PaliGemmaはGemma 2Bをデコーダーとして使用しており、比較的短いシーケンス長で動作します。高解像度の画像を扱う際は、パッチ数が増えるため入力シーケンスが長くなります。
料金	無料（※インフラ利用コストは別途発生）

ShieldGemma

項目	詳細
概要	テキストや画像に含まれるコンテンツの安全性を評価・分類するために作られたモデル群です。不適切なコンテンツを検出し、安全なAIアプリケーションの構築を支援します。
特徴	性的コンテンツ、ヘイトスピーチ、ハラスメント、危険なコンテンツといった主要な4つの害悪カテゴリをターゲットにし、多角的な安全性評価を行っています。また、LLMを判定者として活用する技術に基づき、ユーザー入力とモデル出力の両方を評価できます。単なる「Yes/No」の判定だけでなく、違反の可能性を確率スコアで出力できるため、柔軟な閾値設定が可能です。
利用方法	アクセス方法： Hugging Faceなどのプラットフォームからモデルをダウンロードします。実装方法： `transformers`ライブラリ経由でモデルをロードし、判定したいテキストを入力します。モデルは、そのテキストが安全ポリシーに違反するかどうかを判定し、「Yes/No」や確率スコアとして出力します。
コンテキストウィンドウ	ベースとなっているGemma 2モデルに依存します。Gemma 2のコンテキストウィンドウは8Kトークンです。
料金	無料（※インフラ利用コストは別途発生）

特化型モデル

Googleでは、特定のタスク（画像生成、動画生成、埋め込みなど）に特化したAIモデルも多数揃っています。

これらのモデルは、それぞれの専門分野において高い精度と性能を発揮し、多様なコンテンツ生成やデータ処理を可能にします。

Gemini 2.5 Flash Image (nano-banana)

項目	詳細
概要	2025年8月26日に発表された、最先端の画像生成・編集モデル。高度なマルチモーダル理解能力を持ち、テキストプロンプトから高品質な画像を生成するだけでなく、既存の画像をアップロードして編集することも可能です。
特徴	写真のようなリアルな画像からイラストまで、多様なスタイルの画像生成に対応。被写体や背景の変更、要素の追加・削除といった高度な画像編集機能を備えています。
利用方法	Gemini APIおよびGoogle AI Studio、Vertex AIを通じてプレビュー版が利用可能です。
コンテキストウィンドウ	画像生成モデルのため該当なし。（入力はテキストプロンプトおよび画像）
料金	プレビュー版の料金は、出力トークン100万あたり30.00ドル（画像1枚あたり約0.039ドル）と設定されています。

Imagen

項目	詳細
概要	テキスト記述から画像を生成することに特化したモデル。高品質でリアルな画像や、独創的なアートワークの作成が可能です。
特徴	テキストからの高精度な画像生成能力。多様なスタイル（写真、イラスト、絵画など）と表現に対応し、創造的なビジュアルコンテンツを生成します。Geminiの機能としても統合されています。
利用方法	Web：Geminiのチャットインターフェース（画像生成機能）で利用。 API：Vertex AI Visionを通じて開発者向けに提供されます。
コンテキストウィンドウ	画像生成モデルのため該当なし。（入力はテキストプロンプト）
料金	Web：Gemini無料版で利用可能です。 API：Vertex AIでの利用は従量課金制です。画像生成 (1024x1024px) $0.02 / 1枚画像編集 (1024x1024px) $0.02 / 1枚画像キャプション生成 $0.50 / 100万画像画像に対する質問応答 $0.50 / 100万画像

Veo 3.1

項目	詳細
概要	Googleが開発する、テキストや画像から動画を生成することに特化したモデルの最新版（2025年10月15日パブリックプレビュー開始）。高品質で長尺（8秒まで）の1080p動画を生成できます。
特徴	高品質な動画生成能力に加え、Veo 3.1では生成した動画の延長、最大3枚の参照画像からの動画生成、最初と最後のフレームを指定した動画生成といった新機能が追加されました。これにより、よりクリエイターの意図に沿った、一貫性のある動画制作が可能になります。
利用方法	現在、Vertex AIを通じて一部のクリエイターや開発者向けにプレビュー版として提供されています。
コンテキストウィンドウ	動画生成モデルのため該当なし。（入力はテキストや画像のプロンプト）
料金	Standard：音声あり $0.75/1秒、音声なし $0.50/1秒 Fast：音声あり $0.40/1秒、音声なし $0.25/1秒

埋め込みモデル (Embedding for Text)

項目	詳細
概要	テキストやその他のデータを高次元の数値ベクトルに変換するモデル。意味的な類似性を計算するために使用され、検索、レコメンデーション、クラスタリングなどの基盤技術となります。
特徴	高次元の数値ベクトルへの効率的な変換。意味的な類似度計算により、従来のキーワード検索よりも高度なセマンティック検索や、関連性の高いコンテンツ推薦を実現します。
利用方法	API：Vertex AIを通じて開発者向けに提供されます。
コンテキストウィンドウ	入力テキストの長さに応じます。
料金	API経由の従量課金制です。 $0.0001/1Kトークン（Vertex AI pricing）。