キーワードで検索

今日を知り、明日を変えるシステム運用メディア

【2025年8月最新】Gemini、GeemaなどGoogle AIの主要なモデル一覧 ─特徴や料金、利用方法など

【2025年8月最新】Gemini、GemmaなどGoogle AIの主要なモデル一覧 ─特徴や料金、利用方法など

Google Geminiは、2023年12月に発表されて以来その進化を加速させています。他のAIモデルと同様に、GoogleのAIは用途や性能に応じた多種多様なモデルを提供しており、その全体像を把握することは難しくなっているかもしれません。

本記事では、2025年8月18日10時半時点で利用可能なGoogle AIの各モデルを、その特徴、料金体系、具体的な利用方法を含めて詳細に解説します。公式ドキュメントや公式サイトの情報を基に、各モデルの使い分けが明確になるようカテゴリ別に整理しました。

なお、モデルの可用性や詳細な仕様は変更される可能性があるため、最新情報はGoogleの公式サイトにてご確認ください。

参考サイト:

大規模言語モデル (LLM)

Googleが提供する汎用的な大規模言語モデル(LLM)は、テキストの理解、生成、要約、翻訳など、幅広い言語処理タスクに対応しており、性能や用途に応じて複数の種類が用意されています。

また、Gemini APIにはテスト目的でレート制限が緩和される無料枠が提供されている可能性があります。利用するタイミングで、Googleの公式サイトをご確認ください。

Gemini 2.5 Pro

項目詳細
概要Googleが提供する中で最も高度な推論能力と汎用性を持つ大規模言語モデル。複雑なタスクや長文処理、マルチモーダル(テキスト、画像、動画、音声)な入力に対応し、専門的な領域でも高い性能を発揮します。
特徴高度な推論能力と複雑なタスク処理能力。100万トークンという長大なコンテキストウィンドウを持ち、大規模なドキュメントからの情報抽出や分析に優れています。人間を上回る性能を示す分野もあります。
利用方法API:Google AI StudioやVertex AIを通じて開発者向けに提供されます。
コンテキストウィンドウ100万トークン (1M tokens)
料金API経由の従量課金制。
入力$0.007/1Kトークン
出力$0.021/1Kトークン(Vertex AI pricing)

Gemini 2.5 Flash

項目詳細
概要速度とコスト効率に最適化されたモデル。高速な応答が求められるリアルタイムアプリケーションや、大量のデータを処理するタスクに適しています。
特徴高速な応答速度と高スループットを実現しつつ、コスト効率も高い。Proモデルに匹敵する能力を、より低コストで利用可能。幅広い汎用的な能力をバランス良く提供します。
利用方法API:Google AI StudioやVertex AIを通じて開発者向けに提供されます。
コンテキストウィンドウ100万トークン (1M tokens)
料金API経由の従量課金制。
入力$0.00035/1Kトークン
出力$0.00105/1Kトークン(Vertex AI pricing)。

Gemini 2.5 Flash-Lite

項目詳細
概要Geminiファミリーの中で最も軽量で、高速かつ費用対効果が高いモデル。リソースが限られた環境や、極めて高速な処理が求められるタスクに最適化されています。
特徴極めて高いコスト効率と速度。軽量設計で、基本的なテキスト処理タスクに特化しており、大規模なテキスト分類やシンプルなデータ変換などを効率的に実行できます。
利用方法API:Google AI StudioやVertex AIを通じて開発者向けに提供されます。
コンテキストウィンドウ100万トークン (1M tokens)
料金Vertex AIを通じて利用する場合、従量課金制。
入力 $0.10(テキスト、画像、動画)/1Mトークン
音声入力 $0.50 /1Mトークン
テキスト出力(回答、推論)$0.40 /1Mトークン

Gemini Ultra

項目詳細
概要過去の最上位モデルであり、現在では「Gemini Advanced」有料プランを通じて利用可能。複雑なタスクや専門的な領域で高い性能を発揮します。
特徴非常に高度な推論能力と高品質なコンテンツ生成能力。一般的なAIモデルでは難しいニュアンスや複雑な指示を理解し、実行可能。現在はGemini 2.5 Proが最先端の性能を持ちます。
利用方法Gemini Advanced(有料プラン)を通じて一般ユーザーが利用します。APIはGemini 1.0 Ultraとして提供されます。
コンテキストウィンドウ32,768トークン(API版のGemini 1.0 Ultra)
料金Gemini Advancedの月額料金(具体的な金額は為替により変動しますが、約2,900円~3,640円)に含まれます。

Gemini Pro

項目詳細
概要無料版のGeminiチャットインターフェースで主に利用される汎用モデル。幅広いタスクに対応し、日常的な質問応答からコンテンツ生成まで、多くのユーザーが手軽に利用できます。
特徴幅広い汎用性を持ち、日常会話から簡単なコンテンツ生成まで対応。無料で手軽にAI体験が可能で、API経由での利用も広く行われています。
利用方法Web:無料版Geminiのチャットインターフェースで利用します。
API:Google AI StudioやVertex AIを通じて開発者向けに提供されます。
コンテキストウィンドウ32,768トークン(API版)
料金Web:無料
API:従量課金
入力 (100万トークンあたり)
 $1.25(プロンプトが20万トークン以下の場合)
 $2.50(プロンプトが20万トークン超の場合)

出力 (100万トークンあたり)
 $5.00(プロンプトが20万トークン以下の場合)
 $10.00(プロンプトが20万トークン超の場合)

Gemini Nano

項目詳細
概要スマートフォンなどのデバイス上で動作するために設計された軽量モデル。オフライン環境や、低遅延での処理が求められる場合に適しています。
特徴デバイス上での効率的な動作と高速なオンデバイス推論が特徴。インターネット接続なしで動作するため、プライバシー保護にも優れています。
利用方法デバイス:Google Pixel 8 Proなどの対応デバイスに搭載。
SDK:開発者向けはAndroid AICore SDK経由でアクセスします。
コンテキストウィンドウデバイス向けに最適化されており、具体的なトークン数は非公開です。
料金デバイスにバンドルされるため、直接的な料金は発生しません。

オープンモデル

Gemmaは、Googleが開発したオープンウェイトモデルのファミリーです。API経由で利用するGeminiとは異なり、モデルを直接ダウンロードして自身のPCやサーバーで自由に実行・カスタマイズできる点が最大の特徴です。

Gemmaファミリーは、「基盤モデル」と「特化モデル」に大別されます。

Gemmaファミリーの「基盤モデル」

汎用的な対話や文章作成に使われる基盤モデルです。

Gemma 3 (最新世代・モバイル特化)

項目詳細
概要オンデバイスAIの性能を飛躍的に向上させることを目的とした、最新・最軽量のモデル。
特徴2024年8月に発表された最新世代のモデルで、特にその性能と効率性、そして長いコンテキストウィンドウが注目されています。

新しいアーキテクチャにより、小さいサイズで高い性能を発揮します。また、デバイス上でのリアルタイム翻訳や高度なテキスト要約などを可能にします。
利用方法Hugging Face、Kaggle、Google AI Studio、NVIDIA NIMといった主要なAIプラットフォームで公開されています。ここから、用途に応じたモデル(例: 2B、9B、27Bの各サイズ)を選択してダウンロードします。
コンテキストウィンドウ8192 トークン
料金無料 (※インフラ利用コストは別途発生)
主なモデルサイズ・Gemma 3 2B
・Gemma 3 270M

Gemma 2

項目詳細
概要コーディング、数学、論理的推論など、複雑なタスクで高い性能を発揮する汎用モデル。
特徴Gemmaファミリーの第2世代モデルであり、その性能と効率のバランスから広く利用されています。特にGoogleのAIサービスとの連携が特徴です。高性能な27Bモデルと、効率的な9Bモデルから選択可能です。
利用方法Hugging Face、Kaggle、Google AI Studioなどのプラットフォームからダウンロードできます。また、Google CloudのVertex AIに統合されており、マネージドサービスとして簡単に利用を開始することも可能です。
コンテキストウィンドウ8192 トークン
料金無料 (※インフラ利用コストは別途発生)
主なモデルサイズ・Gemma 2 27B
・Gemma 2 9B

Gemmaファミリーの「特化モデル」

基盤モデルを特定のタスクに合わせてファインチューニングした、専門的なモデル群です。

CodeGemma

項目詳細
概要コーディングに特化した、Gemmaベースの軽量オープンモデルです。コードの生成、補完、デバッグなどを支援し、開発者の生産性向上を目的としています。
特徴高速なコード補完や、自然言語の指示からのコード生成が可能で、Python、JavaScript、Java、C++など、主要なプログラミング言語に対応しています。
また、2B、7B(2種類)、27Bのパラメータサイズがあり、ローカル環境でも動作させやすい軽量モデルです。
利用方法アクセス方法: Hugging Face、Kaggle、Google AI Studioなどのプラットフォームから、用途に応じたモデルをダウンロードします。

実装方法: Pythonのtransformersライブラリなどを使い、ダウンロードしたモデルを開発環境にロードします。自然言語の指示を与えることで、コード生成や補完機能として利用できます。
コンテキストウィンドウCodeGemma自体はGemma 2やGemma 3をベースにしており、ベースモデルに依存します。例えばGemma 3ベースであれば最大128Kトークンです。
料金無料 (※インフラ利用コストは別途発生)

PaliGemma

項目詳細
概要画像と言語の両方を理解できる、マルチモーダルな視覚言語モデル(VLM)です。 画像とテキストのプロンプトを入力として受け取り、テキストを生成します。
特徴画像とテキストを組み合わせて入力できるマルチモーダル入力が可能。・画像キャプション生成、VQA(画像に関する質疑応答)、物体検出、OCR(画像内の文字認識)、セグメンテーションなど、幅広い視覚言語タスクに対応します。特定のタスクに合わせて容易にファインチューニングが可能で、転移学習の容易です。
利用方法アクセス方法: Hugging Faceなどのプラットフォームからモデルをダウンロードし、開発環境にセットアップします。

実装方法: transformersライブラリを使ってモデルをロードし、分析したい画像と指示テキスト(プロンプト)を一緒に入力します。これにより、画像の内容説明や分析結果を得られます。
コンテキストウィンドウPaliGemmaはGemma 2Bをデコーダーとして使用しており、比較的短いシーケンス長で動作します。 高解像度の画像を扱う際は、パッチ数が増えるため入力シーケンスが長くなります。
料金無料 (※インフラ利用コストは別途発生)

ShieldGemma

項目詳細
概要テキストや画像に含まれるコンテンツの安全性を評価・分類するために作られたモデル群です。 不適切なコンテンツを検出し、安全なAIアプリケーションの構築を支援します。
特徴性的コンテンツ、ヘイトスピーチ、ハラスメント、危険なコンテンツといった主要な4つの害悪カテゴリをターゲットにし、多角的な安全性評価を行っています。
また、LLMを判定者として活用する技術に基づき、ユーザー入力とモデル出力の両方を評価できます。単なる「Yes/No」の判定だけでなく、違反の可能性を確率スコアで出力できるため、柔軟な閾値設定が可能です。
利用方法アクセス方法: Hugging Faceなどのプラットフォームからモデルをダウンロードします。

実装方法: transformersライブラリ経由でモデルをロードし、判定したいテキストを入力します。モデルは、そのテキストが安全ポリシーに違反するかどうかを判定し、「Yes/No」や確率スコアとして出力します。
コンテキストウィンドウベースとなっているGemma 2モデルに依存します。Gemma 2のコンテキストウィンドウは8Kトークンです。
料金無料 (※インフラ利用コストは別途発生)

特化型モデル

Googleでは、特定のタスク(画像生成、動画生成、埋め込みなど)に特化したAIモデルも多数揃っています。

これらのモデルは、それぞれの専門分野において高い精度と性能を発揮し、多様なコンテンツ生成やデータ処理を可能にします。

Imagen

項目詳細
概要テキスト記述から画像を生成することに特化したモデル。高品質でリアルな画像や、独創的なアートワークの作成が可能です。
特徴テキストからの高精度な画像生成能力。多様なスタイル(写真、イラスト、絵画など)と表現に対応し、創造的なビジュアルコンテンツを生成します。Geminiの機能としても統合されています。
利用方法Web:Geminiのチャットインターフェース(画像生成機能)で利用。
API:Vertex AI Visionを通じて開発者向けに提供されます。
コンテキストウィンドウ画像生成モデルのため該当なし。(入力はテキストプロンプト)
料金Web:Gemini無料版で利用可能です。
API:Vertex AIでの利用は従量課金制です。
画像生成 (1024x1024px) $0.02 / 1枚
画像編集 (1024x1024px) $0.02 / 1枚
画像キャプション生成 $0.50 / 100万画像
画像に対する質問応答 $0.50 / 100万画像

Veo 3

項目詳細
概要Googleが開発中の、テキストや画像から動画を生成することに特化したモデル。高品質で長尺(1分以上)の1080p動画を生成できます。
特徴高品質な動画生成能力。テキストや画像から多様なスタイルの動画を作成し、ストーリーテリングやコンテンツ制作を支援。映画的な効果や視覚効果の表現も可能です。
利用方法現在、一部のクリエイターやパートナー向けに限定アクセスを提供中。将来的にはYouTube Shortsなどへの統合も予定されています。
コンテキストウィンドウ動画生成モデルのため該当なし。(入力はテキストや画像のプロンプト)
料金Veo 3 (Standard):音声あり $0.75/1秒、音声なし $0.50/1秒
Veo 3 Fast:音声あり $0.40/1秒、音声なし $0.25/1秒

埋め込みモデル (Embedding for Text)

項目詳細
概要テキストやその他のデータを高次元の数値ベクトルに変換するモデル。意味的な類似性を計算するために使用され、検索、レコメンデーション、クラスタリングなどの基盤技術となります。
特徴高次元の数値ベクトルへの効率的な変換。意味的な類似度計算により、従来のキーワード検索よりも高度なセマンティック検索や、関連性の高いコンテンツ推薦を実現します。
利用方法API:Vertex AIを通じて開発者向けに提供されます。
コンテキストウィンドウ入力テキストの長さに応じます。
料金API経由の従量課金制です。
$0.0001/1Kトークン(Vertex AI pricing)。

 各モデルのユースケース

利用用途や予算に応じて利用するモデルを検討する必要がありますが、ざっくりとしたユースケースを分類してみました。ご参考ください。

  • 複雑な分析や大量データ処理: Gemini 2.5 Pro
  • 高速な日常業務やチャット: Gemini 2.5 Flash
  • 軽量デバイスやオフライン: Gemini Nano
  • オープンソース利用: Gemma 3
  • 画像生成: Imagen
  • 動画生成: Veo 3
  • テキスト埋め込み: Embedding for Text
  • 高度な推論とマルチモーダル: Gemini 2.5 Pro、Gemini Ultra
  • コスト効率とスピード: Gemini 2.5 Flash、Gemini 2.5 Flash-Lite

補足事項

トークンとは

トークン数の計算方法は、英単語と日本語で異なります。1,000トークンは、英語の場合はおおよそ約750語です。日本語の場合は1トークン2~3文字程度。詳細はOpenAIのTokenizerなどでご確認いただけます。

また、コスト最適化を目的にトークン数を減らしたい場合は、プロンプトを短くする(例:「be concise」を追加)、CSV形式のデータを使用する(JSONよりトークン消費が少ない)といった対策が考えられます。

料金

料金は変動する可能性があります。最新かつ正確な情報は、Google AI for Developersの公式料金ページでご確認ください。

参考サイト

24時間365日のシステム運用監視サービス「JIG-SAW OPS」を提供する、JIG-SAW株式会社のOps Today編集部です。 サーバー運用監視実績50,000台の実績をもとに、システム運用監視に役立つ情報をお届けします!

最新情報をお届けします!

最新のITトレンドやセキュリティ対策の情報を、メルマガでいち早く受け取りませんか?ぜひご登録ください

メルマガ登録

最新情報をお届けします!

最新のITトレンドやセキュリティ対策の情報を、メルマガでいち早く受け取りませんか?ぜひご登録ください

メルマガ登録