Gemmaとは？意味をやさしく解説 - サードペディア百科事典

Gemma: Google DeepMindが開発したオープンソース言語モデル

Gemmaは、Google DeepMindが製作したオープンソースの大規模言語モデル（LLM）シリーズです。これはGoogleの主力モデル「Gemini」と同様の技術を利用しており、初めてのバージョンが2024年2月にリリースされました。その後、2024年6月にGemma 2、2025年3月にはGemma 3が登場しました。また、Gemmaから派生した特定の用途に特化したモデルとして、視覚言語モデルのPaliGemmaや、医療相談向けのMedGemmaも開発されています。

リリースと歴史

Gemmaの最初のバージョンは2024年2月に公開され、これはGeminiの軽量版としての役割を果たします。最初に公開されたモデルには、それぞれ20億（2B）および70億（7B）のパラメータを持つ2つのサイズがありました。これにより、AIモデルをオープンソース化する潮流に対するGoogleの姿勢が変わったことが注目されました。

Gemma 2は2024年6月27日にリリースされ、さらに進化させたGemma 3は2025年3月12日に登場しました。

概要と機能

GemmaはGoogleの「AIをすべての人々にとって役立たせる」というブランドミッションを支援する目的で設計されています。その中には特定のテーマに最適化された公式派生モデルもあり、医療領域向けにはMedGemmaが開発されています。Gemmaシリーズのモデルは、リリースからわずかに時間で1億5000万回以上のダウンロードを記録し、コミュニティや個人がファインチューニングしたり、量子化したモデルもHugging Face上に7万以上存在しているとのことです。

また、最新のGemma 3モデルは、10億（1B）、40億（4B）、120億（12B）、そして270億（27B）のパラメータサイズで提供され、140以上の言語をサポートしています。さらに、テキストと画像の両方を処理できるマルチモーダル機能も備えています。加えて、デバイス上での実行に最適化された小型モデルのGemma 3nも発表されています。

アーキテクチャと特徴

Gemma 3は、デコーダのみで構成されたTransformerアーキテクチャに基づき、グループクエリアテンション（GQA）とSigLIPビジョンエンコーダを搭載しています。全モデルのコンテキスト長は128Kですが、1Bモデルでは32Kとなっています。加えて、量子化に対応したトレーニング（QAT）を行った量子化版も用意されており、メモリ使用量を向上させつつ若干の精度への影響があります。

公式派生モデル

GoogleはGemmaの派生モデルを何種類も提供しています。具体的には以下のようなモデルが存在します：

- ShieldGemma 2 (4B): 暴力的、危険、性的なコンテンツを識別するためのモデル。
- MedGemma (4Bおよび27B): 医療分析に対応したモデルですが、まだ臨床レベルには達していないとされています。インドではこのモデルを糖尿病管理のアプリケーションに応用している企業もあります。
- DolphinGemma (約400M): イルカのコミュニケーションを理解するための音声分析モデル。
- CodeGemma (2Bおよび7B): プログラミング言語を支援するためのモデル群。
- TranslateGemma (4B、12B、27B): 翻訳専用のモデルで、特にGeminiからの強化学習を利用してチューニングされています。

このように、Gemmaはただの言語モデルにとどまらず、多様なニーズに応えるべく進化を遂げています。

もう一度検索