Gemma: Google DeepMindが開発したオープンソース言語モデル
Gemmaは、
Google DeepMindが製作したオープンソースの
大規模言語モデル(LLM)シリーズです。これは
Googleの主力モデル「Gemini」と同様の技術を利用しており、初めてのバージョンが2024年2月にリリースされました。その後、2024年6月にGemma 2、2025年3月にはGemma 3が登場しました。また、Gemmaから派生した特定の用途に特化したモデルとして、視覚言語モデルのPaliGemmaや、医療相談向けのMedGemmaも開発されています。
リリースと歴史
Gemmaの最初のバージョンは2024年2月に公開され、これはGeminiの軽量版としての役割を果たします。最初に公開されたモデルには、それぞれ20億(2B)および70億(7B)のパラメータを持つ2つのサイズがありました。これにより、AIモデルをオープンソース化する潮流に対する
Googleの姿勢が変わったことが注目されました。
Gemma 2は2024年6月27日にリリースされ、さらに進化させたGemma 3は2025年3月12日に登場しました。
概要と機能
Gemmaは
Googleの「AIをすべての人々にとって役立たせる」というブランドミッションを支援する目的で設計されています。その中には特定のテーマに最適化された公式派生モデルもあり、医療領域向けにはMedGemmaが開発されています。Gemmaシリーズのモデルは、リリースからわずかに時間で1億5000万回以上のダウンロードを記録し、コミュニティや個人がファインチューニングしたり、量子化したモデルもHugging Face上に7万以上存在しているとのことです。
また、最新のGemma 3モデルは、10億(1B)、40億(4B)、120億(12B)、そして270億(27B)のパラメータサイズで提供され、140以上の言語をサポートしています。さらに、テキストと画像の両方を処理できるマルチモーダル機能も備えています。加えて、デバイス上での実行に最適化された小型モデルのGemma 3nも発表されています。
アーキテクチャと特徴
Gemma 3は、デコーダのみで構成されたTransformerアーキテクチャに基づき、グループクエリアテンション(GQA)とSigLIPビジョンエンコーダを搭載しています。全モデルのコンテキスト長は128Kですが、1Bモデルでは32Kとなっています。加えて、量子化に対応したトレーニング(QAT)を行った量子化版も用意されており、メモリ使用量を向上させつつ若干の精度への影響があります。
公式派生モデル
GoogleはGemmaの派生モデルを何種類も提供しています。具体的には以下のようなモデルが存在します:
- - ShieldGemma 2 (4B): 暴力的、危険、性的なコンテンツを識別するためのモデル。
- - MedGemma (4Bおよび27B): 医療分析に対応したモデルですが、まだ臨床レベルには達していないとされています。インドではこのモデルを糖尿病管理のアプリケーションに応用している企業もあります。
- - DolphinGemma (約400M): イルカのコミュニケーションを理解するための音声分析モデル。
- - CodeGemma (2Bおよび7B): プログラミング言語を支援するためのモデル群。
- - TranslateGemma (4B、12B、27B): 翻訳専用のモデルで、特にGeminiからの強化学習を利用してチューニングされています。
このように、Gemmaはただの言語モデルにとどまらず、多様なニーズに応えるべく進化を遂げています。