CpGアイランド
CpGアイランド(CpG island)とは、ゲノムDNA配列において、
シトシン(C)と
グアニン(G)がリン酸(p)を介して連続する「CpG」と呼ばれるジヌクレオチド配列が、他のゲノム領域に比べて著しく高い頻度で集積している領域を指します。「p」は
シトシンと
グアニンの塩基間に存在する
ホスホジエステル結合を表しています。これらの領域は、特に
遺伝子の発現開始点である
プロモーター領域の内部やその近傍に多く見られます。推定によると、
哺乳類における全
遺伝子の約40%がCpGアイランドを
プロモーターに含んでおり、
ヒトではその割合が約70%にも達するとされています。この高い存在率は、CpGアイランドが
遺伝子機能にとって重要な要素であることを示唆しています。
定義
CpGアイランドを明確に定義するための厳密な基準がいくつか提案されています。一般的に広く用いられている定義は、「
少なくとも200塩基対の長さを有し、GC塩基の含有率(GC含量)が50%以上、かつCpGジヌクレオチドの出現頻度が、そのGC含量から統計的に期待される頻度の60%以上である領域(CpG observed/expected比率 > 0.6)」というものです。
しかし、ゲノム中にはAlu配列のように、CpGアイランドに似た高いGC含量を持つ比較的短いリピート配列(例:約300塩基対のAlu配列)も存在するため、これらとCpGアイランドをより正確に区別する必要が生じました。このため、より厳格な新しい定義も提唱されています。例えば、「
少なくとも500塩基対以上の長さで、GC含量が55%以上、CpG observed/expected比率 > 0.65」といった基準が用いられることもあります。これらの定義は、バイオインフォマティクス解析などでCpGアイランドを予測・同定する際に重要な役割を果たします。
その他の性質
CpGジヌクレオチドの出現頻度
通常、DNA配列中で
シトシンと
グアニンがランダムに出現する場合、CpGジヌクレオチドの出現頻度は理論上約6.25%(16分の1)となるはずです。しかし、ゲノムの大部分では、CpGジヌクレオチドは他のジヌクレオチドに比べて非常に少なく、出現頻度は1%以下に抑制されています。これは「
CGサプレッション」と呼ばれる現象によるもので、CpGサイトの
シトシンが
メチル化されやすく、
メチル化された
シトシンが自然脱アミノ化によってチミンに変化しやすいため、進化的にCpGサイトがゲノムから失われやすかった結果と考えられています。
これに対し、CpGアイランド領域では、このCGサプレッションが見られず、CpGジヌクレオチドの出現頻度は理論値と同等か、それよりも高いレベルに保たれています。
長さ
CpGアイランドの典型的な長さは、おおよそ300塩基対から3000塩基対の範囲です。
DNA塩基である
シトシンは、特にCpGサイトの
シトシンにおいて、
メチル化修飾を受けることが知られています。この
メチル化は、
遺伝子発現を調節するエピジェネティックなメカニズムの一つです。
CpGアイランド外部のCpG配列はしばしば
メチル化されていますが、CpGアイランド内のCpG配列は、
遺伝子が活発に発現している細胞や組織では、ほとんど
メチル化されていません。この「非
メチル化」状態は、その
遺伝子が発現可能であることを示す重要な状態です。
逆に、CpGアイランド内のCpG配列が
メチル化されると、多くの場合、その下流にある
遺伝子の発現は強く抑制されます。このことから、特に
プロモーター領域におけるCpGの
メチル化状態が、
遺伝子発現のオン・オフを制御する重要なスイッチの一つであることが明らかになっています。
関連する遺伝子の種類
ヒトの
遺伝子は、特定の組織や発生段階でのみ機能する
組織特異的遺伝子と、細胞の基本的な生命維持に不可欠で多くの組織で常に発現している
ハウスキーピング遺伝子に大別されます。
プロモーター領域にCpGアイランドを持つ
遺伝子は、後者のハウスキーピング
遺伝子に多く見られる傾向があります。これは、CpGアイランドの非
メチル化状態が、これらの基本的な
遺伝子の普遍的な発現維持に寄与している可能性を示唆しています。