保存配列(ほぞんはいれつ)
保存配列とは、進化
生物学において、異なる生物種間や同一
ゲノム内の複数の領域にわたって類似性や同一性が認められる、DNAやRNAといった
核酸、あるいは
タンパク質の配列を指します。特に種間で共通して見られるものはオルソログ配列、同一
ゲノム内に複数存在し、複製によって生じたと考えられるものはパラログ配列と呼ばれます。これらの配列が世代を超えて比較的変化せずに維持されていることは、その配列が生物の生存や機能にとって重要であり、自然選択の働きによって保たれてきたことを示唆しています。
高度に保存された配列は、生命の系統樹を非常に深く遡ってもその形がほとんど変わらないという特徴があります。これは、地球の地質学的な時間スケールで見てもその重要性が失われなかったことを意味します。例えば、生命の三大ドメイン全てに共通して存在する
リボソームRNAの構成要素や、真核生物に広く見られる
ホメオボックス配列、
細菌のtmRNAなどは、極めて高い保存性を示す例です。配列保存性の研究は、
ゲノム科学、
タンパク質科学、進化研究、生物の系統分類、
バイオインフォマティクス、さらには数理科学といった、多様な分野と深く関連しています。
研究の歴史的背景
DNAが
遺伝情報を担う物質であることが明らかになり、さらにフレデリック・サンガーが1949年に
動物種間で
インスリンのアミノ酸配列に差異があることを報告したことは、初期の分子
生物学者たちに、分子レベルでの生物の系統関係を探求するきっかけを与えました。1960年代には、DNAハイブリダイゼーション技術や
タンパク質の交差反応性を利用した研究が行われ、
ヘモグロビンやシトクロムcといった、既知のオルソログ
タンパク質間の構造的な類似性が定量的に調べられました。1965年には、エミール・ズッカーカンドルと
ライナス・ポーリングが
分子時計の概念を提唱し、
遺伝子の一定の変異率を利用すれば、二つの生物種が
共通祖先から分岐してからの時間を推定できる可能性を示しました。初期に構築された分子系統樹は、化石記録に基づく系統樹と概ね一致していましたが、一部の
遺伝子では進化の速度が異なって見えることが明らかになり、これが
分子進化理論のさらなる発展へと繋がりました。特に、1966年のマーガレット・デイホフによる
フェレドキシンの配列比較研究は、自然選択が生命維持に必須な
タンパク質の配列を保護し、最適化する方向に働くことを実証しました。
配列が保存されるメカニズム
生物の
ゲノムに含まれる
核酸配列は、世代を経るにつれてランダムな
突然変異や
欠失、さらには染色体の組み換えや再編成といった変化の圧力に常にさらされています。保存配列は、このような変化を引き起こす力に逆らい、
ゲノム中に維持され続けている領域であり、周囲の配列と比較して変異の頻度が低いという特徴があります。
配列の保存は、
タンパク質をコードする領域(
コーディング領域)でも、コードしない領域(ノン
コーディング領域)でも起こり得ます。高度に保存されたDNA配列は、何らかの重要な機能を持つと考えられていますが、特に多くのノンコーディングな保存配列の具体的な機能については、まだ十分に解明されていないのが現状です。配列の保存される度合いは、その配列にかかる選択圧の強さ、変異に対する頑強さ、そして生物が集団として持つサイズや
遺伝的浮動の影響など、様々な要因によって左右されます。
コーディング配列の保存
DNA上の3つの塩基の組み合わせ(
コドン)が1つのアミノ酸を指定しますが、4種類の塩基からなる
コドンは理論上64通りあり、一方
タンパク質を構成するアミノ酸は20種類です。このため、複数の異なる
コドンが同じアミノ酸を指定する「同義性」が存在します。
コーディング領域に変異が起きても、生成されるアミノ酸配列が変化しない変異をサイレント変異(同義置換)と呼びます。サイレント変異が起きても
タンパク質の機能に直接的な影響がないため、このような領域は比較的保存性が低くなる傾向があります。
一方、
タンパク質のアミノ酸配列そのものは、その立体構造や機能を維持するために強く保存されます。保存された
タンパク質では、アミノ酸の置換が少ないか、あるいは生化学的性質が類似したアミノ酸への置換が起こりやすい傾向が見られます。特に、
タンパク質の適切な折り畳み(
フォールディング)、構造安定性、あるいは他の分子との結合部位を形成するのに重要なアミノ酸残基は、機能に直結するため高度に保存されています。
タンパク質をコードする
遺伝子の
核酸配列は、アミノ酸配列の保存とは別の選択圧によっても影響を受けます。例えば、生物種による
コドンの使用頻度の偏り(
コドンバイアス)は、
核酸配列における同義置換の種類を制限することがあります。また、mRNAが翻訳の際に
二次構造を形成することがありますが、これが翻訳効率に悪影響を与える場合は選択的に排除される一方、そのmRNA自体が機能的な
ノンコーディングRNAとして働く場合には、
核酸配列が保存されることがあります。
ノンコーディング配列の保存
タンパク質をコードしないノンコーディング配列も、
遺伝子発現の調節など、
ゲノム機能にとって重要であり、保存の対象となります。例えば、
遺伝子の転写開始に関わる
プロモーター領域や、
リボソーム、
転写因子などの
タンパク質が結合・認識する部位は、その機能維持のために保存される傾向があります。
ノンコーディングRNA(ncRNA)の場合も、
タンパク質と同様に、その構造や機能に不可欠な
核酸塩基は保存されます。ただし、
タンパク質コード配列と比較すると、ncRNAでは配列そのものの保存性が全体的に低いことが多く、その代わりに、分子の構造形成や機能に寄与する特定の
塩基対の位置関係などが保存されている場合が見られます。インターロイキン22
遺伝子の近傍に見られる配列などがその例です。
保存配列の同定手法
保存配列は、主に
バイオインフォマティクス的な手法、特に
シーケンスアラインメントに基づいて同定されます。2000年代初頭以降、ハイスループットな
DNAシークエンシングや質量分析技術の進歩により、比較可能な
タンパク質配列や
ゲノム情報の量が飛躍的に増加し、保存配列の解析が容易になりました。
相同性検索
BLAST、HMMER、Infernalといったツールを用いた相同性検索は、保存配列を特定する基本的な方法です。これらのツールには、個別の
核酸または
タンパク質配列を入力することも、既知の関連配列の多重アラインメントから作成された統計モデル(プロファイルHMMやRNA共分散モデルなど)を用いることもできます。後者は、より遠縁の配列を探す場合に有効です。入力配列は、関連する個体や他種の配列データベースと比較してアラインメントが行われます。その結果は、一致する残基の数や、アラインメントによって生じたギャップ、
欠失などを考慮してスコアリングされます。許容される保存的なアミノ酸置換は、PAMやBLOSUMといった置換行列に基づいて評価されます。高いスコアを持つアラインメントは、相同性(
共通祖先に由来する類似性)を持つ配列であると推定されます。
多重配列アラインメントと可視化
複数の関連配列を同時にアラインメントする多重配列アラインメントは、保存配列のパターンを視覚的に捉えるためにも用いられます。Clustalなどのフォーマットでは、アラインメント結果の各位置における保存性を文字や記号で示すプレーンテキストのキーが提供されます。例えば、完全に保存された位置はアスタリスク(`*`)、高い保存性を持つ位置はコロン(`:`)、やや保存性を持つ位置はピリオド(`.`)、保存性の低い位置は空白で示されます。また、シーケンスロゴは、アラインメント中の各位置における残基の出現頻度を、それぞれの文字の高さで表現することで、保存性の度合いや特徴的なモチーフを直感的に示します。
ゲノムアラインメント
全
ゲノムアラインメント(WGA)は、複数の種間で高度に保存された
ゲノム領域全体を同定するために利用されます。現在のところ、
ゲノム内の組み換えや繰り返し配列の存在、特に真核生物の巨大な
ゲノムサイズに伴う計算上の複雑さのため、WGAツールの精度や
スケーラビリティには限界がありますが、比較的近縁な30以上の
細菌ゲノムのWGAなどが実現しています。
統計的なスコアリングシステム
統計的な検定に基づき、予測される中立的な変異率から大きく外れる変異率を示す領域を特定することで、保存性を定量的に評価するアプローチもあります。GERP (Genomic Evolutionary Rate Profiling) フレームワークは、多重アラインメントから対象となる生物種のセットにおける中立的な変異率を推定し、それよりも変異が少ない領域を保存領域として同定します。これらの領域は、予測されるバックグラウンド変異率と実際に観察された変異率の差に基づいてスコア化され、GERPスコアが高いほど高度な保存性を持つと判定されます。PhyloPやPhyloHHMといった手法は、統計
系統学の手法を取り入れ、置換率の確率分布を比較することで、変異が抑制された保存領域だけでなく、変異が加速した領域も検出できます。これらの手法では、系統樹に基づいて各アラインメントカラムで起こりうる置換数のバックグラウンド分布が予測され、実際の観察との比較が行われます。近縁種間での変異は遠縁種間での変異よりも起こりにくいため、近縁種間で変異が少ない領域は統計的により
有意な保存領域と判断されます。
極端な保存性を示す例
超保存エレメント
超保存エレメント (ultra-conserved element, UCE) は、複数の異なる分類群にわたって、非常に類似した、あるいは完全に同一に近い配列を持つ領域です。UCEは最初に脊椎
動物で見つかりましたが、その後、より広範な分類群の間でも同定されています。その起源や機能についてはまだ不明な点が多いものの、有羊膜類、
昆虫、さらには
動物と
植物といった、地質学的タイムスケールで分岐した分類群間の差異を比較する研究などに利用されています。
普遍的に保存された遺伝子
最も高度に保存された
遺伝子は、地球上の全ての生物に見出される
遺伝子です。これらの多くは、生命の
共通祖先(LUCA)から受け継がれてきたと考えられており、主に
遺伝情報の転写や翻訳といった、生命活動の根幹を支えるプロセスに必要な
ノンコーディングRNAや
タンパク質をコードしています。具体的には、GTP結合型翻訳伸長因子、メチオニルアミノペプチダーゼ2、セリンヒドロキシメチルトランスフェラーゼ、ABC輸送体ファミリーの一部などが普遍的に保存されていることが知られています。また、
RNAポリメラーゼや
ヘリカーゼといった転写装置の構成要素、そしてrRNA、tRNA、
リボソームタンパク質といった翻訳装置の構成要素も、生命のあらゆるドメインで広く保存されています。
研究および応用の分野
系統発生学と分類学
保存配列のセットは、生物種間の進化的関係を示す系統樹を作成する上で重要な情報源となります。配列の類似性が高い種ほど近縁であると推測されるからです。
系統学的な研究の対象とする分類群の範囲によって、用いるべき保存配列の種類は異なります。例えば、最も高度に保存されている16S rRNAや他の
リボソームRNA配列は、生命全体の系統樹の根元付近の関係性を探る際や、メタ
ゲノム解析で
細菌の門を特定する際に有用です。一方、特定の系統群内で保存されているが、種間に適度な変異が存在するような配列(ハウスキーピング
遺伝子など)は、比較的近縁な種間の関係性を調べるのに適しています。rRNA
遺伝子の間に存在するITS (internal transcribed spacer) 領域は、機能的にはスペーサーとして必要でありながら急速に進化するため、
菌類の分類や急速に分化する
細菌株の分類に頻繁に用いられています。
医学研究への応用
高度に保存された配列は、しばしば生命維持に不可欠な機能を持っています。このため、ヒトの
遺伝性疾患の原因
遺伝子を特定する際の手がかりとして非常に有用です。多くの
先天性代謝異常症やライソソーム病は、保存された単一の
遺伝子に変異が生じた結果、その
遺伝子がコードする酵素などが欠損したり機能不全に陥ったりすることで引き起こされます。ヒトと実験
動物(マウスやショウジョウバエなど)の間で保存されている配列を特定し、その
遺伝子をモデル
動物で破壊(ノックアウト)した際の影響を調べることで、ヒト疾患の症状を予測する研究も行われています。また、
ゲノムワイド関連解析(GWAS)においても、疾患や健康状態と関連する保存配列のバリアントを同定する試みがなされています。
機能のアノテーション
保存配列の同定は、新規の
遺伝子や機能的な配列を発見したり、その機能を予測したりするためにも活用されます。
タンパク質の場合、既知の機能を持つ保存された
タンパク質ドメインの配列情報を利用して、未知の配列がどのような機能を持つかを推定します。PfamやConserved Domain Databaseといった保存
タンパク質ドメインのデータベースは、新しく発見された、あるいは予測された
タンパク質コード
遺伝子に対して、どのような機能ドメインが含まれているかを注釈(アノテーション)するために広く利用されています。