コンセンサス配列
コンセンサス配列(またはカノニカル配列)とは、
分子生物学や
バイオインフォマティクス分野において、
複数の関連する核酸またはタンパク質の配列を比較し、多重配列アラインメントを行った結果に基づいて作成される、
各位置で最も頻繁に観測される残基(ヌクレオチドやアミノ酸)を並べた理想的な配列のことです。これは、共通の機能や構造を持つ配列モチーフを代表する指標として利用されます。
コンセンサス配列は、
ゲノム中に存在する機能的に重要な特定の部位を推定する上で極めて重要です。例えば、多くの
転写因子は、特定の
遺伝子の発現を制御する
プロモーター領域内に存在する特定のDNA配列パターンを認識して結合します。このような
転写因子結合部位は、多くの場合、コンセンサス配列として表現されます。同様に、DNAを切断する
制限酵素の認識部位や、転移因子(
トランスポゾン)が
ゲノム上の標的を特定する配列、さらにはメッセンジャーRNA前駆体のスプライシング部位(
イントロンと
エクソンの境界付近)なども、コンセンサス配列としてモデル化されます。
これらの部位は、
ゲノム上の異なる場所にあっても、同じ機能を持つために類似した配列構造を共有しています。コンセンサス配列は、これらの
機能部位の基本的な特徴を捉え、
推定されるDNA結合部位のモデルとして機能します。既知の機能部位の配列を多数集めてアラインメントすることで、各位置で最も優勢な塩基やアミノ酸が特定され、コンセンサス配列が得られます。ただし、実際の機能部位の配列は、完全にコンセンサス配列と一致するとは限らず、いくつかの置換が含まれる場合もあります。
コア
プロモーター配列におけるコンセンサス配列は、転写開始の効率に大きく関わります。コンセンサス配列により近い配列へと変化する変異は「アップ変異(up mutation)」と呼ばれ、
RNAポリメラーゼがDNAにより強く結合できるようになるため、多くの場合、転写効率が向上します。逆に、コンセンサス配列において重要(保存されている)な
ヌクレオチドを破壊する変異は「ダウン変異(down mutation)」と呼ばれ、
RNAポリメラーゼの結合が弱まり、転写効率が低下する傾向があります。
配列解析における利用
特定の機能を持つ短い配列モチーフ(例えば、制御配列やシグナル配列)を
ゲノムや
タンパク質の配列の中から
効率的に探索することは、
分子生物学や
バイオインフォマティクスの主要な課題の一つです。コンセンサス配列は、このような
パターン認識ソフトウェアの開発において基本的な概念として利用されます。
これらの機能的な配列モチーフは、生合成の調節や細胞内での分子の局在化、成熟などに重要な役割を果たしており、その機能的な重要性から、
進化の過程で比較的よく保存されていると考えられています。コンセンサス配列は、このような
保存された配列の特徴を表現するために用いられ、保存性の程度から
進化的な関連性が推測されることもあります。
表記方法
コンセンサス配列は、一般的に特定の文字や記号を用いて表現されます。この表記法は、各位置の残基の保存性や許容されるバリエーションを示します。例えば、DNA配列の場合、`A[CT]N{A}YR` のような表記が用いられます。
`A`: この位置には必ずアデニン(A)が現れます。
`[CT]`: この位置にはシトシン(C)またはチミン(T)のいずれかが現れる可能性があります。
`N`: この位置には任意の一種類の塩基(A, C, G, T)が現れる可能性があります。
`{A}`: この位置にはアデニン(A)以外の塩基が現れます。
`Y`: この位置には
ピリミジン塩基(Cytosine or Thymine, C or T)が現れます。
`R`: この位置には
プリン塩基(Adenine or Guanine, A or G)が現れます。
ただし、この文字列表記では、`[CT]` のように複数の選択肢がある場合に、それぞれの塩基がどのくらいの頻度で出現するかといった情報は表現されません。より詳細な情報を表現する方法として、
シーケンスロゴが用いられます。シーケンスロゴはコンセンサス配列を画像として表現し、各位置に出現する
ヌクレオチドやアミノ酸の種類とその相対的な頻度を、それぞれのシンボルの積み上げられた高さやサイズで示します。より保存性が高く、頻繁に出現する残基は大きく描かれ、そうでない残基は小さく描かれます。WebLogoやGestalt Workbenchなどのツールを用いて生成できます。
ソフトウェア
コンセンサス配列の計算や視覚化をサポートする様々な
バイオインフォマティクスツールが利用可能です。例えば、JalViewやUGENEなどが挙げられます。
まとめ
コンセンサス配列は、複数の
生物学的配列から共通の機能を持つ特徴的なモチーフを抽出・表現するための基本的な概念です。
ゲノム上の制御要素や認識部位を特定し、それらの機能や
進化的な側面を理解する上で重要な役割を果たしています。その表記方法には、簡潔な文字列表記と、残基の頻度情報を視覚的に表現できるシーケンスロゴなどがあります。
バイオインフォマティクスツールを用いることで、コンセンサス配列の解析や利用が効率的に行われています。