オープンリーディングフレーム(ORF)
分子遺伝学の分野において、オープンリーディングフレーム(Open Reading Frame、略称:ORF)は、遺伝情報がタンパク質へと翻訳される潜在的な能力を持つ、DNAまたはRNA上の特定の領域を指します。具体的には、ORFは、翻訳を開始する信号となる開始
コドン(一般的にAUG)から始まり、翻訳を終了させる終止
コドン(UAA、UAG、UGAなど)で終わる、
コドンの連続した並びとして定義されます。このORF内に存在するAUG
コドンの位置が、実際にタンパク質合成が開始される翻訳開始点を示すことがあります。
遺伝子の転写は、終止
コドンを過ぎた転写終結部位で完了するのが典型的です。もし転写が終止
コドンの手前で終わってしまうと、正常な終止
コドンが存在しない不完全な転写産物ができ、結果として未完成のタンパク質が合成される可能性があります。
真核生物の
遺伝子は、タンパク質をコードする
エクソンと、コードしない
イントロンから構成されています。転写後、
イントロンはスプライシングと呼ばれる過程で除去され、
エクソン同士が結合して、タンパク質翻訳の鋳型となる成熟したmRNAが生成されます。
イントロンには終止
コドンが含まれていたり、読み枠をずらしたりする可能性があるため、
遺伝子予測を行う際には、ゲノムDNA上ではなく、このスプライシングされたmRNA上でのORFの定義がより適切であるとされています。
ただし、ORFの定義には別の側面もあります。例えば、終止
コドンに囲まれており、かつ長さが3の倍数である配列をORFと定義することもあります。この定義は、開始
コドンや終止
コドンが配列データ中に完全に含まれていない場合があるトランスクリプトーム解析やメタゲノム解析の分野で特に有用です。このようなORFは、必ずしも完全な
遺伝子全体ではなく、
遺伝子の一部に対応していることもあります。
生物学的な意義
オープンリーディングフレームは、特に
遺伝子予測において重要な手がかりの一つとなります。長いORFは、DNA配列の中にタンパク質をコードする可能性のある領域や、機能性RNAの候補領域を特定する際の初期ステップで頻繁に利用されます。しかし、ORFが存在するからといって、その領域が必ず翻訳されるわけではありません。理論的には、
ヌクレオチドがランダムに並んでいる場合、およそ21
コドンごとに終止
コドンが出現すると予測されます。
原核生物のシンプルな
遺伝子予測アルゴリズムでは、開始
コドンに続いて、典型的なタンパク質をコードするのに十分な長さのORFを探索し、さらにその領域の
コドン使用頻度が、その生物が持つ翻訳領域の特徴と一致するかどうかを確認します。そのため、ORFは例えば100
コドンや150
コドンといった、ある一定の長さ以上であるべきだという考え方もあります。
とはいえ、長いORFだけでは
遺伝子の存在を断定する決定的な証拠にはなりません。一方で、タンパク質をコードする
遺伝子としては典型的な特徴を欠く、いくつかの短いORF(sORF)が、機能を持つ短いペプチドを生成することが実験的に確認されています。哺乳類のmRNAの約半数の5'
非翻訳領域(5'-UTR)には、一つ以上のsORFが存在することが知られています。ヒトやマウスにおいて、実験的に見つかったsORFの翻訳開始部位の多くが高い保存性を示しており、これがこれらのsORFが何らかの機能を持っている可能性を示唆しています。しかし、sORFは多くの場合、mRNAの量が少ない形態で見つかるため、自然選択の影響を受けにくいという側面もあると考えられています。
6フレーム翻訳
DNAは二本鎖構造を持ち、それぞれの鎖は逆平行に並んでいます。遺伝情報は3つの
ヌクレオチド(
コドン)の単位で読み取られるため、一本のDNA鎖には3つの異なる「読み枠」(リーディングフレーム)が存在します。DNA分子は2本の鎖を持つため、合計で6つの異なる読み枠が存在し、それぞれの読み枠で翻訳が行われる可能性があります。これを「6フレーム翻訳」と呼びます。
ORF検索ツール
バイオインフォマティクス分野では、DNAやRNA配列からORFを特定するための様々なツールが開発されています。いくつか代表的なものを挙げます。
ORF Finder: これは、ユーザーが指定した配列やデータベース上の配列から、設定可能な最小サイズのORFを全て検出するグラフィカルな解析ツールです。標準または代替の遺伝コードに対応し、推定されるアミノ酸配列を保存したり、
BLAST検索に利用したりできます。
ORF Investigator: コード領域や非コード領域の情報提供に加え、2つの異なる配列間でグローバルアライメントを実行できるプログラムです。ORFを特定し、対応するアミノ酸配列を1文字コードに変換し、配列上の位置を示します。アライメント機能は、
一塩基多型などの変異検出にも役立ちます。
OrfPredictor: 特にEST(発現配列タグ)のような配列から、タンパク質をコードする領域を予測するために設計されたウェブサーバーです。
BLASTXの結果を利用して予測したり、固有の配列信号に基づいて予測したりします。
ORFik: Bioconductorに含まれるRパッケージで、ORFの検索に加え、次世代シークエンシングデータを用いてORFが実際に翻訳されているかを確認する機能を提供します。
*
orfipy: Python/Cythonで実装された高速かつ柔軟なORF抽出ツールです。FASTA/FASTQ形式に対応し、カスタム開始/終止
コドン、部分ORFの報告、カスタム遺伝コードなど、多様なオプションを提供します。デノボ転写産物アセンブリ後の解析などで特に有用です。
これらのツールは、膨大な配列データの中から潜在的な
遺伝子候補や翻訳領域を見つけ出す上で、不可欠な役割を果たしています。