ゲノム配列だけでは体内における働きがわからないため、タンパク質をコードしている領域を知ることが必要である。
本ページでは、タンパク質をコードしている領域(CoDing Sequence (CDS))をインフォマティクス的に予測する方法について扱う。
遺伝子予測における用語の復習をする。
用語 | 説明 |
---|---|
gene(遺伝子) | 生物学的な情報を含んでいるゲノム上の領域 |
CoDing Sequence(CDS) | タンパク質をコードしているDNA配列領域 |
Open Reading Frame(ORF) | 開始コドンから終始コドンの間のDNA配列領域 |
原核生物の場合3つともほぼ同義だが、真核生物の場合はORFでも必ずしもタンパク質に翻訳されるとは限らないので注意すること。
真核生物はイントロン(DNAからRNAへ転写されるが、RNAからアミノ酸へ翻訳されない領域)があるが、原核生物はほとんどイントロンが無い。
そのため、遺伝子予測として使用されるツールが全く異なるため注意すること。
原核生物における遺伝子予測は真核生物における遺伝子予測と比較すると簡単である。
基本的に開始コドン〜終止コドンがCDSとなる。
ただし、一般的なツールでは
アミノ酸の長さ
開始コドンの前の配列の特徴
遺伝子領域の塩基配列の規則性
などを使用して予測の精度を高めている。
以下のツールなどが有名。
ツール | 引用回数 | 引用文献 |
---|---|---|
PRODIGAL | 3078 | 1 |
GLIMMER | 1179 | 2 |
GeneMark] | 599 | 3 |
真核生物はイントロン(翻訳されない領域)があるため、一般に遺伝子予測が難しい。
基本的には隠れマルコフモデルなどを利用して遺伝子となる領域を予測するプログラムがいくつか流通している。
以下のツールなどが有名。
ツール | 引用回数 | 引用文献 |
---|---|---|
GENSCAN | 4194 | 4 |
AUGUSTUS | 200 | 5 |
真核生物における遺伝子予測ツール比較論文などもある6, 7。参考にされたし。
Hyatt, D. et al. Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 11, 119 (2010). ↩
Salzberg, S. L., Delcher, A. L., Kasif, S. & White, O. Microbial gene identification using interpolated Markov models. Nucleic Acids Res. 26, 544–548 (1998). ↩
Besemer, J. & Borodovsky, M. GeneMark: web software for gene finding in prokaryotes, eukaryotes and viruses. Nucleic Acids Res. 33, W451-4 (2005). ↩
Burge, C. & Karlin, S. Prediction of complete gene structures in human genomic DNA. J. Mol. Biol. 268, 78–94 (1997). ↩
Keller, O., Kollmar, M., Stanke, M. & Waack, S. A novel hybrid gene prediction method employing protein multiple sequence alignments. Bioinformatics 27, 757–763 (2011). ↩
Wang, Z., Chen, Y. & Li, Y. A brief review of computational gene prediction methods. Genomics. Proteomics Bioinformatics 2, 216–221 (2004). ↩
Goel, N., Singh, S. & Aseri, T. C. A Review of Soft Computing Techniques for Gene Prediction. ISRN Genomics 2013, 1–8 (2013).↩