遺伝子予測（CDS予測）

ゲノム配列だけでは体内における働きがわからないため、タンパク質をコードしている領域を知ることが必要である。

本ページでは、タンパク質をコードしている領域（CoDing Sequence (CDS)）をインフォマティクス的に予測する方法について扱う。

遺伝子予測に関する用語の整理

遺伝子予測における用語の復習をする。

原核生物の場合3つともほぼ同義だが、真核生物の場合はORFでも必ずしもタンパク質に翻訳されるとは限らないので注意すること。

真核生物はイントロン（DNAからRNAへ転写されるが、RNAからアミノ酸へ翻訳されない領域）があるが、原核生物はほとんどイントロンが無い。

そのため、遺伝子予測として使用されるツールが全く異なるため注意すること。

原核生物における遺伝子予測は真核生物における遺伝子予測と比較すると簡単である。

基本的に開始コドン〜終止コドンがCDSとなる。

ただし、一般的なツールでは

などを使用して予測の精度を高めている。

以下のツールなどが有名。

真核生物はイントロン（翻訳されない領域）があるため、一般に遺伝子予測が難しい。

基本的には隠れマルコフモデルなどを利用して遺伝子となる領域を予測するプログラムがいくつか流通している。

以下のツールなどが有名。

ツール	引用回数	引用文献
GENSCAN	4194	4
AUGUSTUS	200	5

真核生物における遺伝子予測ツール比較論文などもある^{6, 7}。参考にされたし。

Hyatt, D. et al. Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 11, 119 (2010). ↩
Salzberg, S. L., Delcher, A. L., Kasif, S. & White, O. Microbial gene identification using interpolated Markov models. Nucleic Acids Res. 26, 544–548 (1998). ↩
Besemer, J. & Borodovsky, M. GeneMark: web software for gene finding in prokaryotes, eukaryotes and viruses. Nucleic Acids Res. 33, W451-4 (2005). ↩
Burge, C. & Karlin, S. Prediction of complete gene structures in human genomic DNA. J. Mol. Biol. 268, 78–94 (1997). ↩
Keller, O., Kollmar, M., Stanke, M. & Waack, S. A novel hybrid gene prediction method employing protein multiple sequence alignments. Bioinformatics 27, 757–763 (2011). ↩
Wang, Z., Chen, Y. & Li, Y. A brief review of computational gene prediction methods. Genomics. Proteomics Bioinformatics 2, 216–221 (2004). ↩
Goel, N., Singh, S. & Aseri, T. C. A Review of Soft Computing Techniques for Gene Prediction. ISRN Genomics 2013, 1–8 (2013).↩

生物学基礎

生物の基礎（セントラルドグマ）

DNA配列解析

BLASTのつかいかた BLSTにおけるeValue GC含量遺伝子予測解析 K-mer解析系統樹の見方系統樹構築のアルゴリズム系統樹構築（実践編） SeqKit（便利前処理ツール）

その他（生物学いろいろ）