[ English ]

2.5 H-InvDBアノテーション:分子進化解析

 H-InvDBの分子進化解析では、転写産物解析によって定義された全ヒト遺伝子について他の脊椎動物とのオルソログを同定しています。オルソログ遺伝子(オーソログ、ortholog)は異なる生物種に存在する、共通祖先遺伝子から種分化によって生じた遺伝子です。同一種内で遺伝子重複によって生じた遺伝子はパラログ(paralog)といいます。ヒトの代表配列(Representative transcript、2.3.2)について、比較ゲノムおよびアミノ酸配列の相同性にもとづいてオルソログを同定しています(Computational analysis)。また、ヒトの重複遺伝子ファミリーを同定し、ファミリーごとに他生物のオルソログを加えた系統樹を作成して、遺伝子と生物種の系統樹の一致を判定しています(Manual curation、現在は独自開発ツールにて判定)。解析結果はH-InvDBのサブデータベース Evola(4.9 Evola -分子進化データベース)から公開しています。

2.5.1 オルソログの同定

 ヒトと他の脊椎動物との間でBLASTZ[Schwartz et al. 2003]を用いた比較ゲノム解析方法[Fujii et al. 2005Kawahara et al. 2009]によりゲノムアラインメントを作成し、最も相同なゲノム領域のペアを決定しました。元データとしてUCSCのゲノムアセンブリを用いています。
 ヒト遺伝子についてはH-InvDBの代表配列(2.3.2)を用いています。ヒト以外の生物種については、DDBJRefSeqEnsemblから全転写産物(RNA)を取得しました。それらを、BLAT[Kent 2002]、BLAST[Altschul et al. 1990]、est2genome[Rice et al. 2000]を利用するH-InvDBのマッピングパイプライン(2.1)によって同じ生物種のゲノムにマッピングし、ゲノム上の位置を決定しました(1配列1カ所)。同じストランドにある複数の転写産物で、エキソンが互いに重なるものを1遺伝子座としています。各遺伝子座について代表配列および代表スプライシングバリアント(Representative alternative splicing variants (RASVs)[Takeda et al. 2007]、2.2)を決定し、オルソログ解析の対象としています。
 ヒトと他の脊椎動物の遺伝子について、ヒト側または他生物側から見てゲノムアラインメント上でエキソン領域を最も長く共有する相手の遺伝子をまず選択しました。これらのペアについて、ヒトアミノ酸配列の50%以上の長さでアラインメントが可能なものを「Computational analysisによるオルソログ」として同定しました。アミノ酸配列はヒトではH-InvDBのもの、他生物ではそれぞれの由来するデータベースから提供されているものを用いています。他生物のアミノ酸配列がデータベースにない場合は、ペア相手のヒトのアミノ酸配列をもとにFASTA[Pearson 2000]によりアミノ酸配列を予測しました。
 これらの解析によって同定されたオルソログには、ヒトの1遺伝子以上が他生物の1遺伝子以上とオルソログ関係にあるケースも含んでいます。

2.5.2 遺伝子ファミリーの同定と系統樹の作成

 重複遺伝子のオルソログを系統解析するために遺伝子ファミリーデータを作成しました。まず、H-InvDBのヒト代表配列(アミノ酸配列)を相同性にもとづくシングルリンケージ解析[Gu et al. 2002]によってグルーピングしました。次に、別グループに属するヒト2遺伝子がマウス1遺伝子とオルソログの場合など、ヒトの2つ以上のグループにまたがるオルソログ関係がある場合はそれらのグループを結合しました。これを全オルソログデータについて行い、その結果を遺伝子ファミリーとしました。この遺伝子ファミリーは種間で1対1に対応します(オルソログ遺伝子ファミリー)。
 作成した遺伝子ファミリーについて系統樹を作成するべく、各オルソログファミリーのヒトと他生物のアミノ酸配列についてClustalW[Thompson et al. 1994]でマルチプルアラインメントを作成しました。このとき、相同性の低い配列を除くことでアラインメントをより正確にしています[Endo et al. 2002]。系統樹は近隣結合法(NJ法、Neighbor-joining method[Saitou et al. 1987])によって作成しました。
 この系統樹を利用してComputational analysisで同定されたオルソログについて系統解析を行い、ヒトと他生物の遺伝子の位置関係が生物種の位置関係と同一と判定された場合に「Manual curationによるオルソログ」としました。判定方法は分子進化アノテーション会議(当研究所で2006年に開催)などで検討された方法(ブートストラップ値が900/1000以上、霊長類−げっ歯類−四足獣分岐を同時期とするなど、[Matsuya et al. 2008])を適用しています。当初は研究者が実際に一つ一つの系統樹を目で見て判定していましたが、現在ではアルゴリズムを自動化した判定ツールにより判定効率を改善しました。系統樹解析のための配列数や生物種数が十分でない場合や、マルチプルアラインメントから有効なサイト数が得られない場合などは「Computational analysisによるオルソログ」のままとなっています。
 最終的に、網羅的なオルソログ情報(Computational analysis + Manual curation)と、より信頼性のある(系統樹でサポートされた)オルソログ情報(Manual curation)という2段階のアノテーション種別(Annotation status)のデータを作成しました。

2.5.3 リファレンス

  1. Altschul SF, Gish W, Miller W, et al. Basic local alignment search tool. J. Mol. Biol. 215, 403-410 (1990).
  2. Endo T, Ogishima S and Tanaka H ETools: Tools to Handle Biological Sequences and Alignments for Evolutionary Studies. Genome Inform. 13, 543-544 (2002).
  3. Fujii Y, Itoh T, Sakate R, et al. A web tool for comparative genomics: G-compass. Gene 364, 45-52 (2005).
  4. Gu Z, Cavalcanti A, Chen FC, et al. Extent of gene duplication in the genomes of Drosophila, nematode, and yeast. Mol. Biol. Evol. 19, 256-262 (2002).
  5. Kawahara Y, Sakate R, Matsuya A, et al. G-compass: A web-based comparative genome browser between human and other vertebrate genomes. submitted (2009).
  6. Kent WJ BLAT--the BLAST-like alignment tool. Genome Res. 12, 656-664 (2002).
  7. Matsuya A, Sakate R, Kawahara Y, et al. Evola: Ortholog database of all human genes in H-InvDB with manual curation of phylogenetic trees. Nucleic Acids Res. D787-792 (2008).
  8. Pearson WR Flexible sequence similarity searching with the FASTA3 program package. Methods Mol. Biol. 132, 185-219 (2000).
  9. Rice P, Longden I, and Bleasby A EMBOSS: The European Molecular Biology Open Software Suite Trends Genet. 16, 276-277 (2000).
  10. Saitou N and Nei M The neighbor-joining method: a new method for reconstructing phylogenetic trees. Mol. Biol. Evol. 4, 406-425 (1987).
  11. Schwartz S, Kent WJ, Smit A, et al. Human-mouse alignments with BLASTZ. Genome Res. 13, 103-107 (2003).
  12. Takeda J, Suzuki Y, Nakao M, et al. H-DBAS: Alternative splicing database of completely sequenced and manually annotated full-length cDNAs based on H-Invitational. Nucleic Acids Res. D104-109 (2007).
  13. Thompson JD, Higgins DG and Gibson TJ CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, 4673-4680 (1994).
ページ先頭へ
更新日:2009年8月11日