4.9.1 BLASTとは?
BLAST (Basic Local Alignment Search Tool)1,2. BLAST は配列データベースに対する高速の配列相同性検索ツールです。
4.9.2 BLASTへの入り口
H-InvDBのTOPページにあるBLASTの文字をクリックすることで、BLASTサーバーへアクセスすることができます。
H-Inv BLAST サーバーへ直接アクセス
H-Inv BLASTサーバーのトップ検索画面には以下のURLからアクセスできます。
http://h-invitational.jp/hinv/blast/blasttop_jp.cgi
4.9.3 BLASTを用いた相同性検索の実行例
初めにFASTA形式の配列を図に示されるテキスト入力欄にペーストします。
Fig. 4.9.1に示す"ファイルを選択"ボタンをクリックし、ファイルが保存されているパスを指定することで、配列をFASTA形式のファイルとしてディスクから読み込むこともできます。
Fig.4.9.1 BLAST検索ページの図
FASTA形式はPearson3によって考案された配列データのシンプルな記述形式の一つであり、その基本的な形式は以下に示す通りです。
>sp|P05064|ALFA_MOUSE Fructose-bisphosphate aldolase A (EC 4.1.2.13) (Muscle-type aldolase) (Aldolase 1) - Mus musculus (Mouse).
PHPYPALTPEQKKELSDIAHRIVAPGKGILAADESTGSIAKRLQSIGTENTEENRRFYRQ
LLLTADDRVNPCIGGVILFHETLYQKADDGRPFPQVIKSKGGVVGIKVDKGVVPLAGTNG
ETTTQGLDGLSERCAQYKKDGADFAKWRCVLKIGEHTPSALAIMENANVLARYASICQQN
GIVPIVEPEILPDGDHDLKRCQYVTEKVLAAVYKALSDHHVYLEGTLLKPNMVTPGHACT
QKFSNEEIAMATVTALRRTVPPAVTGVTFLSGGQSEEEASINLNAINKCPLLKPWALTFS
YGRALQASALKAWGGKKENLKAAQEEYIKRALANSLACQGKYTPSGQSGAAASESLFISN
HAY
配列の初めの行はその配列についての記述をする行であり、必ず">"で始まり、改行コードで終わります。
配列は次の行から始まり、改行コードにて終了します。複数の配列を記述することも可能です。
相互運用性の観点から、配列の記述行には空白文字を使用しないようにして下さい。
FASTA形式に関する詳しい説明に関してはこちらをご参照下さい。アルファベット以外の文字も利用できること等が記述されております。
次にFig. 4.9.1に表示されているプルダウンメニューを使って相同性検索の種類を選択します。それらのオプションは次に示すものがあります。
- BLASTP ---アミノ酸配列 の問い合わせ配列を用いて アミノ酸配列 のデータベースを検索します。
- BLASTN ---塩基配列の問い合わせ配列を用いて 塩基配列 のデータベースを検索します。
- BLASTX ---全ての読み枠においてアミノ酸配列に翻訳された塩基配列の問い合わせ配列を用いてアミノ酸配列のデータベースを検索します。
- TBLASTN---アミノ酸配列 の問い合わせ配列を用いて 動的に全ての読み枠に翻訳された塩基配列のデータベースを検索します。
- TBLASTX---6種類の読み枠で翻訳された塩基配列の問い合わせ配列を用いて 6種類の読み枠にて翻訳された塩基配列 のデータベースを検索します。
次に、相同性検索の対象となるデータベースをFig. 4.9.1に示されているラジオボタンより選択します。
対象となる配列データベースは問い合わせ配列の種類(塩基配列 or アミノ酸配列)と実行される検索の種類(塩基配列 vs 塩基配列 , アミノ酸配列 vs アミノ酸配列 , 塩基配列 vs アミノ酸配列 , アミノ酸配列 vs 塩基配列)に依存します。
データベースの種類
塩基配列データベース
- 全HITの塩基配列データセット
- 代表配列の塩基配列データセット
- H-Inv完全長cDNAの塩基配列データセット
- H-Inv 全遺伝子座のゲノム配列
アミノ酸配列データベース
- 全HITのアミノ酸配列データセット
- 代表配列のアミノ酸配列データセット
- H-Inv完全長cDNAのアミノ酸配列データセット
配列の入力欄へ目的の配列を入力し、適切なプログラムとデータベースを選択した後、BLASTによる相同性検索を行うことができます。特に指定が無い限り、BLASTの各種パラメータは以下のデフォルト値が指定されています。
- Low Complexity filtering [低複雑配列のフィルタリング]----------------------------------有効
- Lookup table filtering [BLASTルックアップテーブルのフィルタリング]-------------無効
- Expectation factor [期待値]----------------------------------------------------------------------------10.
- Matrix [使用されるスコア行列]--------------------------------------------------------------------BLOSUM 62.
- Ungapped alignment [ギャップ無しのアラインメント]-------------------------------------無効
- Query Genetic codes [コドン使用表 ]------------------------------------------------standard.
- Out of frame (OOF) frame shift penalty [OOFペナルティ]---------------------------------------無効
- Advanced options [その他のオプション]---------------------------------------------------------無し
- Graphical overview [ヒットのグラフィカル表示]---------------------------------------------有効
- Alignment view [アラインメント表示方法]-----------------------------------------------------Pairwise.
- description [表示するヒットの最大数]-----------------------------------------------------------100.
- alignments reported [表示するアラインメントの最大数]------------------------------------50.
- Color schema [色付けの方法]------------------------------------------------------------------------1.
緑色のテキスト = 複数のオプション
赤色のテキスト = オン
青色のテキスト = オフ
相同性検索は配列入力欄の下の"search"ボタンをクリックすることで開始します(Fig. 4.9.1)。また、"clear sequence"ボタンをクリックすることで、入力配列を取り消すことができます(Fig. 4.9.1)。
Fig. 4.9.1に示す選択欄を設定することで、デフォルトパラメータ以外のパラメータを用いて相同性検索を行うことができます。
それぞれのオプションに関する説明
- 低複雑配列のフィルタリング (Low Complexity Filtering)
このオプションは問い合わせ配列の中で塩基の構成が複雑でない部分(低複雑配列、反復配列)をマスクし、相同性検索検索時に使用しません。この塩基構成が複雑でない部位は WoottonとFederhen4らによって作成された "SEG"プログラムによって決定されます。
なぜ低複雑部位をマスクするのか?
マスクを行うことで、統計的には有意であるが、生物学的にはあまり意味の無い出力をBLASTの出力から除くことができます。(例えば、共通の酸性、塩基性アミノ酸のリピートやプロリン過剰な領域など)この操作はより重要な意味のある相同部位の検出には影響を与えません。
低複雑配列のマスクに関する問題点
SWISS-PROTに登録されているタンパク質配列データベースに適用される場合は、マスクによる効果を得ることが望めないため、SEGによるマスクは通常行いません。さらに、問い合わせ配列全体がマスクされる場合がありますが、この場合マスクを行わないで得られた相同性検索結果の統計的有意性は疑わしいと考えられます。
フィルタリングに関する詳細な説明はこちらのページにて参照することができます。
- "lookup table"のフィルタリング (BLAST lookup table filter)
このオプションは未だ実験的な段階にあり、将来的に変更されることが考えられます。このオプションはBLASTによって用いられる"lookup table"を構築する際に用いられます。
BLASTの相同性検索の伸張の際にはマスクを無視して行われます。
- E-valueの閾値 (Expectation factor)
データベース配列に対してのヒットを出力する際の統計的有意性の閾値です。デフォルトの値は10であり、この10という値はKarlin と Altschul2らの確率モデルによって算出される値であり、同程度の大きさのデータベースの検索を行った場合、10回のマッチが偶然でも起こりうることを示しています。
もし得られた統計的有意性が与えられた閾値よりも低い場合は相同性検索の結果として出力されますが、高い場合は出力されません。低い値ほど厳しい条件であることを示しており、少ないマッチしか出力しません。
- 相同性計算に用いられるスコア行列 (Substitution matrix used)
ペアワイズのアラインメントの質を決める重要な要素としてスコア行列があります。これは各々の塩基(またはアミノ酸)同士の組み合わせに与えるスコアを記述しています。
一般的に異なる程度にて分岐している配列間の相同性を決定するにあたり、異なるスコア行列が用いられます。
より詳細な記述はこちらのページにて閲覧できます。
- アラインメント中のギャップ挿入のオプション (Ungapped alignment option)
このボックスのチェックを外すことで配列のアラインメントにギャップが挿入されることを許容します。
- コドン使用表 (Query Genetic codes)
BLASTX(問い合わせ配列には翻訳された塩基配列、データベースにはタンパク質配列が用いられる)のプログラムを用いる際、翻訳に用いられるgenetic code(遺伝暗号)を指定することができます。標準のgenetic codeがデフォルトで用いられています。
- OOFフレームシフトペナルティのオプション (Out of frame (OOF) frame shift penalty )
読み枠の外側にフレームシフトが挿入される場合にペナルティを適用するかどうかをこのオプションで決定します。
- その他テキストで指定するオプション (Advanced options)
BLASTは元々テキストベースのツールであり、"UNIX-switch"タイプのオプションとともに用いられます。これらのスウィッチオプションを用いて"word size"やギャップペナルティなどを指定することができます。
これらのオプションに関しての詳細な説明はこちらのページにて参照することができます。
- グラフィック表示オプション (Graphical overview)
このオプションにより、問い合わせ配列上にアラインメントされたデータベース配列の全体像をグラフィカルに閲覧することができます。
各々のアラインメントに対するスコアはそのスコアの範囲によって分別された5つの異なる色によって表示されます。
データベース中の同一の配列に複数のアラインメントが存在する場合、横線によってそれらのアラインメントが繋げられます。
カーソルをヒット(横線で表示)の上にかざすと、そのスコアと定義が上部の窓に表示され、クリックすることで対応するアラインメントの詳細が表示されている部分へジャンプすることができます。
- アラインメント表示オプション (Alignment view)
"Alignment view"オプションはその目的に応じて様々なデータの表示方法を選択することができます。それらは"pairwise"(各々のアラインメントに関してのアラインメントを表示)、"hit table"(1ヒットー1行)等を含みます。
- ヒット結果表示件数 (Number of short description matches reported)
このオプションにより、BLASTのヒットの結果が表示される件数の最大値を設定することができます。(短いヒットの記述)
もし、与えられた最大値よりも多くの相同性検索のヒットがあった場合、スコアの高い順に最大件数まで表示されます。
- アラインメント表示件数 (Number of high scoring alignments reported)
このオプションにより、相同性検索によって得られたヒットのアラインメント情報が表示される件数の最大値を設定することができます。(アラインメントの詳細な記述)
もし、与えられた最大値よりも多くの相同性検索のヒットがあった場合、スコアの高い順に最大件数まで表示されます。
- アラインメント表示の色彩形式 (Color schema)
BLASTはデータの表示に関して様々な色彩形式を提供します。一般的な規則として、番号が上がるにつれて、より多くのアラインメントに関する情報が色づけされるようになっています。
表示形式に関しての詳細な情報は こちらに記述されています。
BLASTを用いた相同性検索の実行例
SWISS-PROTから取得した以下の配列 "Fructose-bisphosphate aldolase A" [http://us.expasy.org/sprot/]:を用いた相同性検索の実行。オプションはデフォルトを使用
>sp|P05064|ALFA_MOUSE Fructose-bisphosphate aldolase A (EC 4.1.2.13) (Muscle-type aldolase) (Aldolase 1) - Mus musculus (Mouse).
PHPYPALTPEQKKELSDIAHRIVAPGKGILAADESTGSIAKRLQSIGTENTEENRRFYRQ
LLLTADDRVNPCIGGVILFHETLYQKADDGRPFPQVIKSKGGVVGIKVDKGVVPLAGTNG
ETTTQGLDGLSERCAQYKKDGADFAKWRCVLKIGEHTPSALAIMENANVLARYASICQQN
GIVPIVEPEILPDGDHDLKRCQYVTEKVLAAVYKALSDHHVYLEGTLLKPNMVTPGHACT
QKFSNEEIAMATVTALRRTVPPAVTGVTFLSGGQSEEEASINLNAINKCPLLKPWALTFS
YGRALQASALKAWGGKKENLKAAQEEYIKRALANSLACQGKYTPSGQSGAAASESLFISN
HAY
BLASTの実行によって得られた結果は Fig. 4.9.2 - 4.9.4に示されています。Fig. 4.9.2はBLASTに関する文献情報、問い合わせ配列と比較されたデータセット、そして問い合わせ配列に関する情報が表示されています。
図の下の方に問い合わせ配列とそのヒット領域のグラフィカルな描画が表示されています。(上記の"グラフィック表示オプション"項を参照下さい)
Fig. 4.9.2 サンプル配列 EC 4.1.2.13 を用いた相同性検索の結果
Fig. 4.9.3 サンプル配列 EC 4.1.2.13の相同性検索の結果の中で最もスコアが高かったヒットのアラインメント出力画面
Fig. 4.9.3の上部はBLAST のヒットとそのスコア、E-value に関する情報が表示されています。
下部には対象となるデータベースから得られたベストヒットの配列が表示されています。
一番上に示されているのが問い合わせ配列、一番下に示されているのが対象の配列です。
また、それらの中間にはペアワイズのアラインメントが表示されていて、中央の行にはマッチ、ミスマッチ、ギャップが表示されています。
Fig. 4.9.4 サンプル配列 EC 4.1.2.13に対する相同性検索に用いられたパラメータ
Fig. 4.9.4には計算が実行された時間、対象となるデータベースに関する情報が表示されています。
それらの下にはBLASTの相同性検索に用いられたパラメータに関する情報(用いられた"スコア行列"、"ギャップペナルティ"等)が記載されています。
参考文献
- Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schafer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J, Lipman (1997), Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, Nucleic Acids Res. 25,3389-3402.
- Karlin, S., and Altschul, S. F. (1990) Method for assessing the statistical significance of molecular sequence features by using general scoring schemes, Proceedings of the National Academy of Science, USA 87, 2264-2268.
- Pearson, W. R. (1999) Flexible sequence similarity searching with the FASTA3 program package. Methods in Molecular Biology
- Wootton, J.C., Federhen, S. (1993) Statistics of local complexity in amino acid sequences and sequence databases. Computers &Chemistry 17, 149-163
更新日:2007年12月26日