放牧31日目-「Human Protein Reference Database」操作報告-続き-
3.Blast
FASTA形式でnucleotideまたはprotein sequenceを入れることで、
本データベース内に入れたsequenceの因子があるか検索してくれます。
Blastという名の通り、本家Blastと同じように結果は配列の一致度が
高いものから順に並べてくれます。
なお、リンクをクリックすると引用した配列の元のページに飛んでくれ
ますが、中にはリンク切れのものも存在するので注意が必要です。
(サイトの作成者に尋ねてみることも考えています。)
4.FAQs
このデータベースを作成した理由、使用方法、引用、注釈などについての
回答が書かれています。
他のデータベースとの違いや商業的利用を行う予定はあるかなど、
ひと通りの解説を行なっていますが、その中で重要となるものを
いくつかpick upしました。
・このデータベースでは1つのproteinが1つのcategoryに入れられている。
(どのcategoryに入れられるかはそのタンパク質が「一般に」
考えられている分類による。タンパク質が「分類される可能性がある」分類に
入れられるわけではない。)
・in vivo / in vitroの扱いについて、mammalian cellで行われたin vivo
実験のみをin vivoと表記している。
例えばyeastを利用したTwo-Hybrid assayにおける
positive interactionという
結果が出た場合、yeast内でin vivoであってもmammalianでは不明なため
in vitroという表記になっている。
・PDBのリンクがすべてのproteinに対して貼られている。
・Post-Translation Modification(PTMs)の情報については
1種類のisoformの治験しかない場合にも、配列が同じであればすべての
isoformで起こると考えられるため、isoform全てにPTMsという
結果を入れている。ただし、その際の引用論文では前述のような理由から
isoformによっては治験がないものも存在する。
・遺伝子発現についてのデータは全てヒト細胞のものが利用されているが、
細胞内局在やPTMs、他のタンパク質との相互作用のデータに関しては、
ヒト以外の哺乳類のデータも利用されている。
(実際、幾つかのタンパク質ではヒト⇔マウスの相互関連性が確認されて
いるとの記述がある)
・isoformの情報に関してはGenBankではなく、Ref-seqの情報を
利用している。
・