放牧31日目-「Human Protein Reference Database」操作報告-続き-

3.Blast
 FASTA形式でnucleotideまたはprotein sequenceを入れることで、
 本データベース内に入れたsequenceの因子があるか検索してくれます。
 Blastという名の通り、本家Blastと同じように結果は配列の一致度が
 高いものから順に並べてくれます。
 なお、リンクをクリックすると引用した配列の元のページに飛んでくれ
 ますが、中にはリンク切れのものも存在するので注意が必要です。
 (サイトの作成者に尋ねてみることも考えています。)

4.FAQs
 このデータベースを作成した理由、使用方法、引用、注釈などについての
 回答が書かれています。
 他のデータベースとの違いや商業的利用を行う予定はあるかなど、
 ひと通りの解説を行なっていますが、その中で重要となるものを
 いくつかpick upしました。


 ・このデータベースでは1つのproteinが1つのcategoryに入れられている。
  (どのcategoryに入れられるかはそのタンパク質が「一般に」
  考えられている分類による。タンパク質が「分類される可能性がある」分類に
  入れられるわけではない。)

 ・in vivo / in vitroの扱いについて、mammalian cellで行われたin vivo
  実験のみをin vivoと表記している。
  例えばyeastを利用したTwo-Hybrid assayにおける
  positive interactionという
  結果が出た場合、yeast内でin vivoであってもmammalianでは不明なため
  in vitroという表記になっている。

 ・PDBのリンクがすべてのproteinに対して貼られている。

 ・Post-Translation Modification(PTMs)の情報については
  1種類のisoformの治験しかない場合にも、配列が同じであればすべての
isoformで起こると考えられるため、isoform全てにPTMsという
  結果を入れている。ただし、その際の引用論文では前述のような理由から
  isoformによっては治験がないものも存在する。

 ・遺伝子発現についてのデータは全てヒト細胞のものが利用されているが、
  細胞内局在やPTMs、他のタンパク質との相互作用のデータに関しては、
  ヒト以外の哺乳類のデータも利用されている。
  (実際、幾つかのタンパク質ではヒト⇔マウスの相互関連性が確認されて
  いるとの記述がある)
 
 ・isoformの情報に関してはGenBankではなく、Ref-seqの情報を
  利用している。

 ・