放牧23日目-1「NetStart」についての調査-6(NetStartの元論文内容-1)

111003 17:00〜19:00
111006 10:00〜11:45

今回から、NetStartの内容について発表した論文について説明します。

まず、タイトルは次のようです。

Neural network prediction of translation initiation sites in
eukaryotes: perspectives for EST and genome analysis.

(A. G. Pedersen and H. Nielsen, ISMB: 5, 226-233, 1997. )

以下、注意すべきであると考えた内容を箇条書きにしていきます。


・今回ターゲットとしているmRNAにおける翻訳について、
 基本的には配列中に含まれる最初のAUGから翻訳が起こるが、違うこともある。

・mRNA中のAUGのうち最初ではないAUGが開始コドンとなるのは
 データ上10%以下である。
 そのため、最初のAUGを選ぶことで約90%の率でエラーのないmRNAの配列
 を選ぶことができるが後述の理由からその率は低下する。

GenBank核酸配列データ(mRNA配列と同等とみなす)では
 約40%の配列がその上流にトリプレットAUGを持つ・

脊椎動物のinitiation siteはGCCACCaugGからであることが多い。

・データはGenBankのものを利用。
 ヒト、マウス、ウサギ、ラット、ブタ、アフツメ
 (これらの脊椎動物は、同じ開始コドンを持つ可能性が高いことがわかってる)

・これらの動物種に加えて、脊椎動物からは離れているという理由から
 シロイヌナズナもデータに採用。

・シークエンスの選び方としては
  配列をスプライシング
 →エキソンのみを残す
 →開始点から上流10bp、下流150bp(開始コドンのAUGのAから比較した場合)を選び出す
 →シークエンスが不完全なものは除外。

・生物種間差によるファミリーやホモログの影響により、冗長性が生じるるが、
 アルゴリズムにより解消している。
 
・利用しているネットワークはリーディングフォワード型。

脊椎動物では2684のmRNA中660個が最初のAUGがスタートコドンとなっている(25%)。

シロイヌナズナでは412のmRNA中105個最初のAUGがスタートコドンとなっている(25%)。

・利用しているのはMCC型のネットワーク