放牧23日目-1「NetStart」についての調査-6(NetStartの元論文内容-1)

111003 17:00〜19:00
111006 10:00〜11:45

今回から、NetStartの内容について発表した論文について説明します。

まず、タイトルは次のようです。

Neural network prediction of translation initiation sites in
eukaryotes: perspectives for EST and genome analysis.

(A. G. Pedersen and H. Nielsen, ISMB: 5, 226-233, 1997. )

以下、注意すべきであると考えた内容を箇条書きにしていきます。

・今回ターゲットとしているmRNAにおける翻訳について、
　基本的には配列中に含まれる最初のAUGから翻訳が起こるが、違うこともある。

・mRNA中のAUGのうち最初ではないAUGが開始コドンとなるのは
　データ上10%以下である。
　そのため、最初のAUGを選ぶことで約90%の率でエラーのないmRNAの配列
　を選ぶことができるが後述の理由からその率は低下する。

・GenBankの核酸配列データ(mRNA配列と同等とみなす)では
　約40%の配列がその上流にトリプレットAUGを持つ・

・脊椎動物のinitiation siteはGCCACCaugGからであることが多い。

・データはGenBankのものを利用。
　ヒト、マウス、ウサギ、ラット、ブタ、アフツメ
　(これらの脊椎動物は、同じ開始コドンを持つ可能性が高いことがわかってる)

・これらの動物種に加えて、脊椎動物からは離れているという理由から
　シロイヌナズナもデータに採用。

・シークエンスの選び方としては
　　配列をスプライシング
　→エキソンのみを残す
　→開始点から上流10bp、下流150bp(開始コドンのAUGのAから比較した場合)を選び出す
　→シークエンスが不完全なものは除外。

・生物種間差によるファミリーやホモログの影響により、冗長性が生じるるが、
　アルゴリズムにより解消している。
　
・利用しているネットワークはリーディングフォワード型。

・脊椎動物では2684のmRNA中660個が最初のAUGがスタートコドンとなっている(25%)。

・シロイヌナズナでは412のmRNA中105個最初のAUGがスタートコドンとなっている(25%)。

・利用しているのはMCC型のネットワーク