放牧23日目-1「NetStart」についての調査-6(NetStartの元論文内容-1)
111003 17:00〜19:00
111006 10:00〜11:45
今回から、NetStartの内容について発表した論文について説明します。
まず、タイトルは次のようです。
Neural network prediction of translation initiation sites in
eukaryotes: perspectives for EST and genome analysis.
(A. G. Pedersen and H. Nielsen, ISMB: 5, 226-233, 1997. )
以下、注意すべきであると考えた内容を箇条書きにしていきます。
・今回ターゲットとしているmRNAにおける翻訳について、
基本的には配列中に含まれる最初のAUGから翻訳が起こるが、違うこともある。
・mRNA中のAUGのうち最初ではないAUGが開始コドンとなるのは
データ上10%以下である。
そのため、最初のAUGを選ぶことで約90%の率でエラーのないmRNAの配列
を選ぶことができるが後述の理由からその率は低下する。
・GenBankの核酸配列データ(mRNA配列と同等とみなす)では
約40%の配列がその上流にトリプレットAUGを持つ・
・脊椎動物のinitiation siteはGCCACCaugGからであることが多い。
・データはGenBankのものを利用。
ヒト、マウス、ウサギ、ラット、ブタ、アフツメ
(これらの脊椎動物は、同じ開始コドンを持つ可能性が高いことがわかってる)
・これらの動物種に加えて、脊椎動物からは離れているという理由から
シロイヌナズナもデータに採用。
・シークエンスの選び方としては
配列をスプライシング
→エキソンのみを残す
→開始点から上流10bp、下流150bp(開始コドンのAUGのAから比較した場合)を選び出す
→シークエンスが不完全なものは除外。
・生物種間差によるファミリーやホモログの影響により、冗長性が生じるるが、
アルゴリズムにより解消している。
・利用しているネットワークはリーディングフォワード型。
・脊椎動物では2684のmRNA中660個が最初のAUGがスタートコドンとなっている(25%)。
・シロイヌナズナでは412のmRNA中105個最初のAUGがスタートコドンとなっている(25%)。
・利用しているのはMCC型のネットワーク