2002年4月
下平英寿
近年の急速なゲノム科学の発展により、生物種の遺伝情報を担うDNAデータが蓄積されて来た。例えて言うならDNAはA, T, G, Cの4文字だけを使って書かれた非常に長い文章であり、生物の設計図でもある(図1)。すべての生物は独自のDNAを持っていて、遺伝的な個性はDNAに反映されている。地球上における長い進化の過程においてDNAは突然変異によって少しずつ変化し、系統樹によって表されるような分岐の結果、現在の多様な生物を形成した(図2)。
遺伝的に近い生物同士はDNAにも共通部分が多い。例えばヒトとチンパンジーのDNAを比較するとその違いはわずかであるが、ヒトとウシではその違いはより大きい。ヒトとチンパンジーは、これらの共通祖先から数百万年前という進化の歴史では比較的最近に分岐したばかりであり、DNAがあまり変化していないからである。DNAの違いは分岐が古くなるにつれ大きくなる。このことを逆に利用すれば、蓄積されたDNAデータを比較し統計科学の手法を用いることによって生物の進化を推測することが可能になる。
DNAの変化には偶然が作用するが,まったくデタラメというわけではなく一定の傾向がある.ここに潜む法則を数学的に表現するために確率モデルの一種であるマルコフ過程が用いられる.DNAの平均的な変化は時間にほぼ比例しているが,例えば文字AがTに変化する確率とAがGに変化する確率は一般に異なるし,A, T, G, Cの頻度も4分の1ずつというわけではない.DNAの場所によって変化率も異なる.生命の維持に本質的な部分は,ほとんど変化しない.確率モデルはこのような法則を柔軟に表現する能力がある.
多様なモデリングが可能であっても、それが現実を十分に説明しているとは限らない。進化の法則には様々な仮説があり、それに対応した確率モデルがある。新しい仮説を提案し、どの仮説が真実かを追究することがまさに科学の営みである。確率モデルを使いこなすには、まず生物学の知識など我々の知恵をモデルに反映させる。そして未知の部分を推測するためにデータが利用される。統計学の基本原理である尤度法を一般化した赤池情報量規準という方法を用いることにより、データに含まれる情報量をモデルに照らし合わせて測り、そして候補となる様々なモデルの中から最も良いモデルを選択する。
系統樹の形は生物がどのような順序で分岐したかというシナリオを表している。例えば7種の生物では可能な系統樹の形は945通りある。それぞれのシナリオが仮説であり対応する確率モデルがあるので、情報量を測って良い系統樹を選択する。データに含まれる情報量は有限であり100%確実な推測は不可能であるから、偶然によって誤った結論に導かれる可能性が常にある。そこで信頼性を0%から100%までの値をとる確率値で表し、信頼性が例えば5%以上あるようなシナリオを列挙する。
確率値の計算には統計的シミュレーション技法であるブートストラップ法を用いる。これはオリジナルデータからバラツキを反映した複製データを例えば100回生成し、そのうち何個の複製データがシナリオを支持したかという回数を数えて確率値とする方法である。ブートストラップ法は様々なデータ解析で広く用いられているが、実はあまり精度が高くないことが分かってきた。そこで情報空間における確率モデルの形や歪みといった幾何を抽象的に扱う数学理論を用いて新たにマルチスケールブートストラップ法を開発した。これにより非常に精度の高い確率値を計算できるようになった。
哺乳類のDNAデータを比較して図2左のような系統樹が推定され数年前のNature誌に報告された。従来ウサギとネズミは近縁であると考えられていたので、ウサギはむしろヒトに近いという仮説を意味する図2左は驚くべき結果であった。ところがその後得られた最新データも加えて再分析すると図2右が支持されて結局ウサギとネズミが近縁だとする従来の仮説に戻ってしまった。図2左を得る際には低精度の信頼性計算法が用いられていた。一方、われわれの高精度な方法を用いれば当時のデータを用いても図2右の可能性が示唆される。多量のデータを分析することによって生じる見かけ上の発見が本物かどうかを正しく見極めるには、最新の手法を用いる必要があったのである。
ゲノム科学に限らず様々な分野で同様の現象が現在進行していると考えられる。データの急速な蓄積によって統計科学の果たすべき役割はこれまで以上に重要なものとなっている。大量のデータから意味のある情報を取り出すには優れたデータ分析法が必要である。統計科学から導かれる高度な方法は、それを実現可能にするコンピュータや計算技法の発展にも支えられ、現在も進歩を続けている。