研究概要

2004年5月

下平英寿

統計科学 (Statistical Science)

データから有用な情報を取り出すための数学的方法論

専門分野: 統計科学すなわちデータから有用な情報を取り出すための数学的方法論の研究。多量のデータを高速なコンピュータで処理して意味のある結論を導くには、複雑な現象を確率モデルで表現する方法が有用であることが多くの分野で示されている。この情報処理の「しかけ」を探求するのが統計科学である。近年ではゲノム科学とコンピュータ科学の融合ともいえるバイオインフォマティクスでも重要な役割を果たしている。


 データからいかにして有用な情報を取り出すか,というのが自分の興味の中心である.統計科学は,数学,コンピュータサイエンス,データという三つの要素の交わるところであり,非常に魅力的な分野である.しかしながら長い歴史の結果,「データ」や「情報」を特定の文脈に限定する弊害が目立つようになってきているというのが現状であろう.これを踏まえた上で,確立した方法論から得られる有用なアイデアを継承し,かつ,これまでの枠組みにとらわれない方法論を探求することが自分の目標である.


 近年の計算機環境の進歩はデータ解析の質的な変化をもたらしている.それまで時間をかけていた計算を速くするのではなく,今まで出来なかった計算が行われるようになってきた.ハードウエアの進歩と計算アルゴリズムの発展により,もはや解析的に解けるクラスに問題を限定する必要はなく,すでに多様なモデリングが科学・工学の様々な分野で現在行われている.この状況で必要になるデータ解析の方法論の再構築が求められている.数理的な考え方や手法が重要になるが,数理のための数理に陥らないように常に実世界の応用を意識し,そこから新しい問題を定式化するよう心がけている.

 現在進行中のおもな研究は「リサンプリングによるモデル信頼集合の構成法とその応用」である.本研究のテーマは,多くの候補となる確率モデル(すなわち仮説)についてその妥当性をデータに照らし合わせて定量的に評価し,それぞれのモデルについて確率値として表現する方法である.非妥当性が有意に示されないモデルを選び出してきてこれを列挙したものがモデル信頼集合であり,データから予想されるシナリオの一覧と解釈できる.近年様々な分野で多量のデータが蓄積されるに伴い,データマイニング等と称して非常に多くの仮説が同時に探索されるようになってきており,このような状況でも仮説の妥当性を定量的に正しく評価できる方法の重要性は増している.

 本研究の一つの側面はブートストラップリサンプリング法やマルコフ連鎖モンテカルロ法などの確率モデルに基づいたシミュレーション技法であり,これは数理理論としても実用アルゴリズムとしても近年発展している.別の側面は情報幾何であり,相対エントロピーから導かれるモデル多様体の曲率などの理論が本質的な役割を果たす.本研究の前身は下平 (1993), Shimodaira (1998)で提案した多重比較法によるモデル信頼集合である.これを分子遺伝学に応用したShimodaira and Hasegawa (1999)の被引用回数は最初の2年間で36であり、Nature誌の平均25よりも大きな注目を集めたことを示している。現在もほぼ毎週のように引用されており,2004年5月現在までに350回の被引用回数となっている。また代表的なソフトウエアに組み込まれ標準手法の一つとしても近年定着しつつある.このようにバイオインフォマティクスへの応用にも積極的に取り組んでおり,最近公開したソフトウエアの利用者も増えつつある.

 学生の指導に関しては,できる限り多様な研究への参加を提供したい.理論的な研究,応用的な研究いずれに関しても,希望する修士,博士の学生には統数研などの他機関との共同研究プロジェクトにも積極的にかかわる機会を提供する.この一方で,数理をじっくりやりたい学生にも問題意識をもってもらえるよう刺激をあたえ続けたい.こちらの考え方を押し付けないような注意を払うつもりである.