近年ゲノム科学など様々な分野で膨大なデータが急速に蓄積されている.これか ら知識発見を行うために,データマイニングなどのデータ解析手法によって非常 に多くの仮説が同時に探索されることがある.このような状況では,データに内 在する確率的な揺らぎ,すなわちバラツキの影響が増幅されて誤った発見に導か れやすくなる.この影響を正しく評価することが重要である.
リサンプリング法はデータからのサンプリングによってバラツキを評価する一般 的な手法であり,一種の確率シミュレーション技法である.代表的なリサンプリ ング法であるブートストラップ法 (Efron 1979)が発表されて20年以上が経ち, 様々なデータ解析に利用されているが,その精度が必ずしも十分でないことが分 かってきた.より精度の高い方法が必要である.
現実のデータ解析は手続きが複雑で出力も多様である.そこで広範な応用を可能 にするために,興味のある仮説を支持したか否かという二者択一の結果だけを計 算に利用する方法を考える.ブートストラップ法によって生成した多数の複製デー タが仮説を支持した頻度はブートストラップ確率と呼ばれ,バイオインフォマティ クスの応用で以前から利用されている (Felsenstein 1985).ブートストラップ 確率は,仮説検定の確率値として解釈できる.一般にサンプルサイズ の増加 に対して検定のバイアスが に比例して小さくなるとき, 次の精度 の近似的に不偏な検定という.ブートストラップ確率の精度は1次であり,十分 とはいえない.
データの背後にある確率モデルや興味のある仮説を反映して距離や曲率といった 幾何学的な量が定義できる.この幾何学的な量を用いてブートストラップ確率を 表現することが可能であり,さらに不偏な確率値を表現することも可能である (Efron and Tibshirani 1998).複製データのサンプルサイズを から に 変化させると,バラツキのスケールが 倍されるが,このとき のブートストラップ確率の変化は の多項式で表現できて,その係数が幾何 学的な量に対応する (Shimodaira 2002).この事実を利用したのがマルチスケー ル・ブートストラップ法であり,ブートストラップ確率の変化率から3次の精度 の確率値が計算できる.この新しい原理によって, -formula (Barndorff-Nielsen 1986)やダブルブートストラップ法(Hall 1992)と数学的に 等価な確率値を容易に計算することが可能になった (Shimodaira, in press).
データの確率モデルは,なんらかの非線形変換によって指数型分布族として表現 できるものと仮定する.しかしその変換を実際に知る必要はない.つまり確率モ デルや仮説の曲面を解析的に与える必要はない.手法の導出にはWeylのチューブ 公式と同様の座標系を用いる.Edgeworth漸近展開の計算を3次の精度で行うの は煩雑であり,数式処理ソフトウエア(MathematicaおよびMathTensor)を用いて証明を行った(Shimodaira 2004).
以下ではまず4節まで用語の定義など行い, 5節から8節までは例を用いながら提案手法 を説明する.9節から11節はテクニカルな側面を 説明する.