ブログ – ページ 3 – Shimodaira Lab

2019-12-032019-12-03

第22回情報論的学習理論ワークショップ (IBIS 2019)において優秀プレゼンテーション賞を受賞

研究室メンバーの奥野彰文(理研AIP)らの共同研究が第22回情報論的学習理論ワークショップ (IBIS 2019)において優秀プレゼンテーション賞を受賞しました．

題名：ノンパラメトリックなリンク回帰とその理論的性質について
著者：奥野彰文(理研AIP),矢野恵佑(東大),下平英寿(京大/理研AIP)

第22回情報論的学習理論ワークショップ (IBIS 2019)のウェブサイト：
http://ibisml.org/ibis2019/

2019-09-192019-09-20

助教公募　（2019年11月25日まで）

統計学，機械学習（自然言語処理，画像処理など関連分野を含む）

京大ウェブサイトの公募情報

応募書類は，科学技術振興機構 JREC-IN Portal の「Web応募」にて提出してください

2019-08-302019-08-30

研究紹介の講演スライド (2019/08)

２つのトピックについてそれぞれ招待講演時に用いたパワーポイントのスライドは次からダウンロードできます．統計学のバックグラウンドがある非専門家向けの講演です．

（１）選択的推測 (selective inference)に関するもの

Multiscale Bootstrap for Selective Inference with Applications to Model Selection

DSSV2019 invited talk slide (2019/08/13)

（２）多ドメインデータの多変量解析やグラフ埋め込みに関するもの

Multiview graph embedding as a generalization of canonical correlation analysis

ISI WSC2019 presentation (2019/08/23)

2019-07-252019-07-27

選挙の得票数データの統計解析

2019年７月21日の参議院選挙で興味深いデータがあったので統計解析してみた．データはツイッター（@PokersonT）で見つけたものであるし，選挙のくわしい事情などは確認してないので，あくまでデータ解析の練習と考えてほしい．データは新潟県の投票総数と山田太郎の得票数である．次のように３７の市や区に分かれている．

このデータを整数に丸めて統計解析する．横軸に投票総数，縦軸に得票数をプロットする．１＝長岡市，２＝上越市，．．．，３７＝粟島浦村と番号をつけてある．赤い直線は平均得票率=0.797%を表している．２番の上越市だけが大きく下にずれているようにみえる．そこで「新潟県のすべての地域で投票傾向が同じでミスなどもなかったという前提条件」を仮定したうえで，統計解析をしてみる．

上の図で，緑の線分は９５％の確率で得票数がとる値の範囲を示している．つまり同じ条件で選挙を何度もやったとき，９５％の確率でこの区間に得票数がはいる．上越市以外はすべて９５％区間にはいっているが，上越市だけが大きく下にずれている．詳細を確認するために，上越市の得票数の確率分布（ヒストグラム）をみると．．．

この図では赤い直線が実際に観測した上越市の得票数=82である．ヒストグラムの左端にギリギリはいるくらいの位置に赤い直線がある．82かそれより小さい値をとる確率を計算すると0.0083%であった．82は平均より大幅に小さいが，逆に平均より大きくなる可能性も考えて確率を２倍したものを，事後確率＝0.017%とする．つまり，82という得票数になることは，きわめてめずらしい現象ということになる．ほんとうに珍しいことが起こったのかもしれないが，前提条件が満たされてなかった，と判断するのが自然だろう．

参考のために，３番めの中央区の得票数の分布をみると，実際の得票数=830を示す赤い直線は分布の平均よりすこし右にあって，これが珍しい得票数でないことがわかる．事後確率も22.5%と普通にありえる数値だ．つまり中央区ではとりたてて気になることはない．

ただしここでは多重検定の調整を行っていない．新潟県でも37地域あり，それぞれ候補者が何人かいる．だから個別に見ると珍しい現象でも，全体でみればどこかでそれが起こる確率はかなり大きくなる．事後確率＝0.017%の場合，３７地域のどこかでこれがおこるとした調整はもとの数値を37倍して0.62%となる．候補者も何人かいるし，全国どこかでそのような事が起こる確率は結構大きくなるはずだ．いわゆるp-hackingなどともいわれる行為と同じになるため，判断は慎重にする必要がある．

ここでの統計解析はベイズ推測を行っているが，一種の統計的仮説検定による推測も行った．検定のp値は中央区では21.1%とベイズ事後確率とほぼ同様の値になる．上越市以外ではすべてベイズ推測の事後確率と仮説検定のp値はほとんど同じ値になる．上越市の場合だけは２つの値がややことなるが，どちらも十分に小さい，という点で結論は一致する．用いた手法の性質上，事後確率が非常に小さい場合はその値自体の信頼性はややおちる．事後分布のサンプリングでは144000回の得票数を乱数を用いて生成しており，事後確率＝0.017%という値の精度（標準誤差x2)はせいぜい0.007程度と見積もれる．

統計モデルでは投票総数は固定しておき，得票数は各地域で２項分布に従うことを仮定している．２項分布の成功確率は地域ごとに異なる値をとり，それはベータ分布に従うことを仮定している．ベータ分布のパラメータは新潟県全体で同じと仮定している．

データ解析はRのstanを用いて行った．プログラムコードとデータをまとめたzipファイルはここからダウンロードできる．そこに含まれる分析結果のHTMLファイルとPDFファイルもそれぞれダウンロードできる．

追記（2019/7/26）上越市の８２票が外れ値かどうかを調べるための追加のデータ解析として，２番の上越市を取り除いて３６地域のデータだけから事後分布をつくり，そのうえで上越市の得票数の予測分布と事後確率を計算してみた．本来の予測分布のつかいたとしては，このほうが正しい．

すると，上越市の得票数82は事後分布のヒストグラムから外れすぎていて，確率が０と計算される．サンプリング数が144000だから，1/144000よりずっと小さければ０と計算されてしまう．p値も極めて小さい．当初の計算では上越市の得票数が外れ値だったとすると，その影響が大きすぎて得票数の分散が過大評価されていたため予測分布がひろがっていた．それを取り除くと上越市の得票数はますます珍しい結果とみなされる．したがって結論は昨日の分析と変わらない．

追加したプログラムコードをまとめたzipファイルはここからダウンロードできる．そこに含まれる分析結果のHTMLファイルとPDFファイルもそれぞれダウンロードできる．

追記（2019/07/27）プロットに矢印をいれてわかりやすくしました．

2019-07-032019-07-03

メンバーリスト更新（２０１９年度）

研究室のメンバーリストを2019年度版に更新しました

メンバー

2019-05-292019-05-29

負のサンプルサイズ（日本語の資料）

マルチスケール・ブートストラップでは負のサンプルサイズが出てきます．オリジナルデータのサンプリサイズをn，ブートストラップデータのサンプルサイズをn’とします．オリジナルデータからn’個の要素をリサンプリングしてブートストラップデータを作ります．このときn’=nとするのが普通のブートストラップです．マルチスケール・ブートストラップではn’>0の値をいくつか設定します．たとえばn’=0.5n, 1.0n, 1.5n みたいにします．するとブートストラップ確率という信頼度はn’の関数になります．この関数をスケーリング則といいます．スケーリング則の理論式をつかって，n’ = -nに外挿すると，頻度論の不偏なp-値が得られます．ちなみに普通のブートストラップでn’ = nとするのはベイズの事後確率に相当します．したがって，n’ = nから n’ = -nにすると，ベイズが頻度論になります．実際には分散=n/n’の関数としてスケーリング則を表します．分散＝1から０をとおって−１まで外挿しますので，n’でみるとn’=nから０の方向ではなく無限大の方向に動かします．n’=-nにどういう意味があるのかはよくわかりません．

（次の日本語資料では，n’をmと書いています）