ブログ – ページ 3 – Shimodaira Lab

2019-09-192019-09-20

助教公募　（2019年11月25日まで）

統計学，機械学習（自然言語処理，画像処理など関連分野を含む）

京大ウェブサイトの公募情報

応募書類は，科学技術振興機構 JREC-IN Portal の「Web応募」にて提出してください

2019-08-302019-08-30

研究紹介の講演スライド (2019/08)

２つのトピックについてそれぞれ招待講演時に用いたパワーポイントのスライドは次からダウンロードできます．統計学のバックグラウンドがある非専門家向けの講演です．

（１）選択的推測 (selective inference)に関するもの

Multiscale Bootstrap for Selective Inference with Applications to Model Selection

DSSV2019 invited talk slide (2019/08/13)

（２）多ドメインデータの多変量解析やグラフ埋め込みに関するもの

Multiview graph embedding as a generalization of canonical correlation analysis

ISI WSC2019 presentation (2019/08/23)

2019-07-252019-07-27

選挙の得票数データの統計解析

2019年７月21日の参議院選挙で興味深いデータがあったので統計解析してみた．データはツイッター（@PokersonT）で見つけたものであるし，選挙のくわしい事情などは確認してないので，あくまでデータ解析の練習と考えてほしい．データは新潟県の投票総数と山田太郎の得票数である．次のように３７の市や区に分かれている．

このデータを整数に丸めて統計解析する．横軸に投票総数，縦軸に得票数をプロットする．１＝長岡市，２＝上越市，．．．，３７＝粟島浦村と番号をつけてある．赤い直線は平均得票率=0.797%を表している．２番の上越市だけが大きく下にずれているようにみえる．そこで「新潟県のすべての地域で投票傾向が同じでミスなどもなかったという前提条件」を仮定したうえで，統計解析をしてみる．

上の図で，緑の線分は９５％の確率で得票数がとる値の範囲を示している．つまり同じ条件で選挙を何度もやったとき，９５％の確率でこの区間に得票数がはいる．上越市以外はすべて９５％区間にはいっているが，上越市だけが大きく下にずれている．詳細を確認するために，上越市の得票数の確率分布（ヒストグラム）をみると．．．

この図では赤い直線が実際に観測した上越市の得票数=82である．ヒストグラムの左端にギリギリはいるくらいの位置に赤い直線がある．82かそれより小さい値をとる確率を計算すると0.0083%であった．82は平均より大幅に小さいが，逆に平均より大きくなる可能性も考えて確率を２倍したものを，事後確率＝0.017%とする．つまり，82という得票数になることは，きわめてめずらしい現象ということになる．ほんとうに珍しいことが起こったのかもしれないが，前提条件が満たされてなかった，と判断するのが自然だろう．

参考のために，３番めの中央区の得票数の分布をみると，実際の得票数=830を示す赤い直線は分布の平均よりすこし右にあって，これが珍しい得票数でないことがわかる．事後確率も22.5%と普通にありえる数値だ．つまり中央区ではとりたてて気になることはない．

ただしここでは多重検定の調整を行っていない．新潟県でも37地域あり，それぞれ候補者が何人かいる．だから個別に見ると珍しい現象でも，全体でみればどこかでそれが起こる確率はかなり大きくなる．事後確率＝0.017%の場合，３７地域のどこかでこれがおこるとした調整はもとの数値を37倍して0.62%となる．候補者も何人かいるし，全国どこかでそのような事が起こる確率は結構大きくなるはずだ．いわゆるp-hackingなどともいわれる行為と同じになるため，判断は慎重にする必要がある．

ここでの統計解析はベイズ推測を行っているが，一種の統計的仮説検定による推測も行った．検定のp値は中央区では21.1%とベイズ事後確率とほぼ同様の値になる．上越市以外ではすべてベイズ推測の事後確率と仮説検定のp値はほとんど同じ値になる．上越市の場合だけは２つの値がややことなるが，どちらも十分に小さい，という点で結論は一致する．用いた手法の性質上，事後確率が非常に小さい場合はその値自体の信頼性はややおちる．事後分布のサンプリングでは144000回の得票数を乱数を用いて生成しており，事後確率＝0.017%という値の精度（標準誤差x2)はせいぜい0.007程度と見積もれる．

統計モデルでは投票総数は固定しておき，得票数は各地域で２項分布に従うことを仮定している．２項分布の成功確率は地域ごとに異なる値をとり，それはベータ分布に従うことを仮定している．ベータ分布のパラメータは新潟県全体で同じと仮定している．

データ解析はRのstanを用いて行った．プログラムコードとデータをまとめたzipファイルはここからダウンロードできる．そこに含まれる分析結果のHTMLファイルとPDFファイルもそれぞれダウンロードできる．

追記（2019/7/26）上越市の８２票が外れ値かどうかを調べるための追加のデータ解析として，２番の上越市を取り除いて３６地域のデータだけから事後分布をつくり，そのうえで上越市の得票数の予測分布と事後確率を計算してみた．本来の予測分布のつかいたとしては，このほうが正しい．

すると，上越市の得票数82は事後分布のヒストグラムから外れすぎていて，確率が０と計算される．サンプリング数が144000だから，1/144000よりずっと小さければ０と計算されてしまう．p値も極めて小さい．当初の計算では上越市の得票数が外れ値だったとすると，その影響が大きすぎて得票数の分散が過大評価されていたため予測分布がひろがっていた．それを取り除くと上越市の得票数はますます珍しい結果とみなされる．したがって結論は昨日の分析と変わらない．

追加したプログラムコードをまとめたzipファイルはここからダウンロードできる．そこに含まれる分析結果のHTMLファイルとPDFファイルもそれぞれダウンロードできる．

追記（2019/07/27）プロットに矢印をいれてわかりやすくしました．

2019-07-032019-07-03

メンバーリスト更新（２０１９年度）

研究室のメンバーリストを2019年度版に更新しました

メンバー

2019-05-292019-05-29

負のサンプルサイズ（日本語の資料）

マルチスケール・ブートストラップでは負のサンプルサイズが出てきます．オリジナルデータのサンプリサイズをn，ブートストラップデータのサンプルサイズをn’とします．オリジナルデータからn’個の要素をリサンプリングしてブートストラップデータを作ります．このときn’=nとするのが普通のブートストラップです．マルチスケール・ブートストラップではn’>0の値をいくつか設定します．たとえばn’=0.5n, 1.0n, 1.5n みたいにします．するとブートストラップ確率という信頼度はn’の関数になります．この関数をスケーリング則といいます．スケーリング則の理論式をつかって，n’ = -nに外挿すると，頻度論の不偏なp-値が得られます．ちなみに普通のブートストラップでn’ = nとするのはベイズの事後確率に相当します．したがって，n’ = nから n’ = -nにすると，ベイズが頻度論になります．実際には分散=n/n’の関数としてスケーリング則を表します．分散＝1から０をとおって−１まで外挿しますので，n’でみるとn’=nから０の方向ではなく無限大の方向に動かします．n’=-nにどういう意味があるのかはよくわかりません．

（次の日本語資料では，n’をmと書いています）

2019-05-152019-05-15

高度AI人材になろう（AI関連分野のトップ会議）

高度AI人材になろう（スライドPDF）ダウンロード

2019-04-232019-04-23

専攻入試説明会と研究室見学（2019/05)

京都大学大学院　情報学研究科システム科学専攻の入試説明会に合わせて，研究室見学を行います．できれば事前にメール連絡をください．

研究室見学の前に論文みると良いです

第１回　2019/5/18（土）
研究室見学：11:30~12:30 （工学部総合校舎１０９号室）
専攻入試説明会：13:00~15:00（工学部総合校舎２１３号室）

第２回　2019/5/21（火）
研究室見学：15:00~16:00 （工学部総合校舎１０９号室）
専攻入試説明会：16:30~18:30（工学部総合校舎２１３号室）

専攻入試説明会のウェブサイトは
http://www.sys.i.kyoto-u.ac.jp/exam/index.html

2019-04-042019-04-04

配属説明会の研究室紹介のスライド（2019/04/04）

スライドPDF

2019-03-242019-03-24

京都大学の数理工学コースは今年６０周年記念

京都大学工学部情報学科には計算機科学コースと数理工学コースがありますが，弊研究室の属する後者は今年６０周年記念を迎えます．2019年10月には記念出版や記念シンポジウムが予定されています．詳細は下記URLを参照してください．

2019年に数理工学は60周年を迎えます
「数理工学」の名を冠する専攻・学科・コースの英訳は，Applied Mathematics and Physics, Ｍathematical Engineering, Ｍathematical Sciencesと様々あることからわかるように，数理工学で行われている研究の内容は一律ではありません．最近では数理工学と関わりが深い人工知能やデータサイエンスが大きく発展していますが，数理工学は工学・社会・人間・経済・自然現象など森羅万象を扱う工学・数学・情報学にまたがる学際的分野とされることが多いようです．
京都大学の数理工学科は1959年に誕生し，それより少し前に誕生した東京大学の数理工学コースと並んで日本の数理工学を牽引してきました．2019年は数理工学科が誕生して60周年にあたります．研究者・学生等として京都大学の数理工学科・数理工学コースを担当する研究室に所属したことがある方々だけでなく広く数理工学に関心のある方々を対象として，ここに「数理工学誕生60周年記念ホームページ」を開設しました．
数理会幹事中村佳正
https://www.suurikai.net

ちなみに東京大学の数理工学コースは1951年設立のようです．詳細は次の東大のサイト「理念と歴史（数理情報工学）」で説明されています．