「みんなのPython勉強会」でトークしてきました

みんなのPython勉強会#57 祝5周年 – データサイエンス祭り!!

というイベントで講演させていただきました.

YouTube動画 の1:30〜2:03)

『統計学・機械学習における新しい手法のつくりかた』
下平英寿先生(京都大学、理化学研究所、@hshimodaira

データサイエンスでは統計学・機械学習の様々な手法が実践されています.テキストに載っている手法のアルゴリズムをPythonなどで実装しても問題が解決しないときは,自分で新しい手法を作ることになります.新型コロナウイルスの系統解析で用いられる手法や,深層学習のバッチ正規化に関連した手法をこれまでに考えました.このような新しい手法の作り方についてお話したいと思います.

配属のための研究室見学

この研究室への配属に興味ある学生の見学や相談は随時受け付けていますので,先生へメール(下平本多)で問い合わせてください.何度か見学に来てもいいです.

事前に研究室での研究内容についてイメージを持ってから訪問すると具体的な質問ができて有意義と思います.研究のページにある次の項目を訪問前に見てください.

  • 研究紹介のリンク: 研究ダイジェスト,研究紹介などをみると,どのような研究をやっているか,雰囲気わかると思います.そこで興味を持てれば,見学時に具体的な質問をしてください.
  • 論文被引用数: Google Scholarみると,論文が被引用数の多い順(人気順みたいなもの)に並んでいますので,過去のどのような研究が評価されているかがわかります.
  • 最近の論文: 研究室で書かれた最近の論文です.ちょっとむずかしいとは思いますが,ぜひいくつかクリックして眺めてください.ここに研究室の活動が集約されています.論文は研究室の「商品」とも言えます.

学士や修士の卒業研究はこちらにリストがありますので,参考にしてください.

研究室ではコアタイムはないですが,なるべく研究室に来て他のメンバーとも交流したほうが良いです.そのほうが研究テーマも決まりやすいし,研究も良い結果になることが多いです.研究室でお茶会みたいな企画をすることもありますが任意参加です.勉強に関しては,研究室ゼミ,個別の打ち合わせ,輪読が必須の活動です.輪読で読む本は学生が候補を提案して投票して決めています.

第22回情報論的学習理論ワークショップ (IBIS 2019)において優秀プレゼンテーション賞を受賞

研究室メンバーの奥野彰文(理研AIP)らの共同研究が第22回情報論的学習理論ワークショップ (IBIS 2019)において優秀プレゼンテーション賞を受賞しました.

題名:ノンパラメトリックなリンク回帰とその理論的性質について
著者:奥野彰文(理研AIP),矢野恵佑(東大),下平英寿(京大/理研AIP)

第22回情報論的学習理論ワークショップ (IBIS 2019)のウェブサイト:
http://ibisml.org/ibis2019/


研究紹介の講演スライド (2019/08)

2つのトピックについてそれぞれ招待講演時に用いたパワーポイントのスライドは次からダウンロードできます.統計学のバックグラウンドがある非専門家向けの講演です.

(1)選択的推測 (selective inference)に関するもの

Multiscale Bootstrap for Selective Inference with Applications to Model Selection

DSSV2019 invited talk slide (2019/08/13)

(2)多ドメインデータの多変量解析やグラフ埋め込みに関するもの

Multiview graph embedding as a generalization of canonical correlation analysis

ISI WSC2019 presentation (2019/08/23)

選挙の得票数データの統計解析

2019年7月21日の参議院選挙で興味深いデータがあったので統計解析してみた.データはツイッター(@PokersonT)で見つけたものであるし,選挙のくわしい事情などは確認してないので,あくまでデータ解析の練習と考えてほしい.データは新潟県の投票総数と山田太郎の得票数である.次のように37の市や区に分かれている.

このデータを整数に丸めて統計解析する.横軸に投票総数,縦軸に得票数をプロットする.1=長岡市,2=上越市,...,37=粟島浦村と番号をつけてある.赤い直線は平均得票率=0.797%を表している.2番の上越市だけが大きく下にずれているようにみえる.そこで「新潟県のすべての地域で投票傾向が同じでミスなどもなかったという前提条件」を仮定したうえで,統計解析をしてみる.

上の図で,緑の線分は95%の確率で得票数がとる値の範囲を示している.つまり同じ条件で選挙を何度もやったとき,95%の確率でこの区間に得票数がはいる.上越市以外はすべて95%区間にはいっているが,上越市だけが大きく下にずれている.詳細を確認するために,上越市の得票数の確率分布(ヒストグラム)をみると...

この図では赤い直線が実際に観測した上越市の得票数=82である.ヒストグラムの左端にギリギリはいるくらいの位置に赤い直線がある.82かそれより小さい値をとる確率を計算すると0.0083%であった.82は平均より大幅に小さいが,逆に平均より大きくなる可能性も考えて確率を2倍したものを,事後確率=0.017%とする.つまり,82という得票数になることは,きわめてめずらしい現象ということになる.ほんとうに珍しいことが起こったのかもしれないが,前提条件が満たされてなかった,と判断するのが自然だろう.

参考のために,3番めの中央区の得票数の分布をみると,実際の得票数=830を示す赤い直線は分布の平均よりすこし右にあって,これが珍しい得票数でないことがわかる.事後確率も22.5%と普通にありえる数値だ.つまり中央区ではとりたてて気になることはない.

ただしここでは多重検定の調整を行っていない.新潟県でも37地域あり,それぞれ候補者が何人かいる.だから個別に見ると珍しい現象でも,全体でみればどこかでそれが起こる確率はかなり大きくなる.事後確率=0.017%の場合,37地域のどこかでこれがおこるとした調整はもとの数値を37倍して0.62%となる.候補者も何人かいるし,全国どこかでそのような事が起こる確率は結構大きくなるはずだ.いわゆるp-hackingなどともいわれる行為と同じになるため,判断は慎重にする必要がある.

ここでの統計解析はベイズ推測を行っているが,一種の統計的仮説検定による推測も行った.検定のp値は中央区では21.1%とベイズ事後確率とほぼ同様の値になる.上越市以外ではすべてベイズ推測の事後確率と仮説検定のp値はほとんど同じ値になる.上越市の場合だけは2つの値がややことなるが,どちらも十分に小さい,という点で結論は一致する.用いた手法の性質上,事後確率が非常に小さい場合はその値自体の信頼性はややおちる.事後分布のサンプリングでは144000回の得票数を乱数を用いて生成しており,事後確率=0.017%という値の精度(標準誤差x2)はせいぜい0.007程度と見積もれる.

統計モデルでは投票総数は固定しておき,得票数は各地域で2項分布に従うことを仮定している.2項分布の成功確率は地域ごとに異なる値をとり,それはベータ分布に従うことを仮定している.ベータ分布のパラメータは新潟県全体で同じと仮定している.

データ解析はRのstanを用いて行った.プログラムコードとデータをまとめたzipファイルはここからダウンロードできる.そこに含まれる分析結果のHTMLファイルPDFファイルもそれぞれダウンロードできる.

追記(2019/7/26)上越市の82票が外れ値かどうかを調べるための追加のデータ解析として,2番の上越市を取り除いて36地域のデータだけから事後分布をつくり,そのうえで上越市の得票数の予測分布と事後確率を計算してみた.本来の予測分布のつかいたとしては,このほうが正しい.

すると,上越市の得票数82は事後分布のヒストグラムから外れすぎていて,確率が0と計算される.サンプリング数が144000だから,1/144000よりずっと小さければ0と計算されてしまう.p値も極めて小さい.当初の計算では上越市の得票数が外れ値だったとすると,その影響が大きすぎて得票数の分散が過大評価されていたため予測分布がひろがっていた.それを取り除くと上越市の得票数はますます珍しい結果とみなされる.したがって結論は昨日の分析と変わらない.

追加したプログラムコードをまとめたzipファイルはここからダウンロードできる.そこに含まれる分析結果のHTMLファイルPDFファイルもそれぞれダウンロードできる.

追記(2019/07/27)プロットに矢印をいれてわかりやすくしました.