選挙の得票数データの統計解析

2019年7月21日の参議院選挙で興味深いデータがあったので統計解析してみた.データはツイッター(@PokersonT)で見つけたものであるし,選挙のくわしい事情などは確認してないので,あくまでデータ解析の練習と考えてほしい.データは新潟県の投票総数と山田太郎の得票数である.次のように37の市や区に分かれている.

このデータを整数に丸めて統計解析する.横軸に投票総数,縦軸に得票数をプロットする.1=長岡市,2=上越市,...,37=粟島浦村と番号をつけてある.赤い直線は平均得票率=0.797%を表している.2番の上越市だけが大きく下にずれているようにみえる.そこで「新潟県のすべての地域で投票傾向が同じでミスなどもなかったという前提条件」を仮定したうえで,統計解析をしてみる.

上の図で,緑の線分は95%の確率で得票数がとる値の範囲を示している.つまり同じ条件で選挙を何度もやったとき,95%の確率でこの区間に得票数がはいる.上越市以外はすべて95%区間にはいっているが,上越市だけが大きく下にずれている.詳細を確認するために,上越市の得票数の確率分布(ヒストグラム)をみると...

この図では赤い直線が実際に観測した上越市の得票数=82である.ヒストグラムの左端にギリギリはいるくらいの位置に赤い直線がある.82かそれより小さい値をとる確率を計算すると0.0083%であった.82は平均より大幅に小さいが,逆に平均より大きくなる可能性も考えて確率を2倍したものを,事後確率=0.017%とする.つまり,82という得票数になることは,きわめてめずらしい現象ということになる.ほんとうに珍しいことが起こったのかもしれないが,前提条件が満たされてなかった,と判断するのが自然だろう.

参考のために,3番めの中央区の得票数の分布をみると,実際の得票数=830を示す赤い直線は分布の平均よりすこし右にあって,これが珍しい得票数でないことがわかる.事後確率も22.5%と普通にありえる数値だ.つまり中央区ではとりたてて気になることはない.

ただしここでは多重検定の調整を行っていない.新潟県でも37地域あり,それぞれ候補者が何人かいる.だから個別に見ると珍しい現象でも,全体でみればどこかでそれが起こる確率はかなり大きくなる.事後確率=0.017%の場合,37地域のどこかでこれがおこるとした調整はもとの数値を37倍して0.62%となる.候補者も何人かいるし,全国どこかでそのような事が起こる確率は結構大きくなるはずだ.いわゆるp-hackingなどともいわれる行為と同じになるため,判断は慎重にする必要がある.

ここでの統計解析はベイズ推測を行っているが,一種の統計的仮説検定による推測も行った.検定のp値は中央区では21.1%とベイズ事後確率とほぼ同様の値になる.上越市以外ではすべてベイズ推測の事後確率と仮説検定のp値はほとんど同じ値になる.上越市の場合だけは2つの値がややことなるが,どちらも十分に小さい,という点で結論は一致する.用いた手法の性質上,事後確率が非常に小さい場合はその値自体の信頼性はややおちる.事後分布のサンプリングでは144000回の得票数を乱数を用いて生成しており,事後確率=0.017%という値の精度(標準誤差x2)はせいぜい0.007程度と見積もれる.

統計モデルでは投票総数は固定しておき,得票数は各地域で2項分布に従うことを仮定している.2項分布の成功確率は地域ごとに異なる値をとり,それはベータ分布に従うことを仮定している.ベータ分布のパラメータは新潟県全体で同じと仮定している.

データ解析はRのstanを用いて行った.プログラムコードとデータをまとめたzipファイルはここからダウンロードできる.そこに含まれる分析結果のHTMLファイルPDFファイルもそれぞれダウンロードできる.

追記(2019/7/26)上越市の82票が外れ値かどうかを調べるための追加のデータ解析として,2番の上越市を取り除いて36地域のデータだけから事後分布をつくり,そのうえで上越市の得票数の予測分布と事後確率を計算してみた.本来の予測分布のつかいたとしては,このほうが正しい.

すると,上越市の得票数82は事後分布のヒストグラムから外れすぎていて,確率が0と計算される.サンプリング数が144000だから,1/144000よりずっと小さければ0と計算されてしまう.p値も極めて小さい.当初の計算では上越市の得票数が外れ値だったとすると,その影響が大きすぎて得票数の分散が過大評価されていたため予測分布がひろがっていた.それを取り除くと上越市の得票数はますます珍しい結果とみなされる.したがって結論は昨日の分析と変わらない.

追加したプログラムコードをまとめたzipファイルはここからダウンロードできる.そこに含まれる分析結果のHTMLファイルPDFファイルもそれぞれダウンロードできる.

追記(2019/07/27)プロットに矢印をいれてわかりやすくしました.

負のサンプルサイズ(日本語の資料)

マルチスケール・ブートストラップでは負のサンプルサイズが出てきます.オリジナルデータのサンプリサイズをn,ブートストラップデータのサンプルサイズをn’とします.オリジナルデータからn’個の要素をリサンプリングしてブートストラップデータを作ります.このときn’=nとするのが普通のブートストラップです.マルチスケール・ブートストラップではn’>0の値をいくつか設定します.たとえばn’=0.5n, 1.0n, 1.5n みたいにします.するとブートストラップ確率という信頼度はn’の関数になります.この関数をスケーリング則といいます.スケーリング則の理論式をつかって,n’ = -nに外挿すると,頻度論の不偏なp-値が得られます.ちなみに普通のブートストラップでn’ = nとするのはベイズの事後確率に相当します.したがって,n’ = nから n’ = -nにすると,ベイズが頻度論になります.実際には分散=n/n’の関数としてスケーリング則を表します.分散=1から0をとおって−1まで外挿しますので,n’でみるとn’=nから0の方向ではなく無限大の方向に動かします.n’=-nにどういう意味があるのかはよくわかりません.

(次の日本語資料では,n’をmと書いています)

(IBIS2016のスライドより)


(日本統計学会誌 2012年の論文より)

専攻入試説明会と研究室見学(2019/05)

京都大学大学院 情報学研究科システム科学専攻の入試説明会に合わせて,研究室見学を行います.できれば事前にメール連絡をください.

研究室見学の前に論文みると良いです

第1回 2019/5/18(土)
研究室見学:11:30~12:30 (工学部総合校舎109号室)
専攻入試説明会:13:00~15:00(工学部総合校舎213号室)

第2回 2019/5/21(火)
研究室見学:15:00~16:00 (工学部総合校舎109号室)
専攻入試説明会:16:30~18:30(工学部総合校舎213号室)

専攻入試説明会のウェブサイトは
http://www.sys.i.kyoto-u.ac.jp/exam/index.html

京都大学の数理工学コースは今年60周年記念

京都大学工学部情報学科には計算機科学コースと数理工学コースがありますが,弊研究室の属する後者は今年60周年記念を迎えます.2019年10月には記念出版や記念シンポジウムが予定されています.詳細は下記URLを参照してください.

2019年に数理工学は60周年を迎えます
「数理工学」の名を冠する専攻・学科・コースの英訳は,Applied Mathematics and Physics, Mathematical Engineering, Mathematical Sciencesと様々あることからわかるように,数理工学で行われている研究の内容は一律ではありません.最近では数理工学と関わりが深い人工知能やデータサイエンスが大きく発展していますが,数理工学は工学・社会・人間・経済・自然現象など森羅万象を扱う工学・数学・情報学にまたがる学際的分野とされることが多いようです.
京都大学の数理工学科は1959年に誕生し,それより少し前に誕生した東京大学の数理工学コースと並んで日本の数理工学を牽引してきました.2019年は数理工学科が誕生して60周年にあたります.研究者・学生等として京都大学の数理工学科・数理工学コースを担当する研究室に所属したことがある方々だけでなく広く数理工学に関心のある方々を対象として,ここに「数理工学誕生60周年記念ホームページ」を開設しました.
数理会幹事 中村佳正

https://www.suurikai.net

ちなみに東京大学の数理工学コースは1951年設立のようです.詳細は次の東大のサイト「理念と歴史(数理情報工学)」で説明されています.

言語処理学会第25回年次大会(NLP2019)において若手奨励賞と最優秀ポスター賞を受賞

研究室メンバーのKIM, GEE WOOK(修士1年)が言語処理学会第25回年次大会(NLP2019)において若手奨励賞と最優秀ポスター賞を受賞しました.

題名:擬ユークリッド空間への単語埋め込み
著者:Kim Geewook, 奥野彰文, 下平英寿

言語処理学会第25回年次大会(NLP2019)のウェブサイト:http://www.anlp.jp/nlp2019/

単語埋め込み,選択的推測,複雑ネットワーク,情報量規準 (2019/02/28)

本年度の研究のうち,4つのテーマについてのまとめ.単語埋め込みは数年前から興味もってるもので,ほぼ研究室の学生がやってる.複雑ネットワークの成長モデルも研究室の学生と卒業生が中心となってやってる.統計の理論 (selective inferenceとinformation criterion)は理研チームのメンバーとやってる.