担当: 下平英寿
ティーチングアシスタント: 坂口 隆之,多賀 伸幸
日時: 木曜 9:00−10:30 西8号館W834講義室.ただし第2週(10月10日),第8週(11月28日)のため西7号館端末室(edu)に集合.なお予定が変更になる場合もあるので,このページを常に参照すること.以前予定した第14週(1月30日)の演習は通常の講義に変更します!!!
評価方法: 出席とレポート
質問受け付け: まずティーチングアシスタントに質問内容のメールを出すこと.面談が必要な場合はあらかじめメールにてアポイントを取ること.もしくは講義か演習時に直接質問する.
講義の理解を確実なものとするため,毎週簡単(?)な課題を出す予定です.各自,端末室で課題を行ってください.端末室での演習は基本的に自習形式とするので,この時間に課題を行っても良い.結果をレポートとしてまとめ,下平のレポートボックス「データ解析」に提出すること.
レポートの第一回締め切りは12月16日,第二回締め切りは2月18日の予定です.どちらもそれまでに行われた講義の範囲の課題をレポートにしてください.
あらかじめ予定していたより講義の進行が遅れています.これまでに配布した資料はこの下のほうにまとめておいてありますが,番号と講義の行われた週の対応はつかなくなっています.
1.R入門 [スライド] [資料] (note20020919a.Rt, note20020919b.Rt, note20020919c.Rt)
2.演習のため資料なし
3.Rによる線形代数 [スライド] [資料] (note20020922.Rt)
4.回帰分析(I) [スライド] [資料] (note20021020.Rt)
5.確率変数,回帰分析(II) [スライド] [資料] (note20021106.Rt)
「データ解析」では統計処理ソフトウエアであるRを用いた多変量解析の実践的な講義を行う.Rの使用法について簡単に紹介した後,実際にRを使ったデータ解析を行う.単にソフトの使用法を学ぶのではなく,その背後にある数学を自分のものにすることが目標である.回帰分析や主成分分析のためのR関数を自分自身で書き,それを使ってデータ解析を行うのである.この経験は将来未知の問題で新しい手法を開発する場面で役に立つだろう.
講義で用いるデータセットはeduの~shimo/class/gakubu200209/data/ディレクトリにR形式で置いてある.講義で用いるのはX2000.Rというファイルである.Rの中から
source("~shimo/class/gakubu200209/data/X2000.R")
を実行すると,X2000というリストが利用可能になる.データの本体はX2000$xというサイズ47 x 1173の大きな行列である.行列の行は日本の47都道府県に対応している.行列の列は1173の調査項目である.データは総務庁統計局統計センターが公開している社会・人口統計体系である(各項目の定義集).統計表はエクセル形式にてここで公開されているが,これを下平がR形式に変換してeduに置いてある.なおオリジナルデータで欠測値のある列を取り除いたものがX2000.Rであるが,すべての項目を含むR形式ファイルはssds2000.Rである.
X2000の項目コードと内容一覧: 日本語 (X2000$jitem),英語 (X2000$item),もしくはeduの ~shimo/class/gakubu200209/ ディレクトリにあるファイル jitem.txt と item.txt を参照.
Rの前身であるS言語を用いたデータ解析入門の教科書として
渋谷政昭+柴田里程 (1992) 「Sによるデータ解析」 共立出版.
が役に立つ.本講義のスタイルはこの教科書を参考にしている.多変量解析の教科書は非常に多く出版されているが,例えば
柳井晴夫,高根芳雄 (1985) 「新版 多変量解析法」 朝倉書店.
などがある.とくに回帰分析に関しては
佐和隆光 (1979) 「回帰分析」 朝倉書店.
は理論的にも十分詳しく書かれている.各自自分にあった本を探すこと.
東工大の間瀬茂さんがRに関する文書の和訳を行っている.以下の日本語マニュアル等はその成果である.
基本的なもの
すこし高度なもの
Rの本家(英語)のサイト