担当: 下平英寿
ティーチングアシスタント: 坂口 隆之,鈴木 了太
質問メールはこちらに送ってください: shimo-data (a) is.titech.ac.jp
日時: 木曜 9:00−10:30 西8号館W834講義室.ただし第2週(10月9日)は演習ため西7号館端末室(edu)に集合.
評価方法: 出席とレポート
質問受け付け: まず質問内容のメールを出すこと.面談が必要な場合はあらかじめメールにてアポイントを取ること.もしくは講義か演習時に直接質問する.
2004年1月: 第2回レポート課題
レポート課題 [PDF] を参照してください.提出期限は2004年2月9日(月曜)です.
2003年10月: 第1回レポート課題
講義の理解を確実なものとするため,初回に課題を配ります.第2週の演習時に,端末室で課題を行ってください.結果をレポートとしてまとめ,下平のレポートボックスに提出すること.レポートの提出期限は11月10日です.演習に関する詳しい情報はTAの鈴木了太氏のページにありますので参照してください.
「データ解析」では統計処理ソフトウエアであるRを用いた多変量解析の実践的な講義を行う.Rの使用法について簡単に紹介した後,実際にRを使ったデータ解析を行う.単にソフトの使用法を学ぶのではなく,その背後にある数学を自分のものにすることが目標である.回帰分析や主成分分析のためのR関数を自分自身で書き,それを使ってデータ解析を行うのである.この経験は将来未知の問題で新しい手法を開発する場面で役に立つだろう.
講義で用いるデータセットはeduの~shimo/class/gakubu200209/data/ディレクトリにR形式で置いてある.講義で用いるのはX2000.Rというファイルである.Rの中から
source("~shimo/class/gakubu200209/data/X2000.R")
を実行すると,X2000というリストが利用可能になる.データの本体はX2000$xというサイズ47 x 1173の大きな行列である.行列の行は日本の47都道府県に対応している.行列の列は1173の調査項目である.データは総務庁統計局統計センターが公開している社会・人口統計体系である(各項目の定義集).統計表はエクセル形式にてここで公開されているが,これを下平がR形式に変換してeduに置いてある.なおオリジナルデータで欠測値のある列を取り除いたものがX2000.Rであるが,すべての項目を含むR形式ファイルはssds2000.Rである.
X2000の項目コードと内容一覧: 日本語 (X2000$jitem),英語 (X2000$item),もしくはeduの ~shimo/class/gakubu200209/ ディレクトリにあるファイル jitem.txt と item.txt を参照.
Rの前身であるS言語を用いたデータ解析入門の教科書として
渋谷政昭+柴田里程 (1992) 「Sによるデータ解析」 共立出版.
が役に立つ.本講義のスタイルはこの教科書を参考にしている.多変量解析の教科書は非常に多く出版されているが,例えば
柳井晴夫,高根芳雄 (1985) 「新版 多変量解析法」 朝倉書店.
などがある.とくに回帰分析に関しては
佐和隆光 (1979) 「回帰分析」 朝倉書店.
は理論的にも十分詳しく書かれている.各自自分にあった本を探すこと.
東工大の間瀬茂さんがRに関する文書の和訳を行っている.以下の日本語マニュアル等はその成果である.
基本的なもの
すこし高度なもの
Rの本家(英語)のサイト