本年度の研究のなかで,ニューラルネットワークを用いたグラフ埋め込みに関する手法や理論のまとめ.やってるうちに,なんだかすごく簡単な話になった.
最近の論文 (2019/02/28)
本年度の研究まとめについては次の2つの投稿を参照してください(追記)
研究室の学生やチームのメンバーのおかげで,グラフ埋め込みや類似度学習に関する表現学習の手法や理論の論文がいくつか出てきました.
- Representation Learning with Weighted Inner Product for Universal Approximation of General Similarities (arXiv 2019) (IJCAI 2019) [ニューラルネットワークと重み付き内積による一般類似度関数の万能近似性]
- Robust Graph Embedding with Noisy Link Weights (arXiv) (AISTATS 2019) [リンクにノイズがあるときのロバストなグラフ埋め込み]
- Graph Embedding with Shifted Inner Product Similarity and Its Improved Approximation Capability (arXiv) (AISTATS 2019) [ニューラルネットワークの関係データ解析で用いる類似度の拡張とその近似定理および近似レート評価]
- A probabilistic framework for multi-view feature learning with many-to-many associations via neural networks (arXiv) (ICML 2018) [ニューラルネットワークによるマルチビュー関連データ解析]
グラフ埋め込みの表現学習に関連した応用として,単語埋め込みや画像の埋め込みの論文も出ています.
- 擬ユークリッド空間への単語埋め込み (言語処理学会第25回年次大会 NLP2019) KIM, GEE WOOK(修士1年)が若手奨励賞&最優秀ポスター賞受賞 (3/27追記)
- Segmentation-free compositional n-gram embedding (arXiv 2019) (NAACL-HLT 2019 accepted papers) [単語分割しない合成的文字n-gram埋め込み]
- Word-like character n-gram embedding (W-NUT 2018) [単語らしい文字n-gramの埋め込み]
- 単語らしい文字n-gramの埋め込みによる単語の分散表現 (言語処理学会 第24回年次大会 2018)
- Segmentation-Free Word Embedding for Unsegmented Languages (EMNLP 2017) [単語分割しない単語埋め込み]
- Spectral Graph-Based Method of Multimodal Word Embedding (TextGraphs-11, 2017) [画像を補助情報とした単語埋め込み]
- 単語分割を経由しない単語埋め込み (言語処理学会 第23回年次大会 2017)
- Image and tag retrieval by leveraging image-group links with multi-domain graph embedding (ICIP 2016) [Flickrの画像,タグ,グループ検索]
- Cross-Lingual Word Representations via Spectral Graph Embeddings (ACL 2016) (CL-Eigenwords Website) [多言語コーパスの単語分散表現]
- マッチング相関分析を用いた画像-マルチタグ間の相互検索, 電子情報通信学会 和文論文誌D 2016「画像の認識・理解」特集 [Flickrの画像,タグ検索]
統計学の理論や応用の論文もあります.
- An information criterion for auxiliary variable selection in incomplete data analysis (Entropy 2019) [不完全データにおける補助変数選択のための情報量規準]
- Selective Inference for Testing Trees and Edges in Phylogenetics (arXiv 2019) [系統樹推定における選択的仮説検定]
- Transitivity vs Preferential Attachment: Determining the Driving Force Behind the Evolution of Scientific Co-Authorship Networks (ICCS 2018) [共著ネットワークなどの複雑ネットワーク成長メカニズムにおける優先的選択性と推移性について]
- Selective inference for the problem of regions via multiscale bootstrap (arXiv 2018) [マルチスケールブートストラップによる選択的仮説検定]
- PAFit: an R Package for Estimating Preferential Attachment and Node Fitness in Temporal Complex Networks (arXiv 2017) [ネットワーク成長モデルの優先的選択関数と適応度を同時推定するソフトウエア]
- An information criterion for model selection with missing data via complete-data divergence (Annals of the Institute of Statistical Mathematics 2018) [欠測データの情報量規準]
- Joint estimation of preferential attachment and node fitness in growing complex networks (Scientific Reports 2016) [ネットワーク成長モデルの優先的選択関数と適応度を同時推定]
- Cross-validation of matching correlation analysis by resampling matching weights (Neural Networks 2016) (arXiv) [CDMCAの概要とそのリサンプリング理論]
研究室見学の前に論文みると良いです
下平研究室に興味があって見学希望する学生のみなさんへアドバイスです.研究室のメンバーが書いた論文をぜひ見てください.論文は研究のページに「最近の論文」のリストがあります.
または下記のブログは項目別に2016年以降の論文をまとめました (2019/02/28追記)
論文見ても全然わからないよ,っていうのは学部生ですと普通なので心配しなくてよいです.それでも図や式をみて,なんとなく雰囲気が感じ取れれば,それで十分と思います.
研究室の論文は成果物ですから,会社でいえば商品に相当します.研究室のメンバーになれば,こんどは研究して学会発表したり論文書いたりする立場になります.そのまえに,商品をよく調べるのは当然やったほうが得だと思う.
本当はすごい装置見せたりできればいいのですが理論系なので本や計算機サーバーくらいしか見せるものないです.研究内容のわかりやすい解説をウェブに掲載すればいいとおもうけど,サボっていてまだありません.会社でいえば商品は頑張って作ってるが広告やってないので,あまり自慢できる状況ではないけれど,ご理解ください.
そういえば最近twitterやってるのは広告かもしれないです.
WordPressのスタイル修正
人工知能研究ユニットのサイトでもWordPressのTwenty Seventeenつかった.子テーマつくったものの,結局「追加CSS」という欄に次を入れただけでOKだった.サイトのロゴ画像をつかうためにサイトのタイトルを非表示にするとなぜかcustom-logo-linkのmax-width指定が効かなくなるのでハマってあせった.これはchromeのデバッグモードでみたらstyle.cssのどこが効いてるのかすぐわかったので,コピペして修正したら動いた.CSSよくわからないが,とりあえず動いてるのでOKとする.
人工知能研究ユニット
京都大学人工知能研究ユニット(京大AIユニット)のウェブサイトつくりました.京大の研究室で理研AIPに兼任されているPIの研究チームがわかります.京大は現在7人いてかなり多いです.
数理工学概論1
研究室の計算機
データサイエンス(統計学、機械学習)の理論系の研究室ですが、やはり計算機でアルゴリズムを実装してリアルデータに取り組むことが楽しいです。
研究室のサーバーです.日本で最初に稼働したTesla P100らしいです.みためではM40と区別つきません.最近のGPUはファンレスなんですね. pic.twitter.com/ethvA5QyTt
— 下平英寿 (@hshimodaira) October 15, 2016
このほかに理研のスパコンをクラウド利用もします。「2018/4/20 理化学研究所に導入したAI研究用計算機システム「RAIDEN」を国内最大規模に大幅に増強。総理論演算性能54ペタフロップスを達成し、革新的なAI研究を支援」
大規模な数値実験はクラウドで並列度を上げると効率良いです。一方で、アルゴリズム開発を試行錯誤する場合はプログラムを少しづつ変えながら何度も実行するので、研究室内の計算機がやはり便利。この事情は随分前からあまり変わってないように思う。
Google Scholarの使い方(論文の被引用数)
論文調べで必須と思うけど意外と学生に知られてないのでメモしておきます.普通のGoogleはウェブサイトを検索するために使いますが,Google Scholarは論文や本を検索するために使います.使い方は普通のGoogleと同じで簡単.
1.https://scholar.google.co.jp にアクセス(または “google scholar”を検索)
2.検索窓に,キーワードとか著者名いれて検索する.たとえば shimodaira を検索すると...
3.ここでは著者名として shimodaira が含まれる論文が見つかった.普通の検索ではウェブサイトが見つかるけど,Google Scholarでは論文や本が見つかるのが違い.「引用元 3629」とあるのは論文の被引用数で,これが大きいほど上位にヒットする.つまり他の論文からどれだけ引用されているかがわかります.たとえ言うならYouTube再生数みたいなものです.「Web of Science 2917」は 厳選論文誌だけを対象にカウントした数値で被引用数は少なめに出る.上の方の「ユーザープロフィール」をクリックすれば,その著者の論文や本だけを集めたページに移る.
4.検索窓に戻って,こんどはキーワード bootstrap で検索してみると...
5.キーワード bootstrap を含む論文または本がヒットする.やはり被引用数の大きいものが上位にヒットする.1番はFelsenstein先生の論文(ポスドクのときにお世話になったワシントン大学の先生)は35509回,2番はEfron先生の論文(若手のとき滞在したスタンフォード大学の先生)は16357回,4番目に本が37012回などとなってる.
あとがき.下平も若手だったときの論文の被引用数が多いとイキったりしますが,偉い先生の被引用数をみれば桁が違います.良い論文かどうかなんて学部生どころか研究者でもなかなか判断できないので,まずはこれを手がかりに論文や本を選んで読むと良いです.自分に内容をみる力がついてきたら,被引用数ではなく内容で判断して選びましょう.
研究室説明会 (2018/05)
twitterでいいねされる
数カ月ぶりにつぶやいたところ,たくさん「いいね」されました
アニメでも普通に登場するようになって「ディープラーニングやりたい」っていう人があまりに多いので,あえてこんな研究室説明チラシつくってみたよ.研究がどう伸びていくかなんてわからないから,すこしロングスパンでみてもいいんじゃないかな.https://t.co/GUIWHA1Jpi pic.twitter.com/eulEHcu3Kc
— 下平英寿 (@hshimodaira) March 31, 2018