shimo – Shimodaira Lab

2025-08-082025-08-08

The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025) においてOutstanding Paper Awardを受賞

対数尤度ベクトルを用いて 1,000 以上の言語モデルを確率分布空間にマッピングし，言語モデルのテキスト生成に関する特性を定量化した本研究は，ACL 2025 で発表され Outstanding Paper Award を受賞しました．

Mapping 1,000+ Language Models via the Log-Likelihood Vector
Momose Oyama (Kyoto University / RIKEN), Hiroaki Yamagiwa (Kyoto University), Yusuke Takase (Kyoto University), Hidetoshi Shimodaira (Kyoto University / RIKEN)

ACL2025のサイト　https://2025.aclweb.org/program/awards/
論文のURL　https://aclanthology.org/2025.acl-long.1584/
ブログ記事　生成ＡＩモデルの地図：確率分布と情報幾何による類似性の可視化

2025-05-152025-05-16

生成ＡＩモデルの地図：確率分布と情報幾何による類似性の可視化

生成AIが実社会に大きな影響を与えています。数学的に見ると、生成AIは確率分布です。その内部ではニューラルネットによって文書や画像の生成確率が計算され、モデルごとに出力傾向に個性があります。私たちは、日々提案される生成AIモデルの類似性を把握するため、確率分布の空間における位置関係を反映するような座標を計算する統計的手法を提案しました。情報幾何学のアプローチにより、モデル間のKLダイバージェンス（確率分布間のずれをエントロピーで測った指標）を近似する「生成AIの地図」を比較的小さい計算コストで作成できます。

約1000個の言語モデルの地図

参考文献

Momose Oyama, Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira, Mapping 1,000+ Language Models via the Log-Likelihood Vector, https://arxiv.org/abs/2502.16173 (accepted to ACL2025 main)

コードとデータ

ModelMapのポータルサイト

2024-09-082024-09-08

NLP若手の会 (YANS) 第19回シンポジウム (2024)において奨励賞を受賞

単語の意味の変化を検出するため，単語毎の文脈付き単語埋め込みの集合間に不均衡最適輸送を適用して意味が消失/出現した用例を特定する方法の発表を行い（発表者　岸野稜），奨励賞を受賞しました．

不均衡最適輸送を用いた意味変化検出
◯ 岸野稜 (京大), 山際宏明 (京大), 永田亮 (甲南大/理研), 横井祥 (東北大/理研), 下平英寿 (京大/理研)

2024-03-292024-03-29

言語処理学会第30回年次大会(NLP2024)においてリクルート賞を受賞

「大規模言語モデルにおける幻覚緩和のための単語確率の外挿」と題する発表を行い（発表者　何昀臻），リクルート賞を受賞しました．大規模言語モデルのニューラルネットで用いられるトランスフォーマーには多数の層があり，入力層から出力層にむけて単語の情報表現が変換されていきます．これを時系列と解釈して外挿し仮想的に層を追加したときの出力層を予測するアプローチを本研究で提案しました．素朴なアイデアですが言語モデルの性能が向上することを実験的に示しています．

大規模言語モデルにおける幻覚緩和のための単語確率の外挿
何昀臻, 高瀬侑亮, 石橋陽一 (京大), 下平英寿 (京大/理研)

言語処理学会のサイト　https://www.anlp.jp/nlp2024/award.html

2023-09-122024-09-08

NLP若手の会 (YANS) 第18回シンポジウム (2023)において奨励賞を受賞

大規模言語モデルが内部でどのように情報を表現しているのか，とくにファインチューニング前後でどのように変化するのか，について「内部表現の幾何に基づく言語モデルの解釈」と題する発表を行い（発表者　大山百々勢），奨励賞を受賞しました．

「内部表現の幾何に基づく言語モデルの解釈」
◯大山百々勢 (京大/理研)，山際宏明 (京大)，石橋陽一 (京大)，下平英寿 (京大/理研)

NLP若手の会 (YANS) 第18回シンポジウム (2023)

2022-12-012022-12-01

データ科学コース　入試説明会（2022年12月)

2023年2月の入試について，Zoomによる入試説明会が開催予定です．入試についての説明のほかに，弊研究室 (統計知能・統計数理)の分野説明もあります．

データ科学コース　入試説明会【オンライン開催】

第１回　2022年12月14日（水曜）17:00-18:30

第２回　2022年12月17日（土曜）13:00-14:30

※事前登録不要．zoom接続情報は下記URLに掲載．

入試情報

2022-11-172022-11-18

2023年度からの組織変更について

京都大学情報学研究科の組織変更

情報学研究科は２０２３年（令和５年）４月に改組され、現在の６専攻は統合されて７つのコースを擁する「情報学専攻」になります。現在の知能情報学専攻、社会情報学専攻、先端数理科学専攻、数理工学専攻、システム科学専攻、通信システム専攻は、それぞれ対応するコースに移行します。そして、データ科学コースが新設されます。

この研究室はどうなるの？

下平・本多研究室は、２つのコースに所属します。つぎのどちらの分野名も下平・本多研究室です。研究室内での主な活動に差はありませんが、大学院生が履修する授業科目はコースによって違いがあります。

システム科学コース　統計知能分野
データ科学コース　統計数理分野

各コースのサイトはこちら

2022-05-132022-07-19

トップ研究者のリスト

論文の被引用数等をベースにした世界の研究者データが公開されています．そのデータからトップ研究者のリストを作成してみました．研究の各分野について，世界の上位２０名と，日本の上位２０名のリスト（PDFファイル）です．

こんな感じ．それぞれの研究者の分野は，メイン（分野１）とサブ（分野２）の両方で登録されているので，同じ人がリストに２回出てくることもあります．

研究者データでは，各研究者がどの分野で論文を書いているかの成分値が自動推定されて，その上位２分野が利用されています．成分値が低い研究者でも，他分野での被引用数が多い場合は上位に掲載されることがあります．そこで，成分値が１５％以上となっている場合に限定したリストも作成しました．世界と日本で上位３００名のリスト（エクセルファイル）です．

PDFファイルのダウンロード（成分値は考慮せず上位２０名）

世界のトップ研究者ダウンロード

日本のトップ研究者ダウンロード

エクセルファイルのダウンロード（成分値１５％以上の上位３００名）

世界のトップ研究者３００ダウンロード

日本のトップ研究者３００ダウンロード

研究者データ

Baas, Jeroen; Boyack, Kevin; Ioannidis, John P.A. (2021), August 2021 data-update for “Updated science-wide author databases of standardized citation indicators”, Mendeley Data, V3, https://doi.org/10.17632/btchxktzyw.3

2022-03-242022-03-24

言語処理学会第28回年次大会(NLP2022)において若手奨励賞を受賞

単語の意味をベクトルで表現する，という単語埋め込みの研究においてB4の大山百々勢が若手奨励賞（対象280件中12件）を受賞をしました．対象となった研究「単語ベクトルの長さは意味の強さを表す」は，大山百々勢 (京大，理研AIP)，横井祥（東北大学，理研AIP），下平英寿（京都大学，理研AIP）の共同研究です．

言語処理学会のサイト https://www.anlp.jp/nlp2022/award.html

2022-03-242022-03-24

マルチスケールブートストラップによる選択的推測のセミナー(2021/12/15)

YouTubeの公開動画

EPFL CIS-RIKEN AIP Joint Seminar #6 20211215

Date and Time: December 15th 6:00pm – 7:00pm(JST)
10:00am-11:00pm(CET)
Venue:Zoom webinar

Language: English

Speaker: Hidetoshi Shimodaira, RIKEN AIP

Title: Selection bias may be adjusted when the sample size is negative in hierarchical clustering, phylogeny, and variable selection

Abstract:
For computing p-values, you should specify hypotheses before looking at data. However, people tend to use datasets twice for hypothesis selection and evaluation, leading to inflated statistical significance and more false positives than expected. Recently, a new statistical method, called selective inference or post-selection inference, has been developed for adjusting this selection bias. On the other hand, we also face biased p-values in multiple testing, although it is a different type of selection bias. In this talk, I present a bootstrap resampling method with a “negative sample size” for adjusting these two types of selection bias. The theory is based on a geometric idea in the data space, which bridges Bayesian posterior probability to the frequentist p-value. Examples are shown for the confidence interval of regression coefficients after model selection and significance levels of trees and edges in hierarchical clustering and phylogenetic inference.

Bio:
Hidetoshi Shimodaira is a professor at Kyoto University and a team leader at RIKEN AIP. He has been working on theory and methods of statistics and machine learning. His multiscale bootstrap method is used in genomics for evaluating the statistical significance of trees and clusters. His “covariate shift” setting for transfer learning is popular in machine learning.