CMUでの滞在

CMUでの滞在

概要

金子はカーネギー・メロン大学 (Carnegie Mellon University; CMU) の Language Technologies Institute (LTI) のGrahamグループに2022年9月〜11月の間滞在し研究を行なった。Grahamグループは主に自然言語処理における生成タスクに注力しており、世界的に有名なグループのひとつである。

CMUは日本からの多くの研究者を受け入れており、金子が滞在している間にもLTIには5人、CMU全体でも多くの日本人が滞在しており、日本人同士の交流も楽しめた。滞在中多くの日本関係者の人にサポートしていただいたので、自分も今後CMUに滞在することになる方々のサポートにつながればいいなと思い、滞在がどんな感じであったかをここに記す。

続きを読む
論文メモ:下流タスクと言語モデル自体の公平性の評価、汎化性のための偽の相関のバイアス除去、正解ラベルなしのプロンプトエンジニアリング

論文メモ:下流タスクと言語モデル自体の公平性の評価、汎化性のための偽の相関のバイアス除去、正解ラベルなしのプロンプトエンジニアリング

💡 概要

  • 下流タスクと言語モデル自体の公平性の評価にはほとんど相関がない
  • 汎化性能を高めるために偽の相関によるバイアスを除去する
  • 相互情報量による正解ラベルを用いないプロンプトエンジニアリング
続きを読む
論文メモ:人間とAIの協調性の改善、トークン化、変化要因を制御した言語間の転移分析、デルタチューニングを体系的な調査・定義

論文メモ:人間とAIの協調性の改善、トークン化、変化要因を制御した言語間の転移分析、デルタチューニングを体系的な調査・定義

💡 概要

  • 人間の行動をモデル化し最適化することで人間とAIの協調性を改善
  • トークン化、形態素や構文などの要因を制御した言語間の転移分析
  • デルタチューニングを体系的に定義し100以上のNLPタスクで調査
続きを読む
用例を基にした文法誤り訂正モデルを用いた言語学習者のための解釈性

用例を基にした文法誤り訂正モデルを用いた言語学習者のための解釈性

タイトル:Interpretability for Language Learners Using Example-Based Grammatical Error Correction
著者:Masahiro Kaneko, Sho Takase, Ayana Niwa, Naoaki Okazaki
会議・出版: ACL
年: 2022

💡 概要

  • 言語学習のための文法誤り訂正モデルは訂正性能だけでなく結果の解釈性についても重要であるが、これまでほとんど議論されてこなかった。
  • 近年、予測に用例を用いることで予測の根拠を提示できるようにし、モデルの解釈性を改善する手法が提案されている。言語学習では用例検索システムなどを用いて学習者が文法や語彙を学習することができる。そのため、予測に関連する用例を用いて文法誤り訂正モデルの解釈性を改善することで、同時に学習に有益な用例を提供できると考えられる。
  • そこで、本論文では言語学習者の解釈性のために用例を基にして予測を行う文法誤り訂正モデルを提案する。文法誤り訂正の訂正結果と類似する用例を検索し提示することは言語学習者に有益であることを示した。さらに、用例を用いることで文法誤り訂正モデルの性能も改善できることも明らかにした。
続きを読む
論文メモ:訓練不要な層に置換することによる高速化、翻訳モデルの出力による評価モデルの弱点分析、学習設定のデータスケーリング法則への影響、多言語言語モデルXGLM

論文メモ:訓練不要な層に置換することによる高速化、翻訳モデルの出力による評価モデルの弱点分析、学習設定のデータスケーリング法則への影響、多言語言語モデルXGLM

💡 概要

  • 訓練可能な層を訓練不要な層に置換することによる高速化
  • 評価モデルに対して翻訳モデルを最適化することで評価モデルの弱点を分析
  • 学習設定がデータスケーリングの法則に与える影響
  • 大規模多言語言語モデルXGLMのfew-shot学習とzero-shot学習の調査
続きを読む
論文メモ:多言語音声言語モデルmSLAM、ニューラルネットワークの忘却は必要、事前学習モデルを効率化するpNLP-Mixer

論文メモ:多言語音声言語モデルmSLAM、ニューラルネットワークの忘却は必要、事前学習モデルを効率化するpNLP-Mixer

💡 概要

  • 51言語の音声データと101言語のテキストデータで学習された多言語音声言語モデルmSLAM
  • ニューラルネットワークの忘却、実は性能改善に寄与している
  • 射影ベースのMLP-Mixerにより事前学習モデルを効率化するpNLP-Mixer
続きを読む
論文メモ:CNNとTransformer事前学習モデルの比較、ルールベースと深層学習を統合した手法DEEPCTRL、アテンション機構の説明性に対する忠実性の調査

論文メモ:CNNとTransformer事前学習モデルの比較、ルールベースと深層学習を統合した手法DEEPCTRL、アテンション機構の説明性に対する忠実性の調査

💡 概要

  • CNN事前学習モデルはTransformer事前学習モデルに匹敵する
  • 深層学習モデルにルールベースを制御し考慮する手法DEEPCTRL
  • 説明性におけるアテンション機構の重みとモデル予測の忠実性の間の整合性調査
続きを読む
論文メモ:知識蒸留と枝刈りによる公平性改善、モデル出力の一貫性を評価するDiscoScore、寄与率による説明性に対する人間の理解、特徴量による説明性は人間理解への貢献を検証

論文メモ:知識蒸留と枝刈りによる公平性改善、モデル出力の一貫性を評価するDiscoScore、寄与率による説明性に対する人間の理解、特徴量による説明性は人間理解への貢献を検証

💡 概要

  • 知識蒸留と枝刈りによるモデル圧縮は公平性を改善する
  • テキスト生成モデルの一貫性を評価するDiscoScore
  • 寄与率による説明性に対する人間の理解について分析
  • 特徴量による説明性は人間のモデルの性能への理解に貢献するかを検証
続きを読む
論文メモ:ブラックボックス設定のプロンプト学習、プログラム形式の推論のための事前学習POET、経済的公平さと繁栄のための民主的AI

論文メモ:ブラックボックス設定のプロンプト学習、プログラム形式の推論のための事前学習POET、経済的公平さと繁栄のための民主的AI

💡 概要

  • ブラックボックス設定における事前学習モデルのプロンプト学習
  • プログラム形式のデータで事前学習された推論手法POET
  • 経済的公平さと繁栄を両立するための民主的AI
続きを読む