2021年の金子の進捗

2021年の金子の進捗

💡 概要

  • 2021年の金子の進捗について振り返る
  • 今年はPh.D.を取得したことと新しく岡崎研で働き始めたので主にそれらについて書く
  • 他に今年の論文などについても振り返る

最近、やったことや考えていたかを記録を残しておくことは重要だな〜と思うようになったので、今年から1年の振り返り記事を書く。あえてブログで書くのはそうしないと自分の性格的に丁寧に書かないし、こういう記事の情報が自分に役立ったことがあるので誰かに役立つかもしれないからである。

🎓 Ph.D.になった

今年の3月に都立大で無事Ph.D.を取得した。指導教員の小町先生やこれまで一緒に研究してくださった方々にはたくさんのサポートをしていただき改めて感謝である🙏 自分が支えてもらった分を、下の代に少しずつ返していけたらと思っている。

審査会や公聴会自体は去年の11月や12月にやっていたので体感としてはもっと昔にPh.D.を取得したような気がしていた。自分は新型コロナの関係で、審査会と公聴会どちらもオンラインで行った。ちなみに、自分は公聴会に誰が参加しているかまったく見ていなかったが小町先生によるとそこそこ人が来てくださっていたらしい🙏あと、ありがたいことに博論は情報処理学の研究会推薦博士論文に選ばたので嬉しい☺️

D論書いていたのは1年以上前であり細かいことは全然覚えていないが、D論書いていて感じたことを以下にメモしておくと:

計画的にやる vs. 好奇心の赴くままにやる

D論はこれまで自分がやってきた研究の集大成として、トム・ブラウンの漫才のようにそれらを合体させて1つのでっかい論文にする必要がある。D論に向けたアプローチとして大きく分けて以下の2つある気がしている:(1)D論どんな感じにするか大まかな方針を持ってそれにそってやっていく、(2)その時その時に興味がある研究をやる。

自分は典型的な好奇心の赴くままにやるタイプで、文法誤り検出・訂正と公平性という別々のタスクに取り組んでいた。自分が(2)のタイプなのでそっちを深堀りするが、このタイプのメリットは博論書くまでは好き放題研究できることである。一方で、デメリットとしてD論を書く段階で自由にやっていたつけを払うことになる、つまり無関係な研究をこれは計画通りですみたいな顔して1つのテーマに乗っける作業をする必要がある。

そのため、自分はD論で1つのストーリーにすることに一番苦労した。1つのストーリーにしやすいタスクだけで卒業要件を満たしているのであれば、この作業をしなくてすむ方法として、他は博論に含めずにそれだけで書いてしまうというやり方がある。実際、自分は文法誤り検出・訂正だけで卒業要件(論文誌2つまたは論文誌1つと論文誌相当の国際会議1つ)を満たしていたので、100ページ以上にするために分量を増やしてそっちだけでD論を書くこともできた。ただ、研究者としての自分は特に小町先生生とダヌシカ先生のお二人にお世話になった、つまり「小町先生生まれダヌシカ先生育ち」だと思っているので、ダヌシカ先生と一緒にやった公平性の研究も含めたいよねというふんわりした気持ちで頑張って1つの話にまとめる方を選択した(D論に書かなかったら尊敬がないとか全然そういう話ではない)。自分の周囲には(2)のタイプの人のほうが多い印象があり、それも含めてD論の醍醐味だよねみたいな空気感はあったので、今D論書いている方々には「1つの話にまとめられなくて困ったのは君ひとりじゃない頑張って!」という感じである。

🏛 岡崎研での新しい研究生活

Ph.D.になったので4月から東工大の岡崎研で研究員として働き始めた。研究環境としてはかなり最高という感じであり、岡崎研は研究員を絶賛募集中らしいのでもし興味がある方は、いろいろと相談のれると思うので気軽にコンタクトしてもらってOKです!

以下、岡崎研に来ることになった経緯や研究環境について振り返ると:

岡崎研で働くことになった経緯

そもそも岡崎研で研究員をやることになったのは、進路についてダヌシカ先生にいろいろと相談している中で紹介していただいたことがきっかけである。行くことが確定していたわけではないが卒業の1年前である2020年の春頃には岡崎先生にも受け入れOKをいただいていた。なので、自分の場合はほとんど就活らしい就活をしていない。一応、岡崎研の学振PDとしても採用されたがいろいろと考えた結果辞退して別の形で雇用されることにした。

研究環境

研究室には自分以外に研究者のスタッフとしては教授と助教がいる。まともな研究室のボスには(1)積極的にかかわるタイプと(2)必要以上に干渉せず自由にさせるタイプの2つがあると思うが、うちの教授は(2)だと思われる。どっちが良いとかではなくこれは相性なので、のびのび研究したい自分のような研究者には岡崎研は合っていると思う。一応、補足しておくと干渉しない≠指導しないではなく、うちの教授は相談するとちゃんと助けてくれるので最高という感じである。そして、主著論文を1st tierの国際会議にバリバリ通していて年齢的にも近い助教の方がいるので、雑談形式で気軽に研究のアイデアやNLP界隈についての話しをして、質の高いコメントや知識を教えていただけるのでめちゃめちゃ学びになる。

計算機環境としては研究室のサーバー、TSUBAMEABCIを使って実験を行っている。GPUについて自分は詳しくないが、良さげなやつをたくさん使えるので計算機が研究のボトルネックになるみたいなことは今のところない。

今年から岡崎研ではメンター制度を導入することになったので、2人のB4の学生と一緒に研究している。自分は学生のときから新入生のために研究テーマを考えてそのテーマを選んだ学生とメンターとして一緒に研究するということをやっていたのでメンターの経験はそこそこある。一方で、新入生のテーマを決めるときに難しいのは、難易度と質のバランスである。ここで難易度とは、そのまま使えるコードの有無などの実装の大変さ、実験量や動かしたら高い確率で成果が出そうかなどの確実性のことを指す。そして、質とは面白い研究であるかや査読ありにちゃんと通りそうかみたいなことである。多くの場合、難易度と質は正の相関がある気がしている。新入生の研究の場合、なるべく早いサイクルでまず研究を経験する、いきなり成果がでないとう研究の闇にのまれない、研究したという自信を持ってもらうために対外発表できる、ようなテーマにしたいと考えると、できる限り難易度を抑えつつ質の高いテーマを考える必要がある。そのため、自分の研究テーマを考えるより制約が多く難しい。ただ、最近の傾向を見ていると自分が考えるテーマは難易度を下げすぎている気がしているので、来年はもうちょっと難易度を上げても良いのでは?と思っている。

📄 研究

主著

今年は全て投稿中であり紹介できないが4本の主著論文を執筆した。そして、2020年に頑張っていた以下の3つの主著論文が国際会議に採択された。共著者のダヌシカ先生には感謝しかない🙏

ダヌシカ先生とは基本的にSlackでやりとし月1くらい(投稿シーズンだともっと頻度が上がる)でzoomを使って相談したりする。自分の場合は「こんなアイデア思いついたんですよね〜」と言ってダヌシカ先生に相談し、そこで詳細について詰めるという始まり方が多い。気軽にアイデアの壁打ちができる心理的安全性ってやっぱ大事だなと思う。

  1. Masahiro Kaneko and Danushka Bollegala. Dictionary-based Debiasing of Pre-trained Word Embeddings. The 16th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2021). , ,
    • これはLong paperで4, 3, 4で採択された。
    • バイアス除去についてこれまでは性別や人種のような特定の属性を対象とする研究がほとんどだったが、実際は特定の属性だけを除去したいというよりは全体的にバイアス消したいよな〜と思っていて、そこから出発した研究である。
    • 単語分散表現の研究は実験が早いので試行錯誤のペースも早くできて個人的には好きであるが、最近は査読者に「BERTでやらないの?」的なことを言われる。
  2. Masahiro Kaneko and Danushka Bollegala. Debiasing Pre-trained Contextualised Embeddings. The 16th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2021). ,
    • これもLong paperで3, 3.5, 4で採択された。
    • 単語分散表現のバイアス除去をする研究はあるけど、BERTとかのバイアス除去はほとんどされていないからやってみる?みたいな軽いノリで始めた研究。
    • 自分は最初にサーベイをしたりしないので、後々先行研究をちゃんと調べたら「なんかそこそこBERTとかのバイアス除去あるじゃん」みたいなことがわかったが、差分をちゃんと説明して無事採択された。
    • 話的に面白いというより実験をたくさんやったのが好印象という感じ。
  3. Masahiro Kaneko and Danushka Bollegala. Unmasking the Mask – Evaluating Social Biases in Masked Language Models. Proceedings of the 36th AAAI Conference on Artificial Intelligence (AAAI 2022). , ,
    • Reject, Strong Reject, Strong Accept, Weak Accept, Strong Acceptで採択された。
    • 個人的にマスク良くないという着眼点は気に入っているが査読者によってはモチベーションがまったく伝わらずスコアが割れがちだった。そのため、採択されるまでそこそこ時間がかかった。

自分は2nd tier以上の国際会議やワークショップに締め切りが近い順に投稿していくスタイルなのでどこに採択されるかはそこまで気にしていないが、年に1本は主著で1st tierの本会議に論文が採択されると嬉しいなとは思っているのでAAAI 2022に採択されて良かった。

共著

共著では3本が論文誌、3本が国際会議・ワークショップに採択された。そして、1本プレプリントがある。主著力に感謝である🙏

論文誌

  1. 三田雅人, 水本智也, 金子正弘, 永田亮, 乾健太郎。文法誤り訂正モデルの横断評価。 自然言語処理。28巻1号。
  2. 甫立健悟, 金子正弘, 勝又智, 小町守. 文法誤り訂正における訂正度を考慮した多様な訂正文の生成。 自然言語処理。28巻2号。
  3. 吉村綾馬, 金子正弘, 梶原智之, 小町守. 文法誤り訂正の参照文を用いない自動評価の人手評価への最適化。 自然言語処理。28巻2号。 ,

修士のうちに論文誌を書くことで、奨学金が減免になる確率を大幅に上げるというTipsがあるが、2と3は長いこと一緒に研究してくれた修士の学生で、どちらの論文誌の合否も奨学金の減免に大きく関わるものだったので、2つとも無事採択されてよかった。

国際会議

  1. Raj Dabre, Aizhan Imankulova, Masahiro Kaneko. Studying The Impact Of Document-level Context On Simultaneous Neural Machine Translation. Proceedings of the 18th Biennial Machine Translation Summit (MT Summit).
  2. Aomi Koyama, Kengo Hotate, Masahiro Kaneko and Mamoru Komachi. Comparison of Grammatical Error Correction Using Back-Translation Models. 2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics: Student Research Workshop (NAACL SRW).
  3. Seiichiro Kondo, Kengo Hotate, Tosho Hirasawa, Masahiro Kaneko and Mamoru Komachi. Sentence Concatenation Approach to Data Augmentation for Neural Machine Translation. 2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics: Student Research Workshop (NAACL SRW).

プレプリント

  1. Raj Dabre, Aizhan Imankulova, Masahiro Kaneko and Abhisek Chakrabarty. Simultaneous Multi-Pivot Neural Machine Translation. arXiv.

学外活動

  • 自然言語処理の論文誌の編集委員に任命された。編集委員は主に査読者を割り当てたり、年1回の論文誌の賞の選考をしたりすることが仕事である。

ブログ

今年の4月から論文以外のアウトプットも頑張らないとなとお思い、とりあえずブログをやり始めた。ここ2〜3年は英語で論文書いたりしているが、国内で主著の研究を発表していないので、ブログがあると日本語で自分の研究を宣伝する場になるのでやってよかったなとは思った。一方で、忙しい時期はほとんど書けなくなるので、今年は夏はまったく更新されていない。コンスタントに更新している小町先生の武蔵野日記はやはりすごい。自分の研究、ツールの使い方や論文紹介をするとそこそこ反響があるようなので、日本のNLP力に貢献できるようにそのあたりの記事を来年も書けるように頑張りたい。

🛒 今年良かったもの

小町先生の以下のツイートで気になって読んでみた。研究のプロセスや営みについてきちんと言語化して説明されているので、自分が学生などに説明するときに参考になりそう。個人的には7章:つながると8章:生きるが一番知らないことが書かれていた。あと、D学生の環境としてかなり情報系は恵まれているはずで、自分のいる環境が当たり前であると思わないためにも読んでみたが、他分野について知るという観点からも有益であった。

📚 まとめ

今年はいろいろと節目の年で環境の変化があったが、研究的に良い年になったと思う。コロナが落ち着いて来年は久しぶりに学会に現地参加できたら嬉しいな。