頑固なバイアスは繰り返しで除去する

頑固なバイアスは繰り返しで除去する

タイトル: Null It Out: Guarding Protected Attributes by Iterative Nullspace Projection
著者: Shauli Ravfogel, Yanai Elazar, Hila Gonen, Michael Twiton, Yoav Goldberg
会議・出版: ACL
年: 2020

💡 概要

  • 零空間へ射影を繰り返すことで,分散表現に学習された情報を除去する手法 (Iterative Null-space Projection; INLP) を提案
  • 除去したい情報を検出する線形モデルを学習し表現を零空間に射影することを繰り返すことで線形モデルが情報を検出できない,つまり情報を除去することができる
  • 公平性に関するデータセットに適応し,バイアス除去することで提案手法の有効性を示した

📜 分散表現に学習されている不適切な情報

事前学習された単語分散表現や言語モデルのような分散表現を用いることは多くの自然言語処理タスクで効果的であることが知られている.一方で,これらの学習された表現はブラックボックスであり,それらに何ががエンコードされているかわからない.そのため,人種,性別や年齢に関するバイアスのような望まない情報が学習される可能性があります.

このような情報が含まれていない分散表現を獲得するために,零空間へ射影を繰り返し分散表現に学習された特定の情報を除去する手法 (Iterative Null-space Projection; INLP) を提案する.提案手法は射影を用いた手法と敵対的手法を用いた既存手法を組み合わせており,数学的に基づいたバイアス除去とデータに基づいたバイアス除去の2つのメリットを持っている.

😞 既存研究の弱点

既存のバイアス除去手法は射影を用いた手法と敵対的手法の2つがある.

  • 射影を用いた手法:, Bolukbasiら (2016)は射影を用いたバイアス除去手法を提案している.性別バイアスであれば$\vec{he} - \vec{she}$のような性別単語対の差で定義された性別部分空間を計算する.この部分空間は性別に関する情報を表現しており,doctorやnurseのような中性な単語を性別部分空間の第一主成分の方向が零になるようにする手法を提案した.これにより中性な単語が男性や女性に関する単語と等距離となる.一方で,GonenとGoldberg (2019)により,十分にバイアスが取り除けていないことが示されている.この手法の欠点は,単一またはいくつかの性別方向にのみ依存することである.実際には,性別の部分空間は数十から数百の方向にまたがっており,それは必ずしも$\vec{he} - \vec{she}$で定義できるものではない.
  • 敵対的手法ElazarとGoldberg (2018)は敵対的学習により分散表現からバイアスを除去する手法を提案した.ある分類器ではバイアスが取り除かれているように見えても,別の分類器ではバイアスの検出に成功することを明らかにし,敵対的手法によりバイアスを完全に除去することは自明ではないことも明らかにした.そして,この手法は敵対的学習のために下流タスクの損失関数も必要であり,事前学習された分散表現から情報を除去するという使い方はできない.

🛠 提案手法:零空間への射影を繰り返すことによるバイアス除去

事前学習された分散表現から除去したい情報を検出する線形分類器を複数学習し,各線形分類器がの重みの零空間に分散表現を射影することで情報を除去する.複数の分類器を適応することでデータに基づいた数十の方向を使った零空間への射影によりバイアスを除去することが可能となる.

零空間への射影

2次元における二値分類器を用いた零空間への射影

上図は2次元における二値分類器を用いた零空間の射影を表している.ここで$x \in X$は入力ベクトルであり,$W$は線形分類器の重みである.$X$を$W$と直交する空間つまり零空間へ射影することで$W$の決定境界によってバイアスを検出できないようにする.式で書くと$W(P_{N(W)}x) = 0$ $\forall x$となる.ここで,$W$における零空間を$N(W) = \lbrace x|Wx = 0 \rbrace$と定義し,$N(W)$への射影行列を$P_{N(W)}$としている.

分類器の繰り返し適応

多次元空間の関係は複数の線形方向(超平面)で捉えることができる.そのため,分散表現を単一の線形分類器の零空間に射影するだけでは十分ではない.この問題を解決するために分類器を繰り返して適応する.式で$m$回繰り返す射影行列$P$を書くと$P = P_{N(W_{m})} P_{N(W_{m-1})} … P_{N(W_{1})}$となる.ここで$W_i$は$W_{i-1}$の零空間に射影された$X$から学習される.

📊 バイアス評価の結果

単語分散表現におけるバイアス

分類器を用いて単語分散表現のバイアスを評価する.TRP-GAPは除去する情報のデータセットごとの正解クラスの期待値の差を評価する.TRP-GAPが小さいほど属性間で分類性能がなくバイアスがないことを意味する.以下の表は感情分析とTRP-GAPの結果を示している.ここではAfrican American EnglishとStandard American Englishの2種類の英語で書かれたテキストに対してポジティブとネガティヴの感情分析を行う.ここでは属性の偏りの影響を評価する手前にデータ内のAfrican Americanのポジティブ文の割合を調整し評価する.下はその結果であり,提案手法のINLPはもとの単語分散表現よりバイアスが除去できていることがわかる.

感情分析とバイアスの結果.RatioはAfrican Americanに関するポジティブなデータの割合.

BERTにおけるバイアス

最後にBERTの隠れ層を可視化することでバイアス評価を行う.男性と女性の情報が付与された28個の職種に関する履歴書データを用いる.下の左図はprofessorに関する履歴書のBERTの隠れ層,右図は全職業単語に対するBERTの隠れ層の可視化の結果である.オリジナルのBERTの隠れ層は女性と男性の履歴書に対する隠れ層が分類できるように分布しているが,INLPによりバイアス除去されたBERTでは男性と女性の隠れ層が混ざり合い分類できないようになっていることがわかる.

入力文中の単語professor(左図)と全職業単語(右図)に対するBERTの隠れ層の可視化.