こんにちは.英語が書けなくて悩んでいる今日このごろです.
先月に引き続き,仲間内で行っている小さな勉強会にて論文紹介をしてまいりました.
- “Information-Theoretic Metric Learning” V. Davis et al, ICML 2007 (Best Paper)
ちょっと古めの論文ですが,あまり踏み込んだことのない分野なので,名著っぽいものから確実におさえていくスタンスで.
発表スライドは以下においておきます.最後のスライドにいろいろ文献リンクしておいたので,ご興味をもって頂けましたら是非そちらも当たってみてください.
距離計量学習(以下単に距離学習)とは何ぞや,というのは小町さんの日記をご参照いただけると良いと思うのですが, ざっくり言うと,「分類しやすいように前処理として空間を歪めてしまおう」という技法です.ケーキで表す(!)と以下のような感じ.マシンラーニングケーキかっこいい!
要するに,同じクラスの事例同士は近く,異なるクラスの事例同士は遠くなるように,元の空間を歪めてしまうのです.
この論文では,距離学習を多変量正規分布間の KL Divergence (の特別な場合である LogDet Divergence )の最適化問題として定式化するとともに,カーネル学習との等価性について述べています.実際のアルゴリズムは,Bregman Projectionとか名前はごっついけど実際はそんなに難しくない.
確かに,カーネル行列というのは,バラすと特徴量空間での距離を畳み込んだものと言えますし,関連はありそうだと思ったものがきれいに証明されていてけっこう感動しました.
さらには,(正直あまり理解できませんでしたが)元の距離学習のカーネル化やオンライン化(Regret Boundまで!)などなど,8ページギッシリ詰められています.
ただ,学習されるのは単なるマハラノビス距離行列という単なる線形変換なので,どれほどのタスクで効くのかどうかは疑問が残ります.
たとえば,元の空間で線形分離不可能な問題というのは,どんな線形変換を施したとしても,きれいに線形分離できるようにはならないでしょうし,特徴空間での回転(マハラノビス距離行列の非対角要素)は何を表しているのか正直よくわかりません.
もっとも,このアルゴリズムはカーネル化ができることが示されているので,分離しやすい空間へ飛ばしてから距離学習を行えば別なのかもしれませんけど・・・けど・・・けど・・・.
こういう点では,多様体学習(詳しくないのですが,たとえばLaplacian Eigenmapsとか)のような非線形のアプローチのほうが,もともとの目的(分類しやすいように前処理する)に合っているように感じます.
計算量的な問題でいろいろ難しいのかもしれませんが,こういうSupervisedな距離学習あるいは次元削減で,オススメの文献がありましたら是非教えてください.
は〜英語書きに戻ろう.実際に書いている時間なんてほんの僅かで,書けないよーってうんうん呻ってる時間がほとんどなのだけれど.
そういえば,そういえば,一昨日第一回コンペが終わったCrowdSolvingについてはどれくらい書いていいのかな?いずれにしても,また次回.
- 4/22 14:00 論文等へのリンクが間違っていたので修正しました.