a lonely miner

「モデル」とは何か,について考えていたことを,DSIRNLP(データ構造と情報検索と言語処理勉強会)で発表してきました

先日, @overlast さんから,DSIRNLP(データ構造と情報検索と言語処理勉強会 )という会にお誘いを頂きまして,以前から考えていたことをちょこっとお話してきました.当日の様子は, @mamoruk さんが togetter にまとめてくださっていますので,そちらもご覧ください.

私の発表スライドは slideshare に置いておきました.いくつか直したいところがあるので,そのうち差し替えるかも.

他の方々がものっそい最先端な話ばかりのなか,私一人だけがひどくぼんやりとした内容でたいへん恐縮でしたが,問題意識を共有するきっかけを頂けたことに感謝しています.

そもそもこの話をしようと思ったきっかけは,ふだん学生さんと話していて,今回取り上げた「モデル」といった,漠然とした概念について理解が共有されていなかったり,学生さんと研究室スタッフで,研究における目標が違っていたりするのではないか,という事例をいくつか目にしてきたことでした.(後者の問題については今回は触れなかったのですが,いろいろ思うところはありますので,いずれ機会をみつけて何か書けたらと思っています)

そのなかでも,今回取りあげた「モデル」という言葉はなかなかに凶悪でして,たとえば言語処理学会全国大会の予稿集をみると,含まれていない論文のほうが少ないのでは(言いすぎ)というくらい多用されているのですが,それらに内包されている意味をつかむのがむずかしい状況だと感じていました.

発表資料はあちらこちらに行って発散しているきらいがありますが,おちついて考えてみると,今回言いたかったことは以下の二点に要約されます.

  • モデル(仮定) と アルゴリズム,パラメータはそれぞれ別のものだということをまずはじめに押さえておくことで,見通しが良くなるということ
  • モデルを計算機上に実現するということのハードルは,さまざまなドメイン特化言語やツールキットによって下がりつつある,ということ

会場では,以下のようなご指摘をいただきました:

  • これまで「libSVMを使えるかどうかを考える」であったところが,「TorchなりHBCなりを使えるかどうかを考える」という問題にすりかわっているだけではないのか,
  • そもそも「モデル化」というものは問題を解くためにするものではなくて,現象を浮き彫りにするために行うものであるので,ちょっとモチベーションが違うのでは,
  • モデル化,というところだけに目を向けてしまうと,実際の応用において必要になってくる効率化であるとか,モデル解釈の容易さのような点に目が向かなくなってしまうのではないか,
  • 「モデルもデータも(問題も)」一度に新しい設定に入れ替える,というのは無理があるので,まずはどちらかを固定して取り組むべきではなのか,
  • ちょっと話が概念的にすぎるので,実際に手を動かしてもらうタイプのチュートリアルの方が有用なのでは,

いずれもごもっともなご指摘であり,私の発表は工学側にもサイエンス側にも倒しきれていない,中途半端な内容になってしまった感じはしています.もうちょっと練ります.

渡邊澄夫先生の書籍から一節だけ引用して,このエントリを締めたいと思います.最後になりましたが,快適な会場を提供してくださったスマートニュース株式会社のみなさま,勉強会をオーガナイズしてくださった @overlast さん,ありがとうございました.

よいアルゴリズムを思いつくための系統的な方法があるということはないと思いますが,あなたがこれからさまざまなことを探求するなかで思い出される可能性が高いのは,それまでに出会って美しいと思ったことや面白いと思ったことだろうと思います.ベイズ統計学に現れるアルゴリズムは一つは解析力学に基礎があるものです.もう一つは統計力学です.どちらも美しくとても面白い学問ですから,なにかに役立てようとは考えず,学問そのものを学ぶことをおすすめします.

Comments