5日と20日は歌詞と遊ぼう。

歌詞を読み、統計したりしています。

言語処理学会の論文がぜんぶ公開されたからみんなで見ようぜ!!

こんにちは〜!

うひょ〜〜最新の学会の発表がお茶の間で堪能できる〜〜〜! 追試し放題だ〜〜〜〜!!!

今回は2019年の言語処理学会の発表の中から、たのしそうだな✨って思ったやつに「たのしそう!」っていうだけの記事です。

聡明な記事は聡明なひとがやってくれるからな!!

おいNLP業界! そういうとこだぞ!!

渡邉 研斗, 後藤 真孝『ありがちでない歌詞⽣成に向けた曲調と歌詞の関係に基づくベクトル空間モデル』

はいすきー!!

わたしこれを見るためにNLPに行きましたみたいなところあるので、これ完全に推しのために遠征してしまっているオタクです。

ぶっちゃけ現時点ではNLPについてなんにもわかっていないワナビである上に、言語処理学会から1ヶ月以上経ったいまもほとんどお勉強が進んでいないという口から生まれた口太郎なんですが、まずはこれを理解することを目標にお勉強しようかな…しなければ…するぞ……。

手法のことは詳しくわからないんですが、たぶん音響データと単語のデータを同じベクトル空間上に置いてその距離を比較することによって、曲調に合った歌詞を生成できるよ!ということ…のはず…(ぜんぜん違うかもしれない…こわい……)。

ところで専門の環境に身を置いていない私にとっては、論文の中のたった1行が驚きだったりすることがあります。

まさにこの論文にそういうのがあるんですよー。

曲調と単語の関係性を分析・モデル化するために、本研究では458,572曲の英語歌詞を用意した。

いや待って? 40万曲の歌詞そんな気軽に手に入る??

(しかもこの直後に、同じ曲数の音源ファイルを収集している)

わたし直近1ヶ月でいうといちばん書いているコードってSQLなんですが(それかExcelの関数)、こういう大量のデータ処理って、ネットのコードを写経するだけじゃ実務の力ぜんぜん身につかないくない? そういうとこなんですけど!!😡😡😡

聞いた中では質疑応答がめっちゃかっこよくて、

  • 質:曲調に合うかどうかだけではなくて、メロディに合うかどうかも大事なのでは?
    • 答:去年研究したので見てね!
  • 質:コンテクストの一貫性がないと歌詞として成立しづらいのでは?
    • 答:それも以前研究したから見てね!

つ、つよい…。

異世界にふれたよ!

伊藤 拓海, 栗林 樹生, 小林 隼人, 鈴木 潤, 乾 健太郎「ライティング⽀援を想定した情報補完型⽣成』

なんかね、異文化に触れた!って気持ちになれたのでとても印象的だった発表です。

この発表での目的は、非英語母語話者が英語で論文を書く支援をする、というもの。

論文中の言い方を使うと「第二言語学習者が書く不完全な文から、それと意味的に近く、より国際会議論文のスタイルに合った流暢な文を生成する」ってなってて、言い方にも文化の違いが出るのおもしろいですね〜〜。

なんか言いたいことはあるんだけど、この部分英語ではどういう常套句があるんだろうな〜〜〜、みたいなときとかに、穴開けてある文をコンピュータが埋めてくれる、みたいなやつを想定しているわけですね。

そこまではわたしも理解できるし、あったら便利だし取り組んだらいい課題だよね、っていうのも共感できました。

問題はここから!

評価用のデータをクラウドソーシングで作るんですが、そのやり方がこういう感じ。

英文コーパスを用意する(最初からあるやつ) →日本語にGoogleで自動翻訳 →クラウドワーカーにそれを英訳してもらう →評価用のデータができた!!

えっ…それでいいの??

だってそれ、非英語話者が論文を書こうとして書き損じているデータじゃないじゃん??

(質疑応答で質問したらお応えいただきました! ありがとうございます✨)

もしそれが今回の目的に合わないものだったとしても、少なくとも論文中でまったく触れないのはちょっと変…だよね? まちがってないよね???

英語のコーパスのことはよく知らないけど、ちょっとググっただけでも英語の学習者コーパスっぽいのはたくさん出てくるので、そういうやつを使ったらもっとよさそうな感じって思いました! コーパス言語学界隈のがんばり!

そしてそっから先、自動でのライティング支援はきっとコーパス言語学には難しいので、そこは自然言語処理にがんばってもらえたらみんな幸せになれますね〜❤️

わたしの辞書にない言葉。

岡久 太郎, 久保 圭, 水谷 勇介, 河原 大輔, 黒橋 禎夫『クラウドソーシングにより収集した語釈文を基にした単語の基本度推定』

「単語の基本度」っていう概念に初めて出会った論文でした✨ 一般的なやつなのかな?

例えば、「投手」が表す概念を理解するためには、その前提として「野球」「投げる」「選手」等の概念を知っている必要がある。このような単語の表す概念同士の依存関係は、特定の単語の語釈文中にどのような単語が使用されるかという定義-被定義関係として考えることができる。

なるほど、話はだいたいわかった!

先行研究では国語辞典のコーパスを使った研究があるそうなんですが、「転」など国語辞典に固有で使われやすい語に高スコアがついてしまう、という問題があるんですって。まあわかる。

しかし、問題はここからなんですよ〜。

そこで使われるのがクラウドソーシング。一般人が書いた語釈を使うんですって。その部分の記述がすごいのよ。

本提案手法は、複数の一般人が記述したデータを用いることで、これまでの辞書の語釈文を基にした単語の概念的基本度推定よりも、我々の直感に近い指標を提供することが可能であると言える。

えっマジで…??

たぶん、国語辞典を編纂する側はきっと、市井の人々の言葉に対する直感を、どうやって直感を超えた精度で描写するかに全力を傾けているって思うんです。

例えばこの論文中には「見通し」の語釈として「先の様子を想像する」「この後どうなるかの予想」といった一般の人の例が挙がっています。

国語辞典を編纂する側なら、これだと「見込み」とか「予期」とかと区別がつきにくいはずなので、その差を描きだすことにエネルギーを割くはず*1

クラウドワーカーはそういうことはあんまり気にしません。

でもNLP的にはこれでいいみたいです。

語釈そのものが使われるわけではないから問題ないってことかな?

ゆーて国語辞典も少数の“有識者”(ほんとうに?)が書いているじゃん、というツッコミが考えられるわけで、良し悪しではなくてアプローチの違いと認識しています。

考え方のちがいがあって、すっごくおもしろいなって思ったのでした。

あらゆるNLPerがつぶやいていく一言

栗林 樹生, 伊藤 拓海, 内山 香, 鈴木 潤, 乾 健太郎 『言語モデルを用いた日本語の語順評価と基本語順の分析』

この研究は日本語の文における適切な語順の評価と傾向を分析するというもの。

語順ってわりといろんなジャンルで研究されてる感じあるのでたーのしー!!って思って、わたしポスター発表2周ぶん聞いてたんですが、数々のNLPerが口を揃えて言ってた言葉があります。

語用論です!!

語用論! 時代きてるぞ!!

たしかに語用論でも語順について大事な研究いっぱいあるはず!

それに、言語処理学会ではあまりスポットライトが当たっていなかったんですが、こういうやつって日本語教育とかの分野でめちゃくちゃ蓄積があるはずなんですよね…。

わたしがもっとすごい博覧強記で全知全能だった場合、言語処理学会という異世界に転生してもチートできるはずだったんでずが、残念ながらわたしは博覧強記でも全知全能でもありませんでした。

は〜〜〜お勉強しよ!!

って思った瞬間でした。なかなか進まない。でもがんばろう。

そんな一日でした。


ほかにもたくさん楽しそうな発表あったんですけど、メモ取りきれてないやつも多いので今回はこれでおしまいでーす。

hacosato.hatenablog.com

これは上記の記事の続きです。

2019年の言語処理学会に行ったときのお話です〜!

さて、ここでびっくりなことがあります。

会期が4日間あったうち、わたしはたった1日しか行けなかったんですがこの充実感なのです…すごくないですか???

今度チャンスがあったらぜったいもっといっぱい参加したいなと思いました。

それまでの間にわたしはめっちゃNLP勉強するし、それに負けないぐらい言語学勉強するぞ!

待ってろ茨城! つよくなって帰ってきてやる!!

*1:正確には国語辞典ではないですが、小学館『使い方の分かる類語例解辞典』とか引くとおもしろいです✨