言語らしさを考える
2021.08.24
パラメトリック・ボイス
アンズスタジオ / アットロボティクス 竹中司/岡部文岡部 GLUEベンチマークという評価システムはご存知ですか。最近はさらに難易度が増し
た「SuperGLUE」なんていうものも出てきたし、他にも同様の評価システムが評価
軸の特徴に応じて存在しています。GLUEとは、General Language Understanding
Evaluationの略で、つまり、言語に関するテストデータです。
竹中 言語に関するテストといっても、人間の言語能力を測るものではなく、AIの自然言語
処理能力を測るものだね。近年、言語AIに関する論文を発表する際には、このGLUE
スコア、あるいはさらに高難易度のSuperGLUEスコアを掲載することが常識となっ
てきている。
岡部 そもそも自然言語(natural language)とは何かというと、人間が意思疎通を図るた
めに自然と進化してきた言葉のことを言い、自然言語処理とは、これをコンピュータ
に処理させる一連の技術のことを言う。皆さんのまわりでもSiriやAlexaなどが身近に
なり、その存在がより広く知られてきたわけだけれども、こうしたデジタルアシス
タントの立役者が、自然言語処理の技術だ。
竹中 例えば、SuperGLUEの評価軸は、8つのサブタスクに分かれているようだ。BoolQ
(YesかNoで答える質疑応答)、CB (テキスト含意認識)、COPA(因果推論タスク)、
MultiRC(読んだ文章に関する応答)、ReCoRD(読んだ文章に関する穴埋め式の応
答)、RTE(文章と文章の推論関係の判断)、WiC(異なる文章の中で言葉が同じ意
味で使われているか否かの判断)、WSC(照応解析)の8つだね。これらを合わせて
総合的に評価する。
岡部 人間が赤ちゃんから成長する過程で、単語の理解から文章の理解、さらには話の理解
力を習得し、その後、あるコンテキストの中で話される内容をある程度推測しながら
言語の理解を高めてゆくように、AIも同様の進化を辿っているわけだ。
竹中 そうだね。それが最近のデータによると、AIの基準点が人間の能力を越えてきている
のだという。もちろん8つの側面からの評価ではあるから、人間のあいまいさを許容
する複雑な言語能力にはまだ追いついたとは言えないものの、ある点においては既
に人間より理解力が高いとも言えるわけだ。Microsoft Researchのモデルである
DeBERTa(Decoding-enhanced BERT with disentangled attention)はベンチ
マークで90.3を取得。Google Brainのモデルも90.2をマークしている。これは、人
の基準点である89.8を越えてきている。
岡部 つい先月7月にMicrosoftとGoogleの記録を塗り替えたERNIE(Enhanced
Language RepresentatioN with Informative Entities)には、100億ほどのパラ
メータが使われているというのだから驚きだ。自然言語モデルは、人と人が話をする
時代から、人とロボット、さらには人とモノ、モノとモノが話をする時代へとひたひ
たと進化を続けている。機械は人間と違って膨大な情報量の処理をものともしないわ
けだから、その進化はある時点から急速に加速すると考えられる。言葉に含まれた感
情をも読み取れるようになる日も、そう遠くはないかもしれない。
竹中 そうだね。「言語らしさ」って何だろう、と考えると非常に面白い。正確に聞き取り、
正確に書けるだけでは「らしさ」は皆無だ。その言葉が発せられた時の周囲の環境も
含め、多大なパラメータがからんでいる多義な世界に存在する。テキストデータだけ
ではなく、知識グラフを組み合わせたモデルが高スコアを出している点に着目したい。
単なる文法構成だけではなく、それを「言葉らしく」導くセマンティックなアプロー
チは、時代や地域に順応する言語社会にも大きな変化をもたらすかもしれない。