システムリニューアルに伴いログインIDのパスワードを再設定ください。

システムリニューアルに伴いログインIDのパスワードを再設定ください。

自然言語処理の最先端で、「アンコリーノ」をさけぶ

公開日:2023年2月27日

  • 山根宏彰氏(富士通)

AIが生んだ新単語 未知の出力結果を生む仕組み

メッセージを届けたい相手がいるときに、相手を知った上でどんなものを届けるのが良いのだろうか?今回から、これまでの「心を知る」技術を発展させる形で、AIにコンテンツ生成させる技術について考えたい。

「アンコリーノ」。

少し小馬鹿にしているような、でもほっこりする響きだ。実はこの固有名詞は、界隈で話題をさらっているOpenAI社が提供する「ChatGPT」に、あるTwitterユーザーが「小麦粉、砂糖、卵を溶いて作った生地を丸い金属の型で焼き上げ、中にあんこを入れたお菓子の名前」をたずねたときに出力されたものである。既存の辞書には存在しない「アンコリーノ」という新単語をAIが生成してしまったことが、驚きをもって受け入れられているようだ。

このブラックボックスの中身を少し覗いてみよう。まず、単語を生成するには、単語を知らなければいけない。一方で、生成されたアンコリーノはそれ自体がひとつの単語である。第一回で紹介したMeCabでは、アンコリーノは1単語の固有名詞として形態素解析されてしまう。どうやって、未知の単語の生成が可能になるのか。キーワードはSentencePiece(Kudo EMNLP 2018)に使われている「サブワード」にある。

SentencePieceは、ニューラルネットワークを使って、生文から直接分割の句切れを自動的に学習する。なぜ...

この記事の続きを読むには定期購読にご登録ください

月額

1,000

円で約

3,000

記事が読み放題!