NTTグループの40年以上にわたる日本語処理技術から生まれたコミュニケーションAI、COTOHA®。音声認識や音声合成など、実に15種類の技術が「COTOHA® API」としてさまざまな企業へ提供されています。今後課題となるのが類似サービスとのコモディティ化による価格競争。NTTコミュニケーションズでは、「意味」を生み出すことで唯一無二のサービスへと進化させようとしています。開発担当の今枝尚史さん、山田雄基さん、 同APIを使ったプロトタイプ制作を行ったアマナの横山徹に聞きました。
――まず、COTOHA® APIについて教えてください。
山田雄基さん(以下、山田。敬称略):NTTグループの研究成果をベースにした自然言語処理、音声認識、音声合成、文章要約などの技術を手軽に使っていただけるよう、API(※1)という形で提供しています。全部で15種類のAPIがあり、お客様の用途に応じて自由に組み合わせられるようになっています。
※1…ソフトウェアからOSの機能を利用するための仕様またはインターフェースの総称。
――COTOHA® APIは日本語の処理に長けていると伺いました。英語とは文法も違いますが、他の言語と比較したときの日本語の特徴や処理に必要な技術はありますか?
山田:日本語の中でも特に喋り言葉は、主語や目的語を省いても意味が成立するため、構文として成り立っていない場合が多く、語順を自由に入れ替えても意味が通じます。書き言葉では、「辛(から)い)、「辛(つら)い」のように、同じ漢字でもどの文脈で語られているかによって読み方が変わるのも独特の難しさの一つです。
今枝尚史さん(以下、今枝。敬称略):同じ意味を持つ言葉でも、尊敬語や謙譲語など表現方法が複数ある場合もありますし、二重否定することで肯定する、という高度な表現もあります。
また、英語は単語の間にスペースが入っていて、どこで単語が分かれているかが一目瞭然。しかし、日本語は句読点こそあるものの、基本的にスペースは使わないので、一つひとつの単語に区切る必要があります。ケアしなければならない領域が幅広く、AIに学習させるには難しい言語なんです。
山田:NTTグループでは40年以上にわたる日本語処理の研究で蓄積された単語をもとに辞書をつくっていて、その規模は日本最大級。基本的な用語、専門用語など含めると210万語を超えています。広辞苑に登録されている言葉が25万語程なので、10倍近くになりますね。この辞書をベースに単語一つ一つの意味を分類して、文章の意味を解析することができます。
――日本語処理に関してはトップレベルのAPIだと思いますが、導入されているクライアントは、どのように活用しているのでしょうか?
山田:たとえばコールセンターでは、音声認識のAPIを使ってオペレーターやお客様が話している内容を認識し、自動応答の場面では音声合成APIを使って、音声による回答を行います。テレビ会議の議事録サービスなどにも使われていますね。
今枝:新型コロナウイルスの影響で、多くの企業の仕事のやり方が大きく変わりました。この状況をふまえて、さらに役立つAPIへと進化させていけるよう、追加機能も開発しているところです。
コールセンターであれば、スタッフが自宅で電話対応する場合も増えていると思うので、お客様とどのようなやりとりが行われたのか、音声認識技術と要約技術を組み合わせることで運営元へレポートできるのではないかと思います。導入企業にフィードバックしていただきながら、目的に合わせてカスタマイズしていきます。
ですが、こうして新しい働き方に対応している一方で、機能の向上以外に課題がありまして……。
――どのような課題でしょう?
今枝:我々は、API自体をあくまで「部品」ととらえているので、どのように使ってもらえるかが重要です。COTOHA®の技術的には価値があると思いますが、ここに「意味」をつけていくことが大事だろうなと思っていました。
――「意味」というと?
今枝:いろんな機能を持ったCOTOHA®というサービスを、今の世の中に対してどう意味づけして、どのような世界観で提案していくか。そこができれば、競合他社とは違う形でのサービス提供を模索できるのではないかと思っていました。そんなときに出会ったのが、NTTコムがC4BASE(※2)でご一緒していたアマナさんでした。
※2…NTTコミュニケーションズが主宰する共創コミュニティ。個⼈の想いを起点に、夢を語り、旗を⽴て、仲間を集め、個⼈・企業・社会をつなぐ4thプレイス(新しい活動を行う場)として、社会的に意味のある・価値のあることへと繋げることを目的としている。
――アマナとはどのようなことを?
今枝:テクニカルディレクターの横山さんに、COTOHA® APIの特性を活かしたアプリのプロトタイプ「AI SCANNER powered by COTOHA®」を提案していただきました。
横山徹(以下、横山):COTOHA® APIの大きな特徴の一つは、リアルタイムで即時的な言語処理ができること。また、音声合成で生まれた声が、他社サービスと比較してとても滑らかなことも特徴です。初音ミク(※3)を想像してもらえるとわかりやすいですが、従来の音声合成はどうしても機械っぽい音になってしまうことが多い。それに比べて、COTOHA® APIの音声合成技術は、人間の声自体をAIに学習させているので、まるで人が喋っているかのように発音が滑らかです。こうした特徴を活かして「AI SCANNER powered by COTOHA®」をつくりました。
※3…音声合成・デスクトップミュージック (DTM) 用のボーカル音源、およびそのキャラクター。
――具体的にはどのようなプロトタイプでしょう?
横山:台の上に本を置くと、上部に設置されたカメラが本のページを撮影し、撮影データからテキスト部分をデータ化。そのテキストデータがCOTOHA® APIに送られ、要約したデータと音声化されたデータが返ってきます。要約データはモニタに表示され、同時に音声でも読み上げます。さらには要約した内容がプリントアウトされて、ユーザーが持ち帰ることができる、というものです。
横山:書店や図書館で使うこともできますし、企業のオフィスに置いて推薦図書を読み込めば、社内コミュニケーションの活性化も期待できるのではないでしょうか。
山田:書店を経営している方に見ていただく機会がありましたが、「本の紹介の新しい形として使えそう」と言っていただいたり、このプロトタイプをヒントに、別の形でも音声合成技術を活用できるのではないかと思念してくださる場面もありました。NTTコミュニケーションズでは、これまでこういった形での提案はできていなかったので、このプロトタイプをもとに、お客様と一緒に発想し、新しい使い方をともに模索していきたいと思っています。
――「AI SCANNER powered by COTOHA®」は、ユーザーの考えを刺激する発想のタネのような役割を果たしているんですね。
今枝:実は、最初に横山さんから提案していただいたとき、面白いものになるのか不安に思っていた部分もありました。しかし、実際にできあがったのはデジタル色が強いAIにアナログな側面を組み合わせたプロトタイプ。読み込ませるために用意した本がアート雑誌だったことも含めて、「意味をつくる」という部分に対して、全体で一つのストーリーが描かれているように感じました。
今枝:これまでNTTコムでは機能にフォーカスした提案をしていましたが、機能ばかりに注目すると類似サービスとの開発競争が激しくなり、最終的には機能がコモディティ化して価格勝負になってしまいます。また、機能面についても最高レベルのものであるとはいえ、まだまだ開発の余地がある。完璧な機能を求めると、導入までにまだまだ時間がかかってしまいますが、こうして利用シーンを想像することができれば、活用できる場合も多くあることがわかりました。「AI SCANNER powered by COTOHA®」は、9月頃を目処に、大手町にあるNTTコム本社のオフィスツアー用にも展示される予定です。
――COTOHA® APIを使ったプロトタイプが他にもあると聞きました。
横山:「AI SCANNER powered by COTOHA®」を開発したのは、新型コロナウイルスが流行する以前のこと。そのあとコロナ禍へと突入し、4月頃からこの状況でできることはないかなと考えるようになりました。
当時はZoomやGoogle Meetなどのリモート会議ツールに日本語字幕が装備されていなかったため、COTOHA®の日本語処理技術を掛け合わせれば、日本独自のリモートコミュニケーションツールがつくることができるのではないかと思い、新たなプロトタイプ制作を行いました。言葉が交わされる場所であればどこでも使えるので、会議や製品発表会、ライブコマースなど活用の場はさまざまです。
横山:理想としては、ウェビナーなどで喋っている内容をリアルタイムで字幕として表示するだけでなく、話に出てきた専門用語などについて詳しく書かれたWebサイトや本をレコメンドする機能まで実装したいと思っています。プロトタイプは一旦つくり終えましたが、API側も開発していただければ、よりよくなると思いますし、そこはぜひみなさんとご一緒したいですね。
――今、AIはビジネスや生活の中にどんどん浸透しています。AIは量をこなしたり、学習して精度を上げていくことが得意。NTTコムではCOTOHA®をはじめ、さまざまなIT技術をお持ちですが、今後どういった形でそうした技術を提供していきたいと考えていますか?
山田:AI技術はこれからもどんどん進歩していくと思いますが、やはり「意味」を持たせないと技術の精度だけを上げても使いにくかったり、どうやって使っていいかわからない場合もあると思います。まずは私たちがユーザーのニーズや課題を把握し、そこに対して意味を伴った提案をできるようにしていかなければなりません。
今枝:APIは「部品」だという話をしましたが、AI自体は「道具」だと考えています。AIは人間の仕事や価値を奪うものではなく、仕事や生活をよりよくしていくための手段。NTTコムでは、便利な道具を提案し、私たち自身が働きやすくなる世界を実現していきたいです。
――常に状況を省みながら、何が働きやすさにつながるのか、どのようなニーズがあるのかをキャッチする必要がありますね。
山田:働き方やライフスタイルが大きく変わってきている中で、当然求められるものも変わってきます。同じ技術であっても、使い方次第でその時その時で「意味」を持たせられることもある思うので、技術を磨くことはもちろん、その技術をどんなふうに使っていけるのかを考えていきたいですね。
今枝:導入企業対しての提案はもちろん、NTTコムの社員もそういう考え方ができるようになっていけたら、会社自体が変わり、我々自身のニューノーマル時代の働き方、デジタルトランスフォーメーションにもつながっていくのではないかなと思います。
横山:AIって、“技術が進むほど、技術が見えなくなる”ものだと思うんです。AIが使われていても、そのことに気づかない。コールセンターでCOTOHA® APIを使って自動応答しているお話を聞くと、すでに一部で実現されているのかもしれませんが、NTTコムのみなさん、そしてサービスを導入するクライアントが考え方をシフトすることで、面白い世界をつくることができるんじゃないかなと思います。
アマナのFIGは、基本的に新しいものを使って意味を提示し続けるスタンスなので、新しい世界が来たら、その世界でまた次の新しいもので何ができるかを考え続けます。意味を持ったプロトタイプをつくり、誰かの目に触れて次のアイデアやサービスにつながる。今回ご一緒したような形を続けながら、世界の一歩先を進んでいきます。
【関連特集】コロナ禍で変わりゆく企業のコミュニケーション
撮影[interview]:劉 怡嘉(acube)
文・編集:徳山 夏生(amana)