言語系AI技術の現在地点

機械(AI)が人間の言葉を理解できるようになるか、という課題は、AI関連の研究開発の中でも最大の難関とも言われている。

人間の脳の働きを模したニューラルネットワークでデータの特徴を捉えるAIアルゴリズムの高度化と、大量のデータによる機械学習でAIアルゴリズムのチューニングを行うコンピュータ技術の進展等により、人間の言語の研究を行う自然言語処理の分野でも近年多くのイノベーションが生まれている。

例を挙げると、音声認識の分野では、AIが音の特徴を捉えて音素列に変換する音響モデル(例えば、「とうぶん」という音を入力値として“toubun”という音素列を出力するAIモデル)の精度向上と、出力値の“toubun”という音素列が「当分」か「糖分」か、それとも「等分」なのか、といったことを大量の文例データの学習をもとに前後の文脈から推測する言語モデル作成技術の進展によって、この数年間で音声認識の精度が飛躍的に向上している。

また機械翻訳の分野では、AIが文の特徴を捉えて、文の文字列を“文意”を表す高次元の数値ベクトルに変換し、その“文意”を表す数列を翻訳先言語の文に戻すニューラル機械翻訳技術によって、翻訳業界に大きな変革が起きている。現在のAIの翻訳精度は、日英翻訳では、AI機械翻訳がTOEIC960点のビジネスパーソンと同等以上の翻訳を行えることが確認されている(NTT Comが提供するCOTOHA Translatorの事例)。

そのほかにも、AIがチャット等で自動応答を行う対話型AIの分野では、人間の言葉が表す意味をAIが数値ベクトル化する等の技術によって、人間の言葉の“意図”を従来よりも高い精度で抽出し、その意図に応じた返答をAIがより正確に行えるようになってきている。

実ビジネスに適用できるAIサービスの提供

このような近年のAI技術の進展を受けて、NTT Comでは、自然言語処理関連のAI技術を実ビジネスの現場で活用できるサービスとして、『COTOHAシリーズ』を展開してきた(図1)。

図1 NTT ComのCOTOHAシリーズ

「AIは実証実験やPoCの事例ばかりで、なかなか本格利用まで到達しない」という実用化に懐疑的な見方も世の中には多くある。言語系AIの分野でも、人間のように汎用的に言葉を使える万能型のAIは実現されていないが、COTOHAシリーズの提供を通じて、音声認識や機械翻訳、一問一答型やシナリオ型の自動応答などの特定の領域でAIが実ビジネスに適用できることを数多くの企業に体感していただいている。

“AI Everywhere” の推進

COTOHAシリーズは、これまで、実ビジネスに適用できる言語系AIサービスとして展開し、「言語系の分野でAIができること」を具現化してきた。

今後は、AIを活用したビジネスをさらに拡大させることを目的として、NTT Comのコミュニケーション系サービスにCOTOHAを組み込み、COTOHAが従来のコミュニケーションサービスを高度化するイネーブラーとなる“AI Everywhere”の展開を目指している(図2)。

図2 言語系AIで展開する“AI Everywhere”

具体的には、顧客接点を担うコミュニケーションサービスの領域で、フリーダイヤルやナビダイヤル等の電話サービスにAI音声認識/合成、AI自動応答を組み合わせて、簡単な電話の応答をAIで完結させる機能をオプションサービスとして提供する取り組みや、AI音声認識でテキスト化された通話内容を言語分析して、顧客応対やマーケティングに活かす音声マイニング(音声データからの価値の発掘)を行うオプションサービスの提供などに取り組んでいく。

これらの取組みにより、フリーダイヤルやナビダイヤルをご利用いただいているコンタクトセンターにおいても、簡単にAI自動応答や応答内容分析を組み込めるようにすることを目指している。

また、ワークスタイル変革の領域では、従来のTV会議やWeb会議にAI音声認識とAI機械翻訳を組み込んで、多言語会議の同時通訳や、会議内容の書き起こしメモを自動的に作成する会議サポートオプションサービスの提供、ストレージサービスと連携して、特定のフォルダ内に保存されたファイルをAIが自動的に翻訳する機能の組み込みなど、NTT Comが提供するアプリケーションサービスにCOTOHAを組み込んで展開していく予定である。

言語系AI技術の近未来

このように、言語系AIの実用化は、単品のサービス展開だけではなく、NTT Comの主要サービスに組み込めるところまで進んできた。

この言語系AIには、まだまだ未踏の領域も多く、今後の技術革新によっては、さらに大きなビジネスの変革が期待できる。

近い将来に実現が期待される技術革新としては、より精度が高く、チューニング等に人手のかからないAIモデルやAIエンジンの開発がある。

音声認識の分野では、雑音が多い環境でも正確な音素を認識できる音響モデルや、複数の人間の音声が重なった際に、話者の特徴を識別して、音声を分離して認識する技術の進展が期待されている。

機械翻訳においては、原文と翻訳結果が対になった対訳データがなくても、言語毎の個別学習で翻訳にも対応できるようにする技術などによって、多言語や方言などデータが大量には集まりにくい場合でも精度の高い翻訳モデルが作成できる改良が進んでいく。

自動応答に関しては、人間が作成したFAQや応対フロー(シナリオ)に従ってAIが動く形から進化して、オペレーターの応対ログをもとに、FAQや応対シナリオをAIが自動で作成した上で、言葉の意図の分析によって適切な回答やシナリオを正確に起動できるようになるブレークスルーを期待したい。

このような技術革新によって、優秀なオペレーターの応対をAIが自律的に学びながら成長して、人間をサポートする世界が実現していく。

そしてその先には、電話やチャットの向こうで応対してくれている相手が、人間なのか機械(AI)なのかを意識しなくて良い時代が来るのではないかと考えている。

<AI活用のことなら下記へ>

ai-strategy-ac@ntt.com