最新技術トレンド

音声対話技術

NTTデータ 技術開発本部 インフォメーションデザイングループ
森島 昌俊(もりしま まさとし)

◆誰もが使いやすいITシステムを

 近年、ネットワークインフラはブロードバンド化が進められており、ウェブシステムを中心とするITシステムは、利用者の利便性をさらに向上させている。しかし、ITシステムは急速に高度化しているにも関わらず、人間らしさが感じられない無機質な世界が主であり、IT技術の専門家でない人にとって、必ずしも使いやすいわけではない。その結果、情報リテラシー(情報を取得する能力)の違いによる利用者の情報格差の問題(デジタルデバイド)が生じているのが実状である。

 一方、モバイルネットワークの普及により、いつでも、どこでも、誰とでも、通信が可能なユビキタス社会が整備されつつある。さらに、ネットワークの大容量化が進むにつれ、モバイルコミュニケーションはマルチメディア化され、「フェイス・トゥ・フェイスの会話」というもっとも親しみやすいTV 電話機能さえ実現させた。結果として、人と人のコミュニケーションの手段は、「音声通話」「メール」「TV電話」と様々な形態が提供されているのである。

 様々な利用者がこれらのコミュニケーション手段から自分の好きな形態を選択して、ITシステムにアクセスする仕組みを設けることにより、より多くの人々がITシステムの恩恵を受けることが容易になる。このようなアクセシビリティの向上により、人に優しい健全なIT社会の発展を促進させることができるのではないだろうか。音声対話はユーザインタフェースに不可欠な技術であり、周辺技術との組み合わせにより、その効果は飛躍的に大きくなると言える。

◆音声対話とは

 音声対話技術は、音声入力、あるいは音声認識と一言で呼ばれることが多いが、音声認識、声紋認証、音声合成と、これらをコントロールする対話制御など様々な技術の集合体で構成されている。その主な適用先は、@IVR(Interactive Voice Response)、AITS(Intelligent Transport Systems)、Bロボティクスなどである。

@IVR
 電話によるお客様窓口などに採用されている自動応答システムのことであり、音声対話を用いたシステムとしては、最もよく導入されている。対話制御、音声認識、声紋認証、音声合成などの各技術を用いて、利用者の発声を誘導することによって、その目的を達成させる。

AITS
 カーナビのルート検索に用いる音声認識や、通信機能を搭載した際の音声合成によるメール読み上げを思い浮かべて欲しい。安全面から、ドライバーの注意力低下(ドライバー・ディストラクション)を重視する必要があり、他のセンシング技術と連動した適切な制御を用いることとなる。

Bロボティクス
 ペットロボットとのコミュニケーション方法のひとつとして音声対話が採用されている。カメラから入力される映像と複数マイク(マイクロフォン・アレイ)から入力される声により人間の方向を判断し、音声認識/合成で対話する。

 ここでIVRの一例として、NTTデータのテレフォニー戦略ブランド「VOISTAGE(R)」を図1に紹介する。 VOISTAGEは、GUIによるアプリケーション作成ツールで対話シナリオのコンテンツ(VoiceXML)を作成し、VoIPを含む電話網制御、音声認識/合成による自動応答を実現する製品群である。


図1 VOISTAGE

◆音声対話の未来

 音声対話技術の中で、今、盛んに研究開発されているテーマのひとつに、話し言葉の音声認識がある。日本でもディクテーション(口述筆記)と呼ばれる音声認識ソフトウェアは各社から販売されているが、これらは新聞のように日本語に正確な文法の音声でなければ性能が著しく劣化するケースが多い。しかし、一般に声を文字へ変換したい場面では、話し言葉であることが多く、これを実現するために日々開発が進められている。

 また、音声対話の周辺技術として、ここ数年、注目されているトピックにVoiceXMLとマルチモーダルユーザインタフェース(MMUI)がある。VoiceXMLは、W3Cで勧告されているマークアップ言語であり、対話シナリオをXMLで記述できる。システムとコンテンツを分離することが可能な上、異なるベンダーのシステムであってもVoiceXMLに対応していれば移行が比較的容易であるため、サービスプロバイダーはコンテンツプロバイダーとシステムプロバイダーを自由に選び、組み合わせることが可能となる。

 MMUIは、様々なモダリティ(入出力手段)が利用可能なとき、最も有効な手段で情報を入出力できるようユーザインタフェースを設計する技術であり、適切に導入すればユーザビリティが大きく向上する。ここで次世代型テレフォンバンキングを考えてみる。今のテレフォンバンキングは、電話(音声通話)をかけるとシステムが応答し、必要な情報を音声入力あるいはプッシュボタン入力すると、その結果、残高情報などが音声で再生される。しかし、電話からTV 電話に変わるとどうであろう。入力手段に音声入力と映像入力、出力手段にも音声出力と映像出力が利用でき、複数のモダリティが使える、いわゆるマルチモーダルとなる。この場合、図2 のように、バンキングサービスにアクセスすると、顔画像認証が実行され、セキュリティチェック(ユーザ認証)される。次に音声出力で質問されるので、音声入力で「残高照会をお願いします」と発声すると、その結果、最近の入出金の履歴(残高情報)の映像に映し出される、といった具合である。


図2 マルチモーダルユーザインタフェース

 以上のように、音声対話は難しい技術ではあるが、様々な技術と組み合わせ、適切に設計されたとき、サービス自身を大きく差別化するための重要な要素となるであろう。

●この記事へのお問い合わせ先
 E-mail:morishimam@nttdata.co.jp

●VOISTAGEへのお問い合わせ先
 E-mail:info@voistage.com
 URL:http://www.voistage.com

 

 


Copyright:(C) 2002 BUSINESS COMMUNICATION All Rights Reserved