NTT Comが、世界最大級210万語超の日本語辞書を活用した日本語の自然言語解析APIを提供開始
NTTコミュニケーションズ(以下、NTT Com)は2018年9月5日、日本語の自然言語解析API「Communication Engine “COTOHA® API”」(以下、COTOHA API)の提供を開始した。
このAPIは、同社が2016年10月から提供している日本語による対話が可能なAIエンジン「Communication Engine “COTOHA® Virtual Assistant”」の自然言語解析技術を、さまざまなサービスに手軽に組み込めるようAPIとして提供するもの。NTTグループが40年以上にわたって蓄積した日本語辞書やAI関連技術「corevo®」と、NTT Comが独自開発した自然言語解析技術を活用し、的確な日本語の理解による自然な対話を実現している。
「COTOHA API」の特長
1. 世界最大級の日本語辞書
日本語のさまざまな意味を理解できる基本語辞書と、企業名や業界用語に対応する専門用語辞書を合わせた210万語超の日本語辞書を活用している。専門用語辞書は、「COTOHA API」提供にあたり新たに追加するもので、企業や団体の固有名詞、経済や法令に関する用語、製造業や情報通信業などさまざまな業界の用語に対応している。収録語彙については、定期的なメンテナンスを行うことで有用性の維持向上を図る。
2. 文脈も踏まえた正確な日本語理解
NTTグループ独自の高度な日本語構文解析技術と、単語を3,000種の意味属性に分類できる日本語語彙大系を基礎技術として活用しており、単語の意味を正確に捉え、文脈に応じて変化する言葉の意味も理解することが可能。
3. 個別辞書設定およびAPIパラメータ設定による精度向上
すべてのユーザーが共通して利用できる1.の辞書に加え、ユーザー専用の個別辞書を設け、ユーザー自身で編集することができる。また、解析の目的に応じて、参照する辞書の選択や出力するキーワード数など、APIのパラメーターをカスタマイズすることが可能である。これにより、さらに精度の高い自然言語解析を行うことができる。
「COTOHA API」の機能を以下に示す。
提供するAPIは、構文解析、固有表現抽出、照応解析(β版)、キーワード抽出、類似度算出、文タイプ判定、ユーザー属性推定(β版)の7種類だ。構文解析は、日本語の文章の構造と意味を解析する。固有表現抽出とキーワード抽出は、文章からそれぞれ人名や地名などの固有表現、あるいはキーワードを抽出する。照応解析は、「あれ」「これ」「それ」「そこ」などの指示語や省略語を検知し、指し示す対象を特定する。類似度算出は、2つの文章の類似性を数値化して出力する。文タイプ判定は、あいさつや同意、約束などの発話行為のタイプ判定と、叙述文、命令文、質問文などの文タイプを判別する。ユーザー属性推定は、文章からユーザーの年代や職業といった属性を推定する。
なおNTT Comでは、検証用として無償でご利用いただける「for Developers」と、商用の「for Enterprise」の2つのメニューを提供している。
詳細はNTT Comによるニュースリリースを参照
https://www.ntt.com/about-us/press-releases/news/article/2018/0905.html