NTTグループのソリューションガイド

ICTソリューション総合誌 月刊ビジネスコミュニケーション

ビジネスコミュニケーション

「gooラボ」、日本語解析技術APIを公開

検索技術の裏側を公開し、オープンイノベーションを加速

NTTレゾナント

NTTレゾナント株式会社は、日本語解析技術に関するAPIを「gooラボ」にて公開した。本技術は、NTT研究所が開発し、長年「goo」にて利用してきたものだ。

背景

「goo」は、1997年の提供開始より長年をかけてWeb検索に関わる技術やノウハウを蓄積し、またNTT研究所との連携により、世界有数の技術力も有する。一方で、Web検索技術が、自社コンテンツを提供する企業やビッグデータ解析技術を求める企業においても活用が見込まれることから、gooの持つ技術やノウハウを「gooラボ」にて順次公開することとなった。

公開内容について

第一弾となる今回は、ビッグデータ解析などにおいて必須となる要素技術である「語句類似度算出」「ひらがな化」「固有表現抽出」「形態素解析」の日本語解析API 4種を公開した。今回公開するAPIの活用により、分析対象となるビックデータが日本語で書かれた文章の場合、単なる文字列の集計だけではなく、より書かれている内容に基いた分析ができるようになる。

・「語句類似度算出」

2つの語句(キーワード)に対して、構成単語や音素の情報を踏まえて、その類似度合いを算出するAPI。

例えば、“トーキョー”や“東京”といった似通った発音を持つ違う表記の語句を、類似度合いにより同じ語句と見なすことができる。このような特徴を持つ語句類似度算出機能により、今まで目視などで行っていたデータ統合作業を自動化し、データ分析の精度と生産性を向上させる。

・「固有表現抽出」

トレンドや評判の解析に必須となる人名や地名、組織名などを抽出する。

例えば、“鈴木さんがきょうの9時30分に横浜に行きます。”という文字列からは、人名として“鈴木”、地名として“横浜”、日付表現として“きょう”、時刻表現として“9時30分”がそれぞれ抽出される。抽出されたものを分類して集計することにより、SNS上の投稿のなかで最近話題になっているスポットを発見するといった分析を行うことが容易になる。

・「ひらがな化」

漢字混じりで書かれた文字列を”ひらがな”もしくは“カタカナ”による記載に変換する。

例えば、“漢字が混ざっている文章”という文字列を、“かんじが まざっている ぶんしょう”と変換する。変換後の文字列は、読みやすいように文中の適当な位置に半角スペースが挿入されるので、子供向けコンテンツの作成などに用いることができる。

・「形態素解析」

日本語の文字列を、形態素と呼ばれる単位に分割する。

例えば“この商品が大好きです”という文字列は、“この”、“商品”、“が”、“大好き”、“です”というように分割される。この解析結果を集計することにより、自社製品のレビュー記事からどのような表現でよく評価されているかといった分析を行うことが容易になる。

図1

※単なる表記の集計では"東京"と"トーキョー"が別物と認識されますが、本機能を用いて"東京"と"トーキョー"、"TOKYO"を同一のものと判別し集計することができます。

図1(クリックで拡大)

お問い合わせ先

NTTレゾナント株式会社
広報担当
E-mail:pr@nttr.co.jp

会社概要 NTT ソリューション 広告募集 ページ先頭へ
Copyright:(C) 2000-2017 BUSINESS COMMUNICATION All Rights Reserved. ※本サイトの掲載記事、コンテンツ等の無断転載を禁じます。