最新技術トレンド

テキストマイニング

NTTデータ 技術開発本部 開発担当
インフォメーションデザイングループ
北内 啓(きたうち あきら)

◆背景
 コンピュータやインターネットの普及にともない、ウェブページをはじめ様々な種類の文書データが急増している。またインターネット上だけではなく企業においても、自由記述によるアンケート、コールセンターのコンタクト履歴、営業日報などの情報が、紙ではなく電子データとして蓄積されるようになってきている。このような文書データの内容を人手によって分析するのは非常に手間がかかるため、文書データをコンピュータによって自動的に分析し活用したいというニーズが大きい。

 商品の売上金額のような、数値データの分析に関しては、データマイニングと呼ばれる技術によってすでに活用が進んでいる。しかし、文書データは明確な構造をもたず分析が困難なため、文書データの活用技術は最近まで情報検索による文書の絞り込みのレベルにとどまっていた。

 そこで、文書データのより高度な活用を実現するためにテキストマイニングと呼ばれる技術の開発が進んでいる。インターネットや企業などに蓄積されている大量の文書データを活用する手段としてここ数年注目されている。

◆テキストマイニング技術の概要
 テキストマイニングは、テキスト処理技術やデータ解析技術を利用して文書データを分析し、新しい有益な情報を見つけ出すための技術である。また、新聞記事とその日付データのように、文書データとそれに付随する数値データを同時に解析することもテキストマイニングに含まれる。

 テキストマイニングには様々な手法が提案されているが、大きな流れとして、@概念の抽出、A情報の分析、B分析結果の視覚化、の3つの段階に分かれている(図1) 。


図1 テキストマイニング技術の概要

@概念の抽出では、文書データを形態素解析や構文解析などのテキスト処理技術を用いて解析し、単語や語句などの要素(概念)を抽出する。また、単純な語句だけではなく「何をどうした」のような語句間の関係をひとつの概念として抽出する場合もある。例えば、「商品Aの塗装が弱いというクレームがあった。」という文から、「商品A」「塗装」「クレーム」「塗装が弱い」などの概念が抽出される。

A情報の分析では、データ解析技術を用いて文書データ全体の傾向や特徴、あるいは@で抽出された概念間の相関関係などを分析する。例えば、頻出する概念を求めることによって文書データの内容の傾向を推定したり、概念と概念の関連性を分析することによって、今まで気づかなかった関係を発見したりできるようになる。

B分析結果の視覚化では、様々な可視化技術を利用し、ネットワーク図や散布図など、人間にとって理解しやすい形で分析結果を提示する。


 以上の処理によって、利用者は文書データの特徴的な内容や、記述されている事柄の関連性などを把握することができる。例えば、自動車メーカーに対するアンケートデータから、すべての車種に共通する意見や特定の車種に対してのみ多い意見はどのようなものか、性別や年代によってどのようなニーズの違いがあるのかといったことが分かり、将来の製品開発などに活用することができる。

 テキストマイニングの適用事例は数多く報告されており、富士通の「Symfoware Text Mining Server」、IBM の「TAKMI」、SPSSの「Text Mining for Clementine」など各社でテキストマイニングツールの製品化および実用化が始まっている。一例として、NTTデータが開発したKnowledgeoceanTMを紹介する。「Knowledgeocean」は、パターンマッチングエンジンを用いた強力な特徴抽出機能を備えており、商品の取引内容や会社の提携関係などの複雑な概念を柔軟に抽出できる(図2)。分析処理では、例えば図3のように映画評論の文書データから文書の属性(映画の題名)と概念(俳優名など)との関連性を分析して、その結果をネットワーク図で視覚化できる。さらに、不要な概念を削除して分析結果にフィードバックする機能をもつ。


図2 「Knowledgeocean」の概念抽出機能


図3 「Knowledgeocean」の相関関係分析機能

◆おわりに
 テキストマイニングはマーケティングやCRMなどの分野で普及が進む一方、遺伝子情報解析や国家セキュリティなどの分野でも適用が始まっている。しかし、技術的な課題もまだ多い。例えば、現状では重要な知識を完全に自動的に発見することはできておらず、最終的には専門知識をもつ分析者のスキルが必要となっている。また、未知の専門用語を自動的に発見して自動登録を行うことや、重要な概念を抽出するための規則を自動的に作成することも課題としてあげられる。このような技術的な課題を克服することによって適用範囲が広がるとともに、より高度な業務への応用が可能になると期待される。


お問い合わせ先
E-mail:kitauchia@nttdata.co.jp

 

 


Copyright:(C) 2002 BUSINESS COMMUNICATION All Rights Reserved