●COMMUNICATION EYE Solution

優れた日本語テキストマイニングを実現し
明晰な分析を可能とした
「SPSS(R)Text Mining for Clementine」


■非構造のテキストデータを解析「Text Minning for Clementine」


 現在、一般企業内に存在するデータのうち、血液型、生年月日、性別、出身地といった構造データ(定量データ)よりも、構造化できないテキストベースのデータが約80%と言われている。このため、テキストデータの有効活用が、企業の意思決定に大きな利便性をもたらすという認識が高まりつつある。しかし、そういった企業が従来のデータマイニングソフトでテキストデータの分析を行おうとしても、日本語テキストの解析が複雑であり、テキスト解析ソフトとデータマイニングソフトの連携が弱く、膨大なコストが必要になるといった理由から手をつけられずに、テキストデータが放置されるケースが多かった。

 そうした中で近年、文書データから概念を抽出して情報を分析し、その分析結果を視覚化する「テキストマイニング」の手法が注目されている。その中でも、データマイニングやCRMの研究ではトップクラスであり、一貫したソリューションを提供しているSPSSは、フランスのLexiQuest社のテキストマイニングのツールをエンジンとした「Text Mining for Clementine(以下TMC)」を提供している(図1参照)。


図1 TMCに対応するClementineの画面

 SPSSは、1999年5月に日本でビジュアルデータマイニングツール「Clementine」を発売して以来、電子取引、通信、金融、小売、健康管理、政府、高等教育などさまざまな分野でユーザーを獲得し、データマイニング市場のトップリーダーとしての地位を確立していた。そのClementineの環境で、テキストマイニングを行えるPlug-inソフトとして新たに開発されたのがTMCである。ゆえにTMCはClementineによる既存の分析手法の延長線上で使用できる。加えて、奈良先端科学技術大学院大学が開発した形態素解析用ソフト「茶筌(ちゃせん)」を統合しているので、茶筌の機能によって各品詞ごとの単語(形態素)に分割される。さらにLexiQuestエンジンにより、テキストを言葉として意味のある単語の繋がりで抽出するので、構造化データに近い形式でClementineの中に取り込んで、普通の数値データと同じように扱うことが可能となる。例えば「彼は苦いビールが好きだ」といった文なら「彼/は/苦いビール/が/好きだ」と分割し、「苦い」と「ビール」との相関を崩すことなく、テキストの意味や背景を認識しながら、製品や人、組織といった関連性あるグループに用語を分類していくことができる。

 さらに、TMCはテキストデータをコンセプト単位に抽出し、引き出された情報を他のデータソースと結合して、クラスタリングや予測分析といった、従来のデータマイニング技術と共用するすることができる。これにより、次の段階で調査すべき課題や、どのコンセプトが一緒に起こり得るか、他に何にリンクされるか、何を示唆するのか、コンセプトはどのようなアクションを予測しているのか、といった分析が可能となる。図2は、抽出されたコンセプト同士の繋がりをMultiWebグラフで表示したものである。このグラフでコンセプト間の繋がりが一目でわかり、企業のブランド戦略に活かすナレッジの発見が可能となる。


図2 MultiWebグラフ

■業務の効率化を図るTMCのさまざまな適用分野

 SPSSは、テキストデータの情報を有効利用して、企業の利益増加と業務プロセスの改善に貢献することを目的として、TMCを例えば以下のような業態に向けて展開することを考えている。

・アンケート調査:新商品の発売やサービスの開発の際に行われる自由回答形式のアンケートからテキストマイニングを行うことにより、非構造データのテキストデータと構造化データの顧客データを組み合わせることができ、それによって顧客ニーズの高い分野の商品開発投入が可能となる。

・コールセンター/ヘルプデスク:コールセンターに日々寄せられる、製品やサービスへの問い合わせ、要望、クレーム等の内容をテキストデータで集積し、テキストマイニングの実行結果から、どのような購入履歴を持つ人が、どういった要望を出すのかを分析することができ、新たな発見からサービスの向上を実現する。

・銀行などの金融分野:顧客から寄せられたテキストデータを他のデータソースと融合し、金融市場のトレンド発見に役立てる。

・製薬:製薬関連の専門用語は年に5000語ずつ増加しているという。膨大な用語のコンセプト間の関連を探求し、製薬情報の検索力を向上して業務の能率を上げる。

・教育:レポートや作文等のテキストを解析することにより、進学指導や就職指導における有用なリソースを導き出すことができる。

 

 


Copyright:(C) 2002 BUSINESS COMMUNICATION All Rights Reserved