現場におけるデータサイエンス

ビジネスの現場で常に求められるのは、効率化と品質。NTTデータ数理システムは、生産現場における材料の配合や人員配置計画に加え、ラインの割当や在庫調整などに使われる数理最適化技術、ビルの制震アクチュエーターの動作量をリアルタイムに算出する強化学習とシミュレーションの技術、そして、大量なセンサーデータの値の組み合わせによる異常検出を行う機械学習技術など、ビジネスの課題を解決するために多くのデータサイエンス技術を提供してきた。今回それらをビジネスの現場に活かし、効果を得るためのコツを、組織的・技術的の両面から紹介する。

【その1】ビジネス担当者が主体

データドリブン経営の要は、現場を知った上でデータ活用をすることである。単に技術を適用すれば成功するものでない。これは多くの識者が指摘する通りである。データサイエンス技術の適用には、様々な手法やその利用についての専門知識をある程度持つことが必要だが、何よりも重要なのは、そのビジネスをよく知っていることである。例えばモデリングを行う際、教師となるデータが存在するのかしないのか、そもそも目的変数を決めたほうがよいのか決めないほうがよいのか、何を結果として出せばビジネス成果に結びつくのか、といった分析上の様々な観点は、そのビジネスに精通している人間だけが見極められる。そして、データサイエンティストにビジネスを勉強させるよりも、ビジネスの担当者がデータサイエンスを勉強するほうが手っ取り早い。それを考えると、ビジネスの担当者が主体となり、データサイエンス活用のためのプロジェクトを推進する方が、はるかに効率が良い。その上、昨今技術を活用するためのツールは数多く存在し、言語によるプログラミングをしなくても機械学習やシミュレーション、最適化が行える時代である。できる限りそのビジネスの担当者がツールを活用し、主体となって進めることで、効果の高い適用が実現できる。

【その2】過程の見える化・共有

統計解析にはR、機械学習にはPythonと、データサイエンスにはプログラミングを伴う場面は多い。もちろんツールを使うことでそれらを避けることはできるし、高度な技術活用の場合には、ベンダーを利用することも可能である。しかし、それを絶えず変化していく現場に合わせてメンテナンス・拡張していくには、どのようにその技術を適用しているのかを見える化し、共有しやすくしておく必要がある。RやPythonで書かれた処理も、別のメンバーが利用したり手軽にメンテナンスできるように環境を整えておきたいところだ。多少の費用がかかっても、見える化と共有のための対策を打っておいたほうが、トータルでの費用対効果を上げることができる。

図1 データサイエンス技術を形として表す「モデル」が作られた過程を見える化・共有

【その3】PDCAをまわす

最初は、単独の技術を用いて、シンプルな課題を解決し、実績を作ることが何よりも重要である。それによって周囲の理解が得られ、協力も得やすくなる。データサイエンスによる業務の変化は、従来の方法に慣れている人にとっては、脅威であり、不安を煽るものである。不安解消に一番効率的なのは、1つ1つの小さな改善の効果を少しずつ実感してもらうことだ。そして新たに生まれた課題を次のステップで更に改善し、徐々に範囲を広げていく。このPDCAサイクルを、見える化・共有をうまく活用して回し続けることが、最終的には大きな改善に結びつき、大きな成長をもたらす。

【その4】複数技術を組み合わせる

PDCAサイクルを回し続けると、課題も高度化し、単体の技術では実現できない課題も出てくる。例えば、数理最適化で組んだ生産計画で低コスト化が実現できたが、さらなるコスト削減を求められたとする。その場合、計画の精度を上げるよりも、その前提である需要予測をきちんと行うことで計画の精度を上げる方が現実的である。つまり、数理最適化に機械学習等の手法も合わせて利用することで、課題のクリアが容易になる。また、例えば、生産計画は立てたものの、材料の仕入れに遅れが生じ、計画自体がよく破綻するとする。これに対しては、起こりうるリスクを加味したシミュレーション技術を適用し、効率性に加えロバスト性も考慮した計画で破綻を防ぐ、といった方法が考えられる。

【その5】システム化を考慮した環境選択

PDCAを回しつつも、日々の業務に適用するには、システム化が必要となる。このとき、それまでの成果が個人の環境に限定されて動作するものだった場合、改めて実装を行う必要が出てくる。可能であれば、最初からシステム組み込みが容易な環境を用いて、技術開発を行っておくのが理想である。例えば、既存の成果がプログラミング言語で実現されていれば、システムにそのまま組み込めるだろう。しかし、ビジネスの担当者がプログラミングをマスターすることはハードルが高いため、ビジネス担当者が利用でき、かつ、システム組み込み可能なライブラリやプログラムを出力できるツールを当初から選択しておくことが望ましい。

新統合プラットフォームMSIP

データマイニング・機械学習ツールのVisual Mining StudioやDeep LearnerのプラットフォームであるVisual Analytics Platformは、NTTデータ数理システムが提供するデータ分析のための基盤である。

図2 新統合プラットフォームの構成イメージ

分析のフローがビジュアルで表現でき、統計解析や機械学習、数理最適化やシミュレーションが組み合わされ、ワンストップで実行できる。そして2020年には、これらがWebアプリケーションとして実現され、見える化・共有はもちろんPythonプログラムでの拡張やPythonライブラリとしても利用可能な新統合プラットフォームMSIPがリリースとなる。Pythonインターフェースから大規模データも扱うことができ、システムのWebインターフェースとしてREST APIも持つことから、アプリケーションサーバーとしての利用も可能。データサイエンスのビジネスへの適用の幅が格段に広がるだろう。

〈データ分析プラットフォームのことなら下記へ〉

https://www.msi.co.jp/vap/