データ駆動経営へ進路をとる 飛躍的に高まるアナリティクスの重要性

2017.09.06
リスト
このエントリーをはてなブックマークに追加

IoT時代の今日、スマートデバイスやカメラ、センサーといった様々なデバイスが膨大な量のデータを生み出している。これまでの業務データに加え、これらの新しいビッグデータを分析・活用できるかどうかは、「データ駆動経営」といったキーワードが示唆するように決定的に重要である。それを実現するために、どんな取り組みが必要だろうか。ここではアナリティクスの進化、データレイクの構築、そして富士通のアプローチを紹介する。

進化するアナリティクス

データ分析と言えば、一般に問題が起きていないか、起きたとすればどんな状況かなどを視覚的に把握することを指す。小売業なら売上高推移や顧客ごとの取引履歴、製造業なら品質データや出荷金額などを、統計手法を駆使して調べるのである。

しかし今日のアナリティクスはこれに留まらない。起きたことの原因を探る「診断的分析=Diagnostic Analytics」、見えなかったことを見えるようにする「予測的分析=Predictive Analytics」、さらに何をすべきかを提示する「指示的(処方的)分析=Prescriptive Analytics」へと広がっている。従来の分析は「記述的分析=Descriptive Analytics」と呼ばれる。

整理すると、記述的分析では分析対象は構造化データで判断は人が担う。予測的分析ではセンサーデータなど非構造のビッグデータを使って、データが持つ因子同士の関係を抽出したり、機械学習でモデルを作る。モデルにより、例えば先行きを予測するのだ。指示的分析は、「明日は真夏日になるから、飲料の仕入れ数を10%増やしなさい」というふうに、今後何をしたら良いのかを示す。

今もなおアナリティクスが簡単でないことは事実だが、一方で”未来を計算する”ような予測的分析、指示的分析が一般化しつつあるのだ。この”アナリティクスが実現することの拡がり”が、データ駆動経営が重要となる理由である。

データ駆動経営とデータレイク

つまりデータ駆動経営は必然であり、お勧めしたいのが「データレイク」の構築である。データレイクとは各種のビッグデータを一元的に蓄積し、必要に応じて取り出して分析できるようにする、言わば「アナリティクスのためのデータ蓄積庫」である。異なる川からの水(データ)を受け止めて整然と溜め、発電や飲料水など多様な目的に供給する湖(レイク)になぞらえて、こう呼ばれる。似た概念にデータウェアハウス(DWH)があるが、こちらは構造化データが対象。データレイクは画像や音声、センサーデータなど非構造化データも対象とする。この点で相互補完的である。

データレイクをどう構築するか、決まった方法はない。(1)レイクなので特定の用途を意識したデータ加工はせず、元データの性質を保存する、(2)必要なデータを取り出しやすいようにメタデータ管理を行う、といったことを実現できるなら、RDBでもファイルサーバーでも構わない。

とはいえ一般的なのは、ビッグデータ処理のソフトウェアである「Hadoop」を活用する方法である。Hadoopは「HDFS(Hadoop Distributed File System)」と呼ぶファイル管理の仕組みに加え、管理するファイルを並列分散処理により高速に抽出し、加工し、分析する仕組み「MapReduce」も備えているからだ。

比喩的に言えばHDFSは湖。そこから特定の水を取り出して利用するには、ゴミやホコリを濾過する必要があり、そこにMapReduceが使える。具体的にはデータに含まれる異常値やノイズなどを除去し、あるいは異なるデータ同士の単位や時間を調整して分析できる形に整形する。こうすれば、一般のBIツールによるデータのビジュアル分析も可能になる。

Hadoopの実用性は飛躍的に向上

ただしオープンソースソフトウェアとして入手できるHadoopには、いくつかの使いにくさもあった。早くからHadoopに着目してきた富士通は、問題解消に向け、様々な工夫を行ってきている。Hadoopの実用性が十分であることを示すため、ここでは2つの代表的な改善点を紹介しよう。

Hadoopの課題の1つは様々なシステムが生成、蓄積するデータをHDFSに転送するのに手間がかかること。HDFSからダウンロードする処理も含めて運用上の大きなボトルネックだった。そこで富士通は通常のインタフェースでアクセスできるストレージ上にあるデータを、HDFS上のデータとしてもアクセスできる分散ファイルシステムを開発した(図1)。転送処理が不要になり、運用を大きく改善した。


図1:性能と運用性を向上させたHadoop

2つ目は、HadoopのMapReduce処理をJavaで記述しなければならないこと。Hadoop Streamingを使えば他の言語でも可能だが、いくつか制約が残る。富士通は「Hadoopマルチプレクサ」と呼ばれる複数ファイル入出力機構を開発した。これにより、機械学習をサポートするR言語などで書かれたソフトウェアも、Hadoop上で動作させることができる。こうした工夫をしているのは、もちろん富士通だけでない。Hadoopには、”エコシステム”と呼べる経済圏があり日々、問題は解消され、利便性は上がっている。

アナリティクスへの取り組みを急ぐべき

最後に富士通のアナリティクスへの取り組みについて、言及しておきたい。詳細には触れられないが、例えば予測的分析では、ランダムフォレストなどの機械学習、回帰分析やARIMAモデル、クラスタリングなど様々な分析手法を駆使する(表1)。しかしこれらの分析手法を使いこなすのはいまだに難しい。機械学習や分析ソフトウェアにデータを流し込むだけでは精度の高い予測は実現できないためだ。


表1:主な需要予測の分析手法

需要予測を例にすると、店舗や商品によって売れ方の傾向が違うため、ある分析手法を一律に採用しても精度が上がらないことは経験的に知られている。気象や気温などのデータや店舗の環境、来店客数などのデータを組み合わせることで、ようやく実用的な結果が得られる。アナリティクスには試行錯誤が必要なのだ。

富士通は、こうしたノウハウを蓄積するとともに、前述したデータレイクをコアとする様々なソリューションやサービス開発に取り組んでいる。その1つがHadoopをベースに、データレイクと分析、可視化の仕組みを統合したデータ活用・分析基盤、「Operational Data Management & Analytics」である。一方、富士通に限らず、こうしたソリューションは数多く存在する。読者には、それらを活かしてアナリティクスの実践にぜひ取り組んでほしい。データ駆動経営へのジャーニーは、一朝一夕には終わらない長い道のりである。取り組みへの着手は早いほど良いのである。

執筆者:倉知 陽一(富士通 デジタルソリューション事業本部 シニアディレクター)

この記事は、IT Leaders特別編集版『Knowledge Integration in Action 2017 in Summer』からの抜粋です。

トップ写真:miakievy/Getty Images

EVENTイベント