2017/07/06
こんにちは。ビッグデータマガジンの廣野です。
今回は、いつもの「統計解析」シリーズではなく、統計解析をストレスなく使えるBIツール『TIBCO™ Spotfire®』の最新バージョンについて、ユーザーの目線からご紹介したいと思います。
すでに過去の記事でもたびたび取り上げられているSpotfireですが、最新バージョンである7.5では、私のように実務でデータ分析を担当する者にとって“かゆいところに手が届く”機能が追加されています。
これまでご紹介してきた統計解析の手法についても、すべて標準でサポートされていますので、これから自社で統計解析を活用していきたい方や、すでに活用を試みるも上手くいっていない方は、ぜひご一読いただき、ツール選定のご参考にしてください。
■身近になってきたが、実務での活用はまだまだ少ない統計解析
統計解析を活用しようとすると、まず手頃なレベルの入門書を一読し、一日ものの統計解析研修に参加してR言語等に触れてみて、いざ自社のデータで試そうとしたら上手くいかず、原因もわからないので結局いつもの通りエクセルで平均値を出してグラフ化している・・・なんて経験、ないでしょうか?
「量が質に転化する」のは、統計解析の習得にも当てはまることです。統計のお勉強ならまだしも、ビジネスで使いこなそうと思うと、基本的な理論は押さえつつもあとは実際のデータで慣れないと他者が納得するような分析結果は得られないものです。
以降では、データ分析で発生する代表的なプロセスにおいて、Spotfireでどのように効率化できるのかを具体的に解説していきます。最新バージョン以前から対応している機能も含まれますが、活用場面をより理解しやすいと思います。
—–データ分析で発生する代表的なプロセス—–
1.データの取得
2.データクレンジング
3.データの可視化(ビジュアライゼーション)
4.統計解析
5.データ分析の結果共有
■活用場面1 データの取得
Spotfireそのものにデータを蓄積する機能はありませんが、様々なデータベースからデータを取得することができます。この点については、他のBIツールも同様の機能を有していますが、Spotfireでは『インフォメーションリンク』という独自の機能があり、データ取得~加工の手間を削減してくれます。
『インフォメーションリンク』は、いわゆるクエリを編集・発行する機能で、様々なデータベースから必要なデータ項目・期間・量のデータを抽出し、予め設定した形のデータテーブルとしてインポート(Spotfire上に取得)してくれます。
通常、このような処理はSQL文を書いたり、Access等のツールでデータテーブル間のリレーション(データ項目同士のつながり)を定義したりしなければならないのですが、Spotfireではこれらのツールに頼らず、この『インフォメーションリンク』で簡単に設定できます。一度設定した『インフォメーションリンク』は保存して使い回すことができます。
この時点で、不要なデータ項目が除かれるので、データ量を抑えること(=分析の高速化)ができますし、毎回、異なるデータテーブルをマージ(統合)する手間からも開放されます。ユーザーが自分で欲しいデータを抽出・再構成できるので、いちいち情シス部門に依頼する面倒もありません(もちろん、ユーサーが扱えるデータテーブルに制限もかけられます)。
『インフォメーションリンク』ではバッチ処理のように、ユーザーが指定した時間に自動的にデータのインポート処理を行うこともできますので、後述する「データの可視化」で設定したダッシュボードの結果を定期更新することも自動化できてしまいます。単なるデータ更新のように付加価値の低い業務は、『インフォメーションリンク』でどんどん効率化しましょう!
(『インフォメーションリンク』はサーバー版のみ対応)
■活用場面2 データクレンジング
「データ分析に費やす時間の約8割はクレンジング作業」と言われますが、データを取得した後、実際にデータ分析ができる状態まで加工する作業には膨大な時間がかかります。このプロセスは、データ分析で価値を生み出す手前のプロセスなので、極論すると価値を生んでいない時間です。できるだけ素早く、効率的に終わらせたいところですが、現実はなかなか上手くいかないものです。なぜなら、全てのデータは個別に“クセ”を持っているため、それを読み解くところから始めなければならないからです。
というわけで、クレンジングの第一歩は、データの中身(分布)がどうなっているのかを確認することです。ヒストグラムや散布図といった記述統計を駆使して、外れ値や異常値・欠損値が入っていないか、それらはどのようなルールで混入しているかを把握します
データの可視化が有効な場面ですが、Spotfireではユニークな機能で、このプロセスをサポートしてくれます。それが『データパネル』です(図2)。
各カラム(列、データ項目)を選択すると、ヒストグラムを自動で作成してくれます。これで外れ値や異常値の存在が確認できますし、データの型も確認・変更できます。
また、空の行(空欄、欠損値)がいくつ含まれるかも示してくれて、置き換えも可能です。
というわけで、データ取得したら、まずSpotfireにインポートしてしまい、この『データパネル』を確認しながらクレンジングの方針を考えるのが効率的です。
一度クレンジングの方針が決まってしまえば、Spotfire上でも計算カラム等の機能で変換処理はできますし、前項のインフォメーションリンクの設定で処理できることも多いでしょう。
なお、この機能はver7.5から搭載されました。
■活用場面3 データの可視化(ビジュアライゼーション)
セルフサービスBIの売りである美しいデータの可視化は、Spotfireにも備わっています。特にマップチャートの機能は強力で、緯度・経度の情報から、数センチ単位の位置のズレまで正確に識別して、地図上にプロットしてくれます。昨今、IoTブームでセンサーデータの活用が注目を集めていますが、センサーで取得されたユーザーの位置情報などをもとに商圏分析等を行う際にも有効です。
他にもビジュアライゼーションにはたくさんの機能がありますが、我々の業務を効率化してくれるという視点では、『推奨されるビジュアライゼーション』の機能が便利です。これは、データの分布をSpotfireが自動的に解析して、最適なグラフをおすすめしてくれる機能です。まだ慣れないうちは、どんなグラフで見るデータの特徴や傾向が見やすくなるか、けっこう悩むものです。そのようなとき、この『推奨されるビジュアライゼーション』が良きガイド役となってくれます。おすすめしてくれたグラフをいくつか見てみて、そこから発想を広げるのも有効でしょう。
■活用場面4 統計解析
数あるセルフサービスBIツールの中でも、Spotfireの解析機能は群を抜いて多彩で強力です。個人的には、Spotfireの最大の“売り”だとも感じています。
Spotfireには標準で高度な統計解析の機能が搭載されています。それらは複雑な設定は不要で、解析速度も高速であるため、探索的なデータ分析や、仮説検証の繰り返しに最適です。1つの仮説が外れた時、その場ですぐに次のアイデアを試せるというのは、想像以上に多くの付加価値が有ります。ビジネスのプロフェッショナルと統計解析のプロフェッショナルが対話しながら分析することで、短い時間で多くの成果が得られるのです。
昔であれば「ちょっと分析の設定を変えて結果を出してきますので、1日待ってください」なんて会話が横行していましたが、そのスピード感の無さによる弊害は、容易に想像できると思います。
また、TERR(TIBCO Enterprise Runtime for R)と呼ばれる機能は、TIBCO 社が R 言語との完全互換性を確保してゼロから構築した、エンタープライズ品質の分析エンジンであり、処理速度は本家のR言語の約10倍という驚くべきものです。メモリに乗る量のデータしか扱えないのがR言語の弱点ですが、Spotfireはデータを自動的に圧縮してメモリ上で処理しますので、この弱点も補完しています。
この機能を使うことで、多くのR言語のパッケージが利用できますので、R使いにとっては非常に魅力的です。バージョン7.5からはパッケージのインストールなどTERRのメンテナンスに関する機能も充実し、ますます使いやすくなっています。
■活用場面5 データ分析の結果共有
Spotfireは、ただの統計解析ツールではなくBIです。すぐれた分析結果を皆で共有して、ビジネスの意思決定に貢献することが最終ゴールですので、そのための機能も充実しています。他のBIツールと同様に、Spotfireもサーバー版があり、ダッシュボードを共有するためのユーザーライセンスも存在します。また、タブレットPCやスマホにも対応していますので、ダッシュボードを共有する機能においては、他と遜色はありません。
ここでご紹介したいのは、Spotfireを介して、分析者のコミュニケーションを促進する機能が強化されている点です。TIBCO社のホームページでは『インタラクティブ・ダッシュボード』という言葉で表現されていますが、分析結果のダッシュボードを皆で見ながら、その上にコメントを載せたりできるわけです。付箋を残すイメージですね。上記の対話的な分析とセットで、現場のコミュニケーションを支援する機能を充実させているわけです。
以上で、Spotfireのご紹介を終了します。
Spotfireはトライアル期間として30日間無償で使わせてもらえますので、今回の記事で気になった方は、TIBCO社のホームページでダウンロードしてみてはいかがでしょうか。
TIBCO社Spotfireのホームページはこちら↓
http://spotfire.tibco.jp/
冒頭でお話しした通り、ツールの使いづらさが原因で統計解析の活用が進まないだなんてもったいないですよね。
Spotfireに限らず無料でBIツールも増えています。
迷っている時間ももったいないので、どんどん触ってみてはいかがでしょうか。
【関連記事】
TIBCO™ Spotfire® 導入事例「日本ティブコソフトウェア株式会社」 東芝電子エンジニアリング株式会社 澤田静雄代表取締役社長 ~ビッグデータマガジン・インタビュー~
https://bdm.dga.co.jp/?p=1396