2017/07/06
こんにちは。ビッグデータマガジンの廣野です。
「ビッグデータから価値を生み出す」と言うときに、必ずと言っても良いほど一緒に挙がってくる言葉が「統計解析」です。私自身、統計は“習うより慣れろ”で試行錯誤しながら学んでいきましたが、苦手意識がある人にとって非常にハードルが高いことは理解しています。
できれば、避けて通りたいですよね?(笑)
でも、ちょっとだけ苦手意識をわきに置いて、落ち着いて、感覚的にでも理解しようとすれば、決して理解不能なことではありません。
また、皆さんが手持ちの“スモールな”データで、今までにない切り口で示唆が出せるようになるために、それほど高度な統計の知識・スキルは必要ありません。
本当に高度な統計の専門領域については、専門家に任せれば良いのです。
これから数回にわたって、いくつかの統計解析の手法について「何をやっているのか感覚的に理解できて」「自分でもやってみようと思う」ことを目指して解説しようと思います。
読み終わる頃には、皆さんの統計に対する苦手意識が少しでも緩和されて、自分でもやってみようかな?と思っていただければ幸いです。
第1回目は、相関分析です。
■関係性の強さを数値で表現する「相関分析」
2つのデータの相関関係の強さを表す指標に【相関係数】があります。一般的に相関分析と言うと、この【相関係数】を計算することを指します。
良く混同される分析手法にアソシエーション分析がありますが、こちらは厳密に言うと相関(英語ではcorrelation)ではなく、「商品Aを買っている人の65%が商品Bも買っている」という関連(英語ではassociation)を分析する手法です。
【相関係数】が高いということは、いずれか一方のデータが増えると、それに比例してもう一方のデータも増えるという関係が成立していることを示しています。
相関関係の発見というと、いかにもビッグデータらしいですね。
さて、この【相関係数】、そもそも何者でしょうか?
相関係数をググる(Googleで検索する)と、以下のような数式に出くわします。
はい、もう意味が分かりませんね。(笑)
せっかくなので、この数式の意味を理解しておきましょう。
数式を分解して見ていきます。まず分子に注目してください。
これは、各データの座標(xi,yi)から、データ全体の平均値の座標(X,Y)をそれぞれx軸・y軸について引いたものを掛け合わせています。この計算結果(代表値)を【共分散】と呼びます。
次の図1は、【共分散】がどのような振る舞いをするのかを示しています。
ここで、とても大事なことが分かります。
この(xi – X)(yi – Y)の計算結果の“符号”を見てもらうと、第Ⅰ・第Ⅲ象限にあるデータは符号が+(正・プラス)になり、第Ⅱ・第Ⅳ象限にあるデータは-(負・マイナス)になりますよね?
【共分散】はこの数値の合計値(Σ)なので、【共分散】は全体的にデータが右肩上がり(正比例)の分布になっている時には符号が+に、右肩下がり(反比例)の分布になっている時には符号が-になることが分かります。
【共分散】が+のときは正比例の関係、-のときには反比例の関係。
これが、【共分散】が示してくれる重要な情報・その1です。
次に、数値の大きさに着目してみましょう。図2をご覧ください。
【共分散】の数値の大きさは、図で見ると面積を表していることが分かります。
x軸方向とy軸方向、どちらも数値が大きくなければ、面積は大きくなりません。つまり、x軸方向とy軸方向がバランス良く、たとえば一方が1増えると、もう一方も1ずつ増えるような関係の時に、面積が大きくなります(図2-1)。
つまり、【共分散】が大きくなる。
一方、例えばx軸方向が大きく増えても、y軸方向があまり増えないときは、グラフがいずれかの軸に近い“寝た”形になり、面積も大きくはなりません(図2-2)。極端な話、x軸方向が増えてもy軸方向は増えなかった場合、(xi – x)(yi – y)=0ということになります(図2-3)。
これは言い換えると、一方が変化したことによって、もう一方も同じくらい大きく変化するときに、【共分散】が大きくなることを示しています。逆に、一方が変化しても、もう一方がたいして変化しなければ、【共分散】は小さくなる(0に近づく)ことも示しています。
【共分散】が大きくなると両者はより連動して変化するようになり、小さくなると無関係に振る舞うようになる。これが、【共分散】が示してくれる重要な情報・その2です。
ここまでは【共分散】の話でしたが、相関係数の数式の分母には、どのような意味があるのでしょう?
【共分散】を見れば、2つのデータの間に比例/反比例の関係があることは分かります。
とはいえ、これだと元のデータの単位やデータの量に依存しているために、場合によっては非常に大きな計算結果になります。
たとえば「体重と身長の相関関係と、体重とカロリー摂取量の相関関係は、どちらの方がより強い関係性があるのか?」という問いに対して、サンプル数や単位が異なる場合には比較ができないのです。
これでは実用上、ちょっと使いづらいですね。
なぜなら、これが売上との相関関係を分析しているときであれば、売上とより強い相関関係がある要素に集中して投資したほうが効率的だからです。
【共分散】を比較可能な数値に変換したい!
そこで、【共分散】を比較可能な数値に変換するために、x軸方向の標準偏差とy軸方向の標準偏差を掛け合わせた数値で標準化しています。標準化とは、もとの単位がもつ“大きさ・重み”をなくして、たとえば0~1の間で変動するような数値に変換する手続きを指します。
相関係数の場合は0~1の間ではなく、-1~1の間で変動する数値になります。1に近づくほど正の相関(正比例)の関係が強くなり、-1に近づくと負の相関(反比例)の関係が強くなります。また、0に近づくほど無関係になります。
相関係数(絶対値)を解釈する目安をご紹介しますので、ご参考にしてみてください。
R = 0 ~ 0.2 :相関はない
0.2 ~ 0.4 :弱い相関がある
0.4 ~ 0.7 :相関がある
0.7以上 :強い相関関係がある
■ビジネスへの応用例と注意点
さて、お勉強が長くなったので、実際のビジネスにおける応用例を見ていきたいと思います。相関係数は便利な指標ですが、解釈を誤る危険性も多い“諸刃の剣”なので、この点についても触れながらご紹介します。
<応用例>効果的な商品陳列の配置を計画する
実店舗における商品の棚割り(配置)については、どの店舗も頭を悩ませるところでしょう。
一般的な商店での棚割りは「キッチン用品」「文房具」や「肉類」「野菜」など用途別・ジャンル別になることが多いですが、これが本当に良い配置かどうかは疑問が残ります。
もし、一緒に購入されることが多い商品が分かれば、その商品セットで顧客にリコメンド(推薦)することで、売上を増やすことが十分に期待できるからです。
このような目的のときは、商品ごとの売上データで相関分析を行うと、有益な示唆が得られます。相関係数が相互に高い商品は、同時に購入されている傾向が強いので、近い棚に並べておくことで“併せ買い”を促進させることができます。
もちろん、同時に購入される商品の組み合わせは、季節や時間帯、店舗の立地条件等によって傾向が異なるため、この分析は短い期間に繰り返し行いながら、どんどん商品配置を変えていくことが重要になります。
幸い、相関係数はエクセルの関数や「分析ツール」で簡単に計算できますので、(データが分析できる状態になっていれば)それほど大きな負荷もなく分析が可能です。
あるスーパーでは、ビールと冷凍食品の売上の間に、高い相関関係があったそうです。相関関係が高いというだけでは理由までは分かりませんが、この場合、少なくとも事実として一緒に買われる傾向があることだけは分かっているので、すぐに冷凍食品の近くにビールを置いてみて反応を見るほうが良いでしょう。
さて、章の冒頭に述べたように、相関係数にも落とし穴がいくつかあります。一番大きいものが、擬似相関(見せかけの相関)と呼ばれるものです。
以下の例は、擬似相関のとても有名な例です。(図3)
これは「その年のビールの売上が伸びると、水難事故に遭う人が増える」ということを示していますが、果たして本当でしょうか?
両者の相関関係の裏側には、実は「気温」という共通して相関が高い要素が隠れていて、この影響で数値だけ見ると強い相関関係があるように見えているだけなのです。つまり、気温が高くなる(夏場など)とビールの消費量が増えますし、海や川に行って遊ぶ人も増えるため、水難事故に遭う確率が高くなるというわけです。これをミスリードして「相関が高いから、今年は水難事故を抑制するために、海の家で禁酒キャンペーンを・・・」などと企画しても、何の意味もないのです。
この例は分かりやすい方ですが、実際のビジネスでは、判断が難しい分析結果が得られることがあります。その場合は、“現場の常識”と照らし合わせて、意味のある相関関係かどうかを判断することが重要です。
それでも迷ったら、商品配置の例にように、とりあえず1日だけ試しにやってみて様子を見るのも良いでしょう。
分析結果だけ眺めていても、現実は変わらないのですから。
以上で、相関分析についてのご紹介を終えたいと思います。
長くなりましたが、少しは理解が進みましたでしょうか?
次回は、冒頭にご紹介した類似の分析手法、アソシエーション分析についてご紹介したいと思います。