2017/07/06
こんにちは。ビッグデータマガジンの廣野です。「使ってみたくなる統計」シリーズ、第5回目は時系列データの分析です。
今回のテーマである時系列データの分析ですが、どんなデータに対しても使える手法ではありません。これまでに学んだ「相関分析」や「クラスター分析」なども、それぞれに分析手法を適用できるデータには制限がありましたが、時系列データの分析では“時間の経過に沿って記録された”データが対象になります。
「それって、どんなデータもそうなんじゃないの?」と思った方は、チャンスです。ぜひこの記事を最初から読んでいただき、時系列データそのものの理解から始めてください。
時系列データの分析手法はたくさん存在し、エクセル上で四則演算するだけのものから、複雑な多変量解析まで様々です。奥深い時系列データ分析の世界の中でも、前編である今回は基礎的なことについてご紹介したいと思います。
■そもそも時系列データとは?
多くのデータは、測定対象となるデータそのもの(店舗の売上、投稿されたブログ、アップロードされた画像など)とは別に、それが測定された時間の情報をセットで持っています。時間に関するデータがあるという意味では、これらはすべて時系列データではないのか?と思ってしまいますが、実際はそうではありません。
時系列データとは、ある一定の間隔で測定された結果の集まりです。
これに対して、一定の間隔ではなく、事象が発生したタイミングで測定されたデータは点過程データと呼び、時系列データとは明確に区別しています。
では、両者は何が違うのでしょうか?
違いを分かりやすくするため、次の図をご覧ください。
時系列データは等間隔に測定された連続量として扱うため、データとデータの間はつないだ状態で図示します。つまり前提として、ある時点で測定されたデータと、その1つ前に測定されたデータとの間は、直線的に変化すると仮定しているのです。本来は、この2つのデータの間がどうなっているのかは(測定したデータがないので)不明ですが、それを連続していると仮定して補完しているのです。時系列データの目的は、あるデータが時間で変化していく傾向を分析することです。
点過程データには、このような前提はありません。グラフでは、あるデータが測定された時に、その数値の大きさだけ縦に長い線として表示されます(棒グラフではなく「線」であることにも注意)。測定された時間ごとに図示されるため、1つ前のデータとの時間の間隔はバラバラです。点過程データの目的は、ある事象が発生した時間そのものを分析することです(受発注の履歴など)。
次に、時系列データが持つ4つの変動要因について紹介します。先ほど、時系列データは変化の傾向を分析すると述べましたが、時間軸でデータが変わっていく要因として、次の4つが挙げられます。
- 傾向変動
- 循環変動
- 季節変動
- 不規則変動
傾向変動(トレンド)は、長期的に見て上昇(増加)傾向なのか、それとも下降(減少)傾向なのかを示すものです。人口増加やGDPの成長など、細かい変化ではなく大きな傾向をとらえる際に見る要素です。
循環変動(サイクル)は、ある周期性をもって現れる変化を示すもので、景気循環のように3~10年程度の期間で繰り返し起こる変化を示します。傾向変動と違って、上昇と下降の動きがセットで含まれます。
季節変動(シーズナル)は、文字通り季節ごとに繰り返される変化を示すものです。旅行者数であればゴールデンウィークや夏季休暇、年末年始に決まって増加傾向になります。1年を周期とした変動のパターンを見ることが特徴です。
不規則変動(ノイズ)は、上記3つの変動要素では説明がつかない短期的な変化を示すものです。たとえば自然災害による株価の変動などです。
実際はこれら4つの要素は独立して測定されるわけでなく、全ての要素が組み合わさった結果としてのデータが測定されます。4つの要素を合算値でみるのか積算値で見るかは簡単に決められない問題ですが、少なくとも測定できたデータを分析・解釈する際に、これらの要素が影響していることは理解しておくべきでしょう。
■時系列の傾向を読み解く方法
時系列データが変化する要因については理解できたと思いますので、次に、実際に時系列データから傾向を読み解く方法についてご紹介します。
ところで、そもそも時系列データから傾向を読み解く目的は、なんでしょうか?
最も多い目的としては、時間軸に沿ってある数値が変化していく傾向を理解することで、これから先に起こることを(ある程度)予測することです。
「この周期的な変化がこの先も繰り返されるなら、今は●●だけど、きっと近い将来に▲▲になる!」ということが知りたいのです。これがわかるからこそ、ビジネスで先手を打つことができるのです。
このように将来を予測するための分析手法として、最もシンプルな「移動平均法」と「指数平滑法」を紹介します。
まず「移動平均法」です。
たとえば月次の売り上げであれば、「12か月」という決まった期間を設定して、それを1か月ごとにずらしながら平均値を算出していく方法です。株取引をされる方なら「●日移動平均」という言葉を聞いたことがあると思います。
具体的には、エクセルであれば次のように計算していきます(過去12か月の移動平均の例)。例題として、オープンデータとして経産省から公開されている「特定サービス産業動態統計調査」から、フィットネスクラブの会費収入の推移を使いたいと思います。
実際の計算は、エクセルのアドイン機能である「分析ツール」を使うと便利です。まだ登録されていない方は[ファイル]-[オプション]-[アドイン]で“分析ツール”を登録してください。
移動平均の計算結果を図示すると、次のように右肩上がりの傾向が読みとれます。
上図のように、季節変動や不規則変動の影響を取り除き(平滑化と呼びます)、総合的に見て上昇/下降傾向にあるのか、それとも変化はないのかを確認できることが特徴です。
個々のデータの動きを見て一喜一憂するのもよいのですが、「要するにこの1年で」自社の売り上げは増加しているのかどうかを確認できるわけです。計算方法は単純ですが、時系列データの傾向を読み取りやすくできる優れた手法です。
次に「指数平滑法」です。
これは短期的な将来予測をする際によくつかわれる手法で、移動平均法と同じようにデータを平滑化します。考え方としては、現在に近いデータほど重要視し、過去にさかのぼるほど重要度を落としていく加重平均法を行います。
計算式は、次のような設定です
予測値 = (1つ前の実測値-1つ前の予測値)×α+1つ前の予測値
αの値は0から1までの数値を設定しますが、これが予測値の誤差が一番小さくなるように試行錯誤して決定します。α値が1に近いほど直近の数値を重視し、0に近いほど過去の経過を重視するという特徴があります。
式だけ見ているとわかりづらいので、実際の計算結果を見てみましょう。ここでは、先ほどのフィットネスクラブのデータでα=0.1に設定した時の計算結果を見てみます。指数平滑法もエクセルアドインの「データ分析」が便利ですので、これを使います。
α=0.1だと、実測値と予測値の誤差の平均値は217.7でした。ほかのαを設定すると、どうなるでしょうか。検証してみましょう。
α=0.5では、誤差の平均値は223.4でした。精度はあまり変わらず。(下図)
α=0.9では、誤差の平均値は444.9でした。精度がかなり下がりました。(下図)
どうやらα=0.1が一番実測値との誤差が少ないようなので、ひとまずこれを採用することにします。
α=0.1で計算した場合、2015/8(データが取れていない次の月、すなわち未来)の会費収入は18845.2(百万円)になる予想です。本当にそうなっているかは、データが公開されてからのお楽しみです。
指数平滑法の応用範囲は広く、特に短期の予測に適していると言われています。在庫管理などで定期発注における発注量の予測に使われたり、売上の時系列予測や株価変動分析などでも使われています。
以上で、時系列データ分析の前編を終了します。今回は一般論が多かったので、次回はもっとビジネスでの応用事例と、より高度な予測の手法についてご紹介します。
【関連記事】 「使ってみたくなる統計」シリーズ
第1回:相関分析
https://bdm.dga.co.jp/?p=1254
第2回:アソシエーション分析
https://bdm.dga.co.jp/?p=1341