2017/07/06

ビッグデータマガジン土本寛子です。
人材不足が問題視されるデータサイエンティスト。その養成を行う株式会社チェンジ提供「データサイエンティスト養成コース(ベーシック)」を受けてみました。
データ分析に程遠い文系学部出身の私はデータサイエンティストになれるのでしょうか。

<講師:杉浦治氏(右)>
結論としては…
全日程受講および既定の課題提出、そして最終日の総合演習の審査を受け、修了証をいただくことが出来ました。
また、あわせてチェンジデータサイエンティストベーシック資格も取得出来ました。
<株式会社チェンジ提供:
データサイエンティスト養成コース(ベーシック)>
http://www.change-jp.com/learning/courses_bigdata01.html
■研修によって出来るようになったこと
このデータサイエンティスト養成コースの内容および受講して出来るようになったことは以下の通りです。
<統計>
・各種統計手法とその特徴を理解した。
・相関分析、形態素解析、機械学習、重回帰分析、クラスター分析を実際に自分の手で行った。
・代表的な統計解析ツールを実際にさわり、各ツールの特徴から用途に応じた選定を行えるようになった。
<技術>
・HDFS、MapReduce を含めたHadoopの仕組みを説明出来る。また、Hadoopでの構築が向かないケースも理解出来た。
・NOSQLについて説明出来る。また、他の様々なタイプのデータベースや、RDBMSとの使い分けも理解出来た。
・インメモリー、ストリームデータ処理(CEP)エンジンなどの概要について理解出来た。
・機械学習について、および、Apache MahoutやJubatusなど機械学習のライブラリを含んだツールの存在を把握出来た。
<ビジネスインサイト>
・ビッグデータを取り巻く現況を改めて再整理して理解出来た。
・ビッグデータ活用に有用なデータとその種類、入手法等を理解出来た。
・つまずきやすい点を含め、ビッグデータプロジェクトの流れがわかった。
・ビジネスモデルを考える際の勘所が理解出来た。
・活用事例を改めて学び、アイデアの幅を広げることが出来た。
■各種ツールを実際にさわって学ぶ演習
このように多くの学びのあった本研修でしたが、基礎的なことを理解するには欠かせない概論的な講義とともに、ツールを用いながら数多くの演習を行いました。
たとえば、操作になじみのあるExcelでは、ピボットテーブルを使ったデータ分析に加え、Excelで出来る統計処理についてはExcelの設定から丁寧に教えてもらいました。
また、独学ではハードルが高いと感じていた統計解析無料ツールであるR Studioについても教えてもらい、実際にR Studioを使って各種分析を行いました。

<Rを使ったクラスター分析>

<Rを使った相関分析>
また、重回帰分析では、同じ分析をExcel、Xica Adelie(重回帰分析ツール)、R Studioの3パターンで行いました。Excelをすでにお使いの方が多いでしょうし、Xica AdelieとR Studioは無料で利用することもできるため、大きな投資をしなくともデータ分析が出来ることがわかり、データ分析が身近に感じられるようになりました。
そして、Tableau Desktop、 YDC SONAR 、TIBCO Spotfire、Topic ExplorerなどのBIツールを使ってのデータ分析も行いました。各ツールそれぞれに特徴があり、これらのツールを一度で体験出来る本研修は、BIツールを選定中の方にもおすすめ出来る内容だと感じました。
■実データを用いた分析によって得られる体験とは
さらに、演習で使用したデータは、Twitterや売り上げデータなどの実データで分析を行いました。つまり、運営側が示唆の出るように仕込んだ演習用データではないため、現場で行うデータ分析そのものを体験出来たと感じています。
たとえば実データゆえに私が味わった体験は、相関分析を行う際、日次のPOSデータに対してもう一方のデータの単位が週次にまるめられていたり、抽出したいキーワードでクチコミデータを収集しても大半が広告だったり…。そのうえ、ようやく出した分析結果が「来店客数が多い店舗は来店客数が少ない店舗より売り上げが多い」等、「分析する前からわかるよね…」と言われてしまうようなことしか出てこず…。そして、気が付けば目的がないままひたすら分析を繰り返してしまうといったデータ分析の失敗を経験しました。
これらはどれも実業務ではよくあることだそうで、データ分析の現場をそのまま体験することとなりました。
そして、それらの対応策として、たとえば、上記の内容に関しては簡単に週次単位にデータをまとめるテクニックや、形態素解析を行うことで広告データを削除すること、そして、誤ったデータ分析を行わないような分析プロセスも教えてもらえました。
このように実際のデータ分析の現場を講義内で体験出来る充実した実践的な研修でした。
■そもそもデータサイエンティストとは
さて、このデータサイエンティスト養成コースの受講によって、私はデータサイエンティストになれたのか。この問いに対する答えを出す前に、データサイエンティストが一体なにかを定義する必要があります。
これはデータサイエンティスト育成検討事務局が提唱しているデータサイエンティストスキル定義です。
<データサイエンティスト育成検討事務局>
http://ds.change-jp.com/model.html
受講によって私は、ビッグデータプロジェクトにアサインされた際、単独でプロジェクトを遂行出来なくとも、前提知識を持った上でプロジェクトメンバーと共通言語でコミュニケーションをとることは出来るようになったと思います。つまり、「一人前のデータサイエンティストになれた!!!」というにはまだまだ心もとないものの、データサイエンティスト育成検討事務局のスキル定義でいうレベル1とレベル2のスキルは身に付けられ、データサイエンティストチームのメンバーのひとりとして参画する素養は身に付けられました。
データサイエンティストというと、ビジネスインサイト、アナリティクス、エンジニアリング、どの分野においてもレベル5のスーパーヒーローをイメージされることもありますが、基礎知識を身に付けたメンバーが各々の得意分野を集結してビジネスのシナジーを生み出す有用性を感じます。
この研修で身に付けた基礎的なスキルを入り口として、今後はビジネスインサイト、アナリティクス、エンジニアリングのどの分野のスキルをさらに向上させるのか考えていきたいと考えています。
■受講を終え
今回、身に付けたことは知識および操作方法だけではないと感じるのが、ニュースの見方が変わったことです。
たとえば、ある店舗でbeaconを使った導線分析を行ったというニュースを目にしました。
受講前までの私であれば、本当に効果があったのかといった結果だけを気にしていました。しかし受講によって「beaconを使って導線データは取れても、実際の購買状況や、その人の性別や年齢はどう紐づけて売上分析するにはどうしたらよいだろうか」や、「より安く簡単にそれらの情報を入手する方法はないのか」「蓄積されたデータで導線や売上分析以外のことに活用出来ないだろうか」といったことを具体的に考えるようになりました。
また、先述の通り、運営側が示唆を出せるように加工したデータではなく実データで分析を行ったことも非常に学びとなりました。思うようにデータ分析が出来ない、説得感と驚きのある示唆が見つからない、データが欠損していてそもそも分析出来ない、しかし一方で、最終プレゼンの時間がどんどん迫ってくる…そのような緊迫感を抱きつつデータ分析を行いました。
そのような中、講師の方の「研修を終え業務に戻った際には、データをクレンジングするだけではなく、なぜデータがそのような状態なのかの理由を現場へ行って考えてください。業務改善に活かせるヒントが隠されているかもしれません。情シスや現場の人とともにデータを中心において“本当にこれでいいのか”を問い続けてください」との言葉は、ツールの操作方法や統計処理単独の講座ではなく総合講座ならではのアドバイスだと感じました。
データの裏側にある何かに光をあてるデータサイエンティスト。
そもそもデータ分析に関して素人であった私が、この講座のリアリティの高い演習を通じて、スキルアップだけではなくデータ分析に関する意識を変革させられた貴重な機会でした。
(土本 寛子)
<株式会社チェンジ提供:データサイエンティスト養成コース(ベーシック)
http://www.change-jp.com/learning/courses_bigdata01.html
月曜から金曜の連続5日間のコースに加え、木曜と金曜に受講し6日間で修了する木金コースがあります。
※記載されている会社名、製品名またはサービス名は各社の商標または登録商標です。