コンサルタントからみたデータ分析の今

これは

adventar.org

の10日目の記事です。

 

経営コンサルタントの日常

筆者は、データサイエンティストを名乗る以前は、10年ほど経営コンサルタントをしていました。

経営コンサルタントの仕事は色々ありますが、筆者の場合

  1. 今のままでは良くないと考えている企業から雇われて
  2. ファクトに基づく現状分析をし
  3. 改善のアクションプランを作成して
  4. アクションプランの実行支援をする

というようなことをしていました。特に大事なのは2で、「どうやら○○らしい」という仮説に対して、社内外のデータをかき集めて集計・分析し、その裏づけを取ることが業務の大半でした。

 

さて、当時はまだデータサイエンスという言葉は存在しておらず、データウェアハウスを構築するのに億円単位のコストがかかる自体でした。

 

なので、お客様の社内ではデータがちらかっていて、それを整理し、収集し、集計するだけで付加価値がありました。

特に、

  • 紙でしか情報が無い
  • オフコンメインフレーム内にデータはあるが出力する方法が無い(あるいはコストに見合わない)

ケースが多く、その場合は、ひたすら手打ちをするのです。思い出すだけでも泣けてきます。

集計はExcelで、ワークシート関数とPivotTableを使うレベルです。

 

今日の企業環境

あれから十余年。コンサルタントが汗と涙を流しながら行っていた単純な集計作業は、コモディティー化したデータベースと集計ツールによって簡単に行うことができるようになりました。

事前に仮説を持たなくても、力技で機械学習からインサイトを得ることも可能です。

業績の変化に対して、その原因となるKPIの把握も、目での検査は不要です。

もちろん、手入力マシーンとエクセルマシーンだった人員たちも用済みです。

 

現代のラッダイド運動は経営コンサルティング会社で起こるのかもしれません。

諸行無常です。

 

しかし、

よくよく考えると、現状分析で(コンサルタントor顧客が)力尽きて、アクションプランまで至らないケースも多数ありました。

現状分析が易々とできるようになって、初めて改善のサイクルが回る、本来の意味でのコンサルタントが活躍できるようになったのです。

 

ところで、今年の年初にこんな記事がありました

www.sankeibiz.jp

 

現状分析マシーンは去り、改善ができる人がコンサル現場の中心に躍り出る。そんな時代になった今、この業種に人気が集まっているのは当然なのかもしれません。

 

LTと自己紹介

これは

adventar.org

の7日目の記事です。

プレゼンテーションの機会

データ分析界隈にいて、プレゼンテーションをする機会が多数あります。分類すると

  • 会社名でセミナー登壇
  • 会社名で小規模な相談会の対応
  • 会社名で営業プレゼン
  • 個人名で読書会登壇
  • 個人名で勉強会登壇
  • 個人名でLT登壇

の6つです。来週にも

data-refinement.connpass.com

こんなイベントの主催、登壇の予定があるので今後は更に

  • イベント主催者としてのプレゼン

も行います。さて、プレゼンテーションの中身はともかくとしていつも悩むのが自己紹介です。交流会や飲み会での自己紹介も得意ではありませんが、それは流れの中で何とか誤魔化せます。しかし、プレゼンテーションの中の自己紹介はたくさんの耳目が集まっているので、そうはいきません。

 

プレゼンテーションの流れ、ベストプラクティス

プレゼンテーションの本を色々読むと、大体、次のような流れがベストプラクティスとされています。

  1. プレゼンテーションの目的
  2. 時間帯と進め方
  3. 自己紹介
  4. 概要説明
  5. メイン
  6. まとめ
  7. 質疑応答

自己紹介は三番目に来ます。ただ、これは少なくとも20分は時間が取れる場合であり、LTだと

  1. タイトル
  2. 自己紹介
  3. メイン
  4. まとめ

こんな感じになります。いずれにしても

「何を話すか」と「実際の内容」の間に挟まれる、それが自己紹介の定位置です。

そして目的ですが、

news.mynavi.jp

「なぜ私がこのプレゼンテーションをする必然性があるか」を説明するために自己紹介を行うのです。

 まさにこれが、自己紹介の目的です。

例えば、営業提案の中の自己紹介であれば

私はこういう経験とスキルがあるので、あなたの課題を解決する最良の者です

ということを伝えます。

セミナーの中の自己紹介であれば

このお題に関して私は長い間研究し、事例に触れ、普通の方法では手に入らない現場の知見を知っているので、とっておきの情報を提供できます

ということを伝えます。

 

自己紹介のアンチパターン

さて、自己紹介にはアンチパターンがひとつあります。それは

安易な言葉やスライドの使いまわし

です。

「待てよ、あの著名なプレゼンターはいつも同じ自己紹介をしているじゃないか」という反論があるかもしれません。でも、よく考えてみてください。その方のプレゼンテーションを複数並べて比較すると

  • 同じようなテーマ
  • 同じような内容
  • 同じような聞き手

ではないでしょうか。それならば、自己紹介の目的も同じなので、言葉やスライドを使いまわしても構いません。

 

でも、テーマや内容、聞き手が変わるならば、自己紹介の目的も変わります。必然、言葉やスライドも変えないといけません。

 

アンチパターンを避けて、聞き手にちょうど良い自己紹介をしましょう!

ハイパフォーマンスコンピューティング

「Rによるハイパフォーマンスコンピューティング」が最近刊行されたので買う前にいろいろ調べていたら、統計数理研究所の過去のセミナー資料に行き当たった。

 

http://prs.ism.ac.jp/~nakanoj/kouza110124/nakano.pdf

 

内容もさることながら、ヘッダがcool!

こんなスライドを作りたくなりました。

MIC_vs_HSIC

21世紀の手法対決 (MIC vs HSIC)

 

「ほこたて」的なwktkを感じるスライド。

それぞれ

Maximal Information Coefficient
Hilbert-Schmidt Independence Criterion test

という手法の比較。「ヒルベルト」の名が冠せられたHSICの方が強いだろうと思ったら、やはりそのとおり。

甲子園通算勝率を回帰分析

 「都道府県別統計とランキングで見る県民性」で、甲子園の勝率というデータが取り上げられていた。

http://todo-ran.com/t/kiji/11883

 

甲子園出場率は、予選出場校・年間降雪量と相関があるという言及があったので、回帰分析をしてみた。

すると、近畿・四国が明らかに出場率が高かったので、これら二エリアのダミー変数を導入した。

結果が以下の通り。

 

出場率(100倍)=45+0.056×高校数+降雪日×(-0.16)+関西ダミー×8.76+四国ダミー×12.0

t値が最も小さくて関西ダミーの3.72だから、かなり信頼性は高い。

 

(補正r^2=0.68)

 

四国が12%、関西が8.76%というのが驚異的。伝統もあるのだろうけど、甲子園球場から近いというのも無視できなさそう。

あと、高校が18校増えると出場率が1増える計算になるので、甲子園出場に燃える県は高校数を思い切って900校くらい増やしてみてはどうだろうか。50%も増えたら圧倒的だ。