『戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック』☆5

『戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック』☆5

データサイエンスの基本から実践までが一冊でわかる本。技術書に定評のあるO'REILLYなので読みごたえも十分なのです。ある程度機械学習の基礎（アルゴリズムの種類とか特徴とか）を知っていると理解が早いかもしれません。

↑気になったらここからポチっと（買ってくれるとお小遣いが入ります）↑

この本を読むとわかること

ビジネス問題とデータサイエンスが提供するソリューション

データサイエンスでできること

分類・回帰・類似性マッチング・クラスタリング・共起グルーピング・プロファイリング・リンク予測・データ削減・因果モデリング

離散値（グループなど）を予測する「分類」と、数値を予測する「回帰」

教師ありデータマイニングにより予測を導出

データマイニングプロセスの初期段階での考慮事項

教師あり・教師なしどちらのアプローチか決定
教師ありの場合、目的変数を正確に定義

データマイニングプロセスの王道

ビジネスの理解→データの理解→データの準備→モデリング→評価→適用

ソフトウェア開発とは異なるデータサイエンスチームのマネジメント

エンジニアリングより研究開発に近いデータサイエンス
データサイエンティストに求められる分析力・仮説構築力・プロトタイピングなどによる迅速な仮説検証力

予測モデリング：相関から教師ありセグメンテーションへ

重要な情報から順にデータを切り分ける代表的な教師ありセグメンテーションである「ツリー帰納法」
情報の重要性を測定する純粋さの尺度である「エントロピー」
データの構成要素の重要性を比較するための「情報利得」
重要な変数を可視化するエントロピー減少の視覚化技法
エントロピーを利用した分類木のモデル作成方法
重要度上位2・3の情報を使ったセグメンテーションの視覚化
分類木を使ったデータの確率推定

過学習（オーバーフィッティング）を避けるためのラプラス補正

モデルをデータにフィットさせる

データを分類するための「線形判別関数」
もっとも一般的な線形回帰

f(x)=w0+w1*x1+w2*x2...という要素ごとの重みをもった関数
線形回帰で使われる最小二乗回帰
外れ値や誤分類に敏感な線形回帰の弱点

優れた線形判別器である「サポートベクターマシーン」

2つのクラスを分ける最も太い「帯」の中心線
誤って分類してしまった際のペナルティ（減算）を含んだ帯の幅（マージン）の最大化

あることが起きる確率/起きない確率の比率で求める「オッズ」

オッズの対数から導かれるロジスティック関数

オーバーフィッティングとその回避方法

モデルの性能を決める過学習（オーバーフィッティング）と汎化
モデルの複雑性・オーバーフィッティングを可視化するための「フィッティンググラフ」

ベストなモデル（スイートスポット）は人間が目で判断

外れ値によるオーバーフィッティングを起こしやすいロジスティック回帰と複雑性をコントロールできるサポートベクターマシーン
「交差検証」によるオーバーフィッティングの回避
訓練時の精度が高くても実データで精度が出るとは限らない
ツリー帰納法における2種類のオーバーフィッティング回避方法
データへの適合度を上げ、モデルの複雑性を下げる「正則化」

類似度、近傍、クラスタ

要素間の類似度を測定するもっとも単純な「ユークリッド距離」とその欠点

k個の近傍（近い距離にあるデータ）で分類わけを行うk-NN（k最近傍法）
対象データを大商複数のクラスタに分割し、最適な分割を見つける「階層的クラスタリング」
クラスタの重心であるセントロイドを使ってクラスタリングを行う「k平均法」
クラスタリングを使ったニュース記事の自動分類方法

意思決定のための分析思考1：良いモデルとは何か

モデルの正答率を指標とすることの誤り
モデルの予測×実際の正誤で制度を計算する「混同行列（コンフュージョンマトリクス）」

真陽性・偽陽性・偽陰性・真陰性

ビジネス上の課題を解決するモデルを作るためには偽陽性と偽陰性を区別することが重要
混同行列を使った期待値計算

混同行列の各要素のリターン・コストの計算

モデル性能の可視化

モデルの実用化に際してターゲットの範囲を決める「利益曲線」

モデルで算出した確率を降順に並べ、それぞれに期待利益を書けたグラフ

クラスの事前分布やコスト・リターンが明確な場合に利益曲線はかなり有効
不確実性が高い場合に使われる使用される「ROC（受益者動作特性）グラフ」

x軸に偽陽性率・y軸に真陽性率をマッピング

ROC曲線の下の面積（AUC）

汎用的な要約統計量であり、面積が大きいほど優れたモデル

ROC曲線の代わりに使える最も一般的な可視化の手段である「累積反応曲線」

エビデンスと確率

データサイエンスに使える「ベイズの法則」
単純ベイズのメリットとデメリット
モデルの効果を示す「リフト値」の効果はそのサンプルが母数に占める比率と比較

テキスト表現とテキストマイニング

テキストマイニングをするためのテキストデータの正規化・ステミング・ストップワードの除去
単語の出現頻度・希少性の評価
単語間の「距離」の測定

単語→トピック→ドキュメントの順でモデリングする「トピックレイヤ」

意思決定のための分析思考2：分析思考から分析工学へ

インセンティブの効果を測定する「期待値フレームワーク」

インセンティブを与えた顧客の期待値と与えなかった顧客の期待値の差分

複雑なモデルの作成ではなく、段階的に問題を分析しデータマイニングをチューニングするのが分析工学

その他のデータサイエンスの問題と技法

一緒に買われる意外な商品などの共起性を測定する「リフト」

偶然より何倍多いかを測定

リフトと似ているが増加量を示す「レバレッジ」

同時購入が何パーセント向上するかを示す

正規分布にならない歪んだ分布を補正する技法
Netflix challengeで優勝した「潜在的次元」を用いた映画の類似度マッピング
複数のモデルのいいとこどりをする「アンサンブル手法」

データサイエンスとビジネス戦略

経営陣・ビジネスサイド・データサイエンティスト全員の協力
データサイエンスを使って優位に立つための企業戦略が全ての始まり

経営陣がデータサイエンスを熟知していたアマゾンと、そうでなかったために淘汰された競合

データサイエンスチームのマネジメント方法
自社が持つデータの理解と必要なデータの収集
データサイエンスプロジェクトの提案を受けた場合のレビュー方法・観点

↓気になったらここからポチっと（買ってくれるとお小遣いが入ります）↓