スキップしてメイン コンテンツに移動

『戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック』☆5

データサイエンスの基本から実践までが一冊でわかる本。技術書に定評のあるO'REILLYなので読みごたえも十分なのです。ある程度機械学習の基礎(アルゴリズムの種類とか特徴とか)を知っていると理解が早いかもしれません。

↑気になったらここからポチっと(買ってくれるとお小遣いが入ります)↑

この本を読むとわかること

ビジネス問題とデータサイエンスが提供するソリューション

  • データサイエンスでできること
    • 分類・回帰・類似性マッチング・クラスタリング・共起グルーピング・プロファイリング・リンク予測・データ削減・因果モデリング
  • 離散値(グループなど)を予測する「分類」と、数値を予測する「回帰」
    • 教師ありデータマイニングにより予測を導出
  • データマイニングプロセスの初期段階での考慮事項
    • 教師あり・教師なしどちらのアプローチか決定
    • 教師ありの場合、目的変数を正確に定義
  • データマイニングプロセスの王道
    • ビジネスの理解→データの理解→データの準備→モデリング→評価→適用
  • ソフトウェア開発とは異なるデータサイエンスチームのマネジメント
    • エンジニアリングより研究開発に近いデータサイエンス
    • データサイエンティストに求められる分析力・仮説構築力・プロトタイピングなどによる迅速な仮説検証力

予測モデリング:相関から教師ありセグメンテーションへ

  • 重要な情報から順にデータを切り分ける代表的な教師ありセグメンテーションである「ツリー帰納法」
  • 情報の重要性を測定する純粋さの尺度である「エントロピー」
  • データの構成要素の重要性を比較するための「情報利得」
  • 重要な変数を可視化するエントロピー減少の視覚化技法
  • エントロピーを利用した分類木のモデル作成方法
  • 重要度上位2・3の情報を使ったセグメンテーションの視覚化
  • 分類木を使ったデータの確率推定
    • 過学習(オーバーフィッティング)を避けるためのラプラス補正

モデルをデータにフィットさせる

  • データを分類するための「線形判別関数」
  • もっとも一般的な線形回帰
    • f(x)=w0+w1*x1+w2*x2...という要素ごとの重みをもった関数
    • 線形回帰で使われる最小二乗回帰
    • 外れ値や誤分類に敏感な線形回帰の弱点
  • 優れた線形判別器である「サポートベクターマシーン」
    • 2つのクラスを分ける最も太い「帯」の中心線
    • 誤って分類してしまった際のペナルティ(減算)を含んだ帯の幅(マージン)の最大化
  • あることが起きる確率/起きない確率の比率で求める「オッズ」
    • オッズの対数から導かれるロジスティック関数

オーバーフィッティングとその回避方法

  • モデルの性能を決める過学習(オーバーフィッティング)と汎化
  • モデルの複雑性・オーバーフィッティングを可視化するための「フィッティンググラフ」
    • ベストなモデル(スイートスポット)は人間が目で判断
  • 外れ値によるオーバーフィッティングを起こしやすいロジスティック回帰と複雑性をコントロールできるサポートベクターマシーン
  • 「交差検証」によるオーバーフィッティングの回避
  • 訓練時の精度が高くても実データで精度が出るとは限らない
  • ツリー帰納法における2種類のオーバーフィッティング回避方法
  • データへの適合度を上げ、モデルの複雑性を下げる「正則化」

類似度、近傍、クラスタ

  • 要素間の類似度を測定するもっとも単純な「ユークリッド距離」とその欠点
  • k個の近傍(近い距離にあるデータ)で分類わけを行うk-NN(k最近傍法)
  • 対象データを大商複数のクラスタに分割し、最適な分割を見つける「階層的クラスタリング」
  • クラスタの重心であるセントロイドを使ってクラスタリングを行う「k平均法」
  • クラスタリングを使ったニュース記事の自動分類方法

意思決定のための分析思考1:良いモデルとは何か

  • モデルの正答率を指標とすることの誤り
  • モデルの予測×実際の正誤で制度を計算する「混同行列(コンフュージョンマトリクス)」
    • 真陽性・偽陽性・偽陰性・真陰性
  • ビジネス上の課題を解決するモデルを作るためには偽陽性と偽陰性を区別することが重要
  • 混同行列を使った期待値計算
    • 混同行列の各要素のリターン・コストの計算

モデル性能の可視化

  • モデルの実用化に際してターゲットの範囲を決める「利益曲線」
    • モデルで算出した確率を降順に並べ、それぞれに期待利益を書けたグラフ
  • クラスの事前分布やコスト・リターンが明確な場合に利益曲線はかなり有効
  • 不確実性が高い場合に使われる使用される「ROC(受益者動作特性)グラフ」
    • x軸に偽陽性率・y軸に真陽性率をマッピング
  • ROC曲線の下の面積(AUC)
    • 汎用的な要約統計量であり、面積が大きいほど優れたモデル
  • ROC曲線の代わりに使える最も一般的な可視化の手段である「累積反応曲線」

エビデンスと確率

  • データサイエンスに使える「ベイズの法則」
  • 単純ベイズのメリットとデメリット
  • モデルの効果を示す「リフト値」の効果はそのサンプルが母数に占める比率と比較

テキスト表現とテキストマイニング

  • テキストマイニングをするためのテキストデータの正規化・ステミング・ストップワードの除去
  • 単語の出現頻度・希少性の評価
  • 単語間の「距離」の測定
    • 単語→トピック→ドキュメントの順でモデリングする「トピックレイヤ」

意思決定のための分析思考2:分析思考から分析工学へ

  • インセンティブの効果を測定する「期待値フレームワーク」
    • インセンティブを与えた顧客の期待値と与えなかった顧客の期待値の差分
  • 複雑なモデルの作成ではなく、段階的に問題を分析しデータマイニングをチューニングするのが分析工学

その他のデータサイエンスの問題と技法

  • 一緒に買われる意外な商品などの共起性を測定する「リフト」
    • 偶然より何倍多いかを測定
  • リフトと似ているが増加量を示す「レバレッジ」
    • 同時購入が何パーセント向上するかを示す
  • 正規分布にならない歪んだ分布を補正する技法
  • Netflix challengeで優勝した「潜在的次元」を用いた映画の類似度マッピング
  • 複数のモデルのいいとこどりをする「アンサンブル手法」

データサイエンスとビジネス戦略

  • 経営陣・ビジネスサイド・データサイエンティスト全員の協力
  • データサイエンスを使って優位に立つための企業戦略が全ての始まり
    • 経営陣がデータサイエンスを熟知していたアマゾンと、そうでなかったために淘汰された競合
  • データサイエンスチームのマネジメント方法
  • 自社が持つデータの理解と必要なデータの収集
  • データサイエンスプロジェクトの提案を受けた場合のレビュー方法・観点

↓気になったらここからポチっと(買ってくれるとお小遣いが入ります)↓

ベストビュー(過去1カ月)

【番外編】ボストン旅行記(UMASS Lowell卒業式編)【Day 4:卒業式】

UMASS Lowellの卒業式@Boston。4 日目は卒業式本番です。とても賑やかでアメリカンな式典でした。ただしあいにくの雨、僕曇り男なのに。。

【番外編】ボストン旅行記(UMASS Lowell卒業式編) 【Day2:晩餐会】

UMASS Lowellの卒業式@Boston。 2日目は午前中はボストン観光、夕方から Hooding ceremonyという卒業生(大学院生)向けの晩餐会です。卒業式で被るHoodをもらいました。

『九龍城探訪 魔窟で暮らす人々 - City of Darkness』 ☆4

魔窟とも言われた香港の九龍城の住人へのインタビューや、在りし日の写真集。香港の本土返還に伴い取り壊されてしまっているけど、その怪しさに妙に惹かれるのです。

【番外編】ボストン旅行記(UMASS Lowell卒業式編) 【Day0:渡米前にやっておくこと】

UMASS Lowellの卒業式@Bostonについて、計画の立て方やら行く前にやっておくことやらをまとめておきます。

【番外編】ボストン旅行記(UMASS Lowell卒業式編) 【Day5:帰国】

UMASS Lowellの卒業式@Boston。5 日目にして帰国なのです。

【番外編】ボストン旅行記(UMASS Lowell卒業式編) 【Day3:終日観光】

UMASS Lowellの卒業式@Boston。3 日目は終日フリーなので、ゆっくりボストンを観光しました。

【番外編】ボストン旅行記(UMASS Lowell卒業式編) 【Day1:ボストンへ】

UMASS Lowellの卒業式@Boston。 1日目は移動だけで終わりました。

【番外編】AI(機械学習)やってみた。【第3回】ソムリAI ~ニューラルネットワーク編~

AI(機械学習)やってみた、第3弾です。「ニューラルネットワーク(Neural Network)」を使ったソムリAIを作ってみようと思います。”ニューラルネットワーク”、見るからにAIっぽい名前ですよね。

【番外編】AI(機械学習)やってみた。【第4回】ソムリAIの改良(正規化)

ソムリAI(ワインの評価を機械学習で当てる「ソムリエ+AI」)はもういいかなと思っていたのですが、機械学習の教科書的な本を読んでいるといくつか改良ポイントが見えてきたので、実際に適用してみようと思います。 まずは データの正規化 という手法を試してみました。結論から言うと、 あまり効果はなかった のです。。 ソムリAIの振り返り ワインの成分とランクのデータに対して、決定木・ロジスティック回帰・ニューラルネットワークの3通りのモデルを使って機械学習 を行い、モデルの精度を検証してきました。それぞれのソムリAIの性能はこんな感じでした。 どのモデルも概ね60%程度の精度 でした。 改良その1:正規化 正規化とは まずは 正規化 という手法を試してみます。標準化とも呼ばれます。正規化を行うことで 尺度の異なるデータを比べやすくする とともに、 はずれ値の影響を小さくする ことができます。正規化には 各データを平均0・標準偏差1に成形する手法 と、各データを 0から1の範囲に成形する手法 の2つがあります。 前者は標準偏差が出てくることからも分かるように、 データが正規分布に従うことを前提にした正規化手法 です。 元のデータが釣鐘型の分布になっている場合に有効 です。後者は単純に データの範囲を0から1の範囲に狭める手法 であり、 元のデータが一様分布の場合 (規則性が無くランダムなように見える場合) に有効 です。 どちらの手法でもデータの範囲を一定のレンジに狭めており、そうすることで異なる尺度のデータを比べやすくしつつ、はずれ値の影響を下げるのです。 正規化してみる 元データの分布を確認 前回同様のワインのデータを使って正規化してみます。まずはワインのデータを読み込んで表示してみます。ついでに機械学習で使うワインの成分と、ワインの評価にデータを分割しておきます。 【オリジナルのワインデータ】 UCI(University of California, Irvine:カリフォルニア大学アーバイン校) http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv #入力データセットを読み込み i

【番外編】AI(機械学習)やってみた。【第2回】ソムリAI ~ロジスティック回帰編~

AI(機械学習)やってみた、第2弾です。前回は決定木(Decision Tree)を使ったソムリAI(ワインソムリエAI)を作りました。今回は「ロジスティック回帰(Logistic Regression)」というモデルを使ったソムリAIを作ってみようと思います。

ベストビュー(全期間)

Malaysia Quarantine Premium Package 【番外編】Malaysia赴任記 隔離ホテル情報

Once entering Malaysia, we need to be quarantined for 14days. At the beginning of COVID-19 spread, the hotel for quarantine have been determined randomly. In these days, we can choose "premium quarantine stay package" in advance . This article is summary of premium packages which I asked each hotel. Note: Information in this article might be old. It's better to confirm the latest plan to the hotel. Note: Only Hotel Istana can be booked via its homepage so far. As the other hotels don't show their premium package plans on their homepage, you need to contact them through their reservation E-mail address or "Contact us". マレーシア入国とともに14日間ホテルで隔離されます。当初は滞在ホテルがランダムに割り振られていたようですが、より快適なプレミアムプランが追加されました。各ホテルにどんなプランがあるのか聞いてみたので、聞いた内容をまとめます。 ※情報が古い可能性があるので、念のため最新情報を各ホテルに確認したほうがよいかもしれません。

【番外編】AI(機械学習)やってみた。【第1回】ソムリAI ~決定木編~

最近ブームのAI(機械学習)に手を出しました。まずは、決定木(Decision Tree)というモデルを使って「ソムリAI(ワインソムリエAI)」を作ってみようと思います。

【番外編】ボストン旅行記(UMASS Lowell卒業式編) 【Day0:渡米前にやっておくこと】

UMASS Lowellの卒業式@Bostonについて、計画の立て方やら行く前にやっておくことやらをまとめておきます。

【番外編】AI(機械学習)やってみた。【第6回】乳がん診断AI その1

ソムリAI(ワインソムリエAI)で使った手法で乳がん診断AIを作ってみます。まずは決定木とニューラルネットワークの2つのモデルを試してみます。かなり高性能なモデルができました。名医誕生かもしれません 笑

【番外編】AI(機械学習)やってみた。【第3回】ソムリAI ~ニューラルネットワーク編~

AI(機械学習)やってみた、第3弾です。「ニューラルネットワーク(Neural Network)」を使ったソムリAIを作ってみようと思います。”ニューラルネットワーク”、見るからにAIっぽい名前ですよね。

【番外編】ボストン旅行記(UMASS Lowell卒業式編) 【Day5:帰国】

UMASS Lowellの卒業式@Boston。5 日目にして帰国なのです。

【番外編】ボストン旅行記(UMASS Lowell卒業式編)【Day 4:卒業式】

UMASS Lowellの卒業式@Boston。4 日目は卒業式本番です。とても賑やかでアメリカンな式典でした。ただしあいにくの雨、僕曇り男なのに。。

【番外編】AI(機械学習)やってみた。【第2回】ソムリAI ~ロジスティック回帰編~

AI(機械学習)やってみた、第2弾です。前回は決定木(Decision Tree)を使ったソムリAI(ワインソムリエAI)を作りました。今回は「ロジスティック回帰(Logistic Regression)」というモデルを使ったソムリAIを作ってみようと思います。

【番外編】ボストン旅行記(UMASS Lowell卒業式編) 【Day2:晩餐会】

UMASS Lowellの卒業式@Boston。 2日目は午前中はボストン観光、夕方から Hooding ceremonyという卒業生(大学院生)向けの晩餐会です。卒業式で被るHoodをもらいました。

『深層学習教科書 ディープラーニング G検定(ジェネラリスト) 公式テキスト』 ☆5

一般社団法人日本ディープラーニング協会が実施している「Deep Learning for GENERAL (通称G検定 ) 」 の公式テキスト 。 ディープラーニングについて1冊で網羅的によくまとめられているので 、 ディープラーニングの入門書としてもおすすめです 。 ついでに勢いで資格も取ってしまいました 。 AI人材への第一歩なのです 笑