H231126 統計および確率を利用した予測と判断rev1
-
Upload
kenichi-takara -
Category
Business
-
view
851 -
download
1
description
Transcript of H231126 統計および確率を利用した予測と判断rev1
統計および確率を利用した予測と判断
高良研一 2011.11.26
Copyright スキルアップ勉強会 All Right Reserved.
本日のテーマ
1. 統計に関する基礎知識と実用例 (パレート図、ヒストグラム)
2. 確率に関する基礎知識と実用例(ベイズのツリーダイアグラム、期待値、期待効用)
3.統計と確率を組み合わせた応用例(ガウス分布、管理図、回帰直線)
Copyright スキルアップ勉強会 All Right Reserved.
はじめに
◇統計とは
入手したデータを要約し有用な情報を得ること
→過去から現在までの状況を把握し、未来を予測するための土台となる
◇確率とは
物事がどのぐらいの割合で起こるのかを表す尺度
→(未来の)不確実性の見積もり、予測結果
Copyright スキルアップ勉強会 All Right Reserved.
はじめに
ビジネスシーンにおいて、
統計、確率を活用する目的
↓
不確定要因によって生じるリスクを評価し、
合理的な決断や行動をするため
Copyright スキルアップ勉強会 All Right Reserved.
本日のテーマ
1. 統計に関する基礎知識と実用例 (パレート図、ヒストグラム)
2. 確率に関する基礎知識と実用例(ベイズのツリーダイアグラム、期待値、期待効用)
3.統計と確率を組み合わせた応用例(ガウス分布、管理図、回帰直線)
Copyright スキルアップ勉強会 All Right Reserved.
統計とは
◇全体の状況や特徴がわかる
・わが社の社員は40代より20代が多い?
・独身と既婚で残業時間の傾向に違いがある?
◇一部のデータからさらに大きな集団の傾向が予測できる
・沖縄を訪れる外国人の目的は仕事か観光か?
・日本人同世代の所得は一般的にいくら?
◇これまでのパターンから未来を予測することができる
・来月の売上高はどれくらい? Copyright スキルアップ勉強会 All Right Reserved.
統計のポイント
◇データ収集の計画
・収集の目的は? ・目的に沿ったデータは何か?
・測定方法、記録方法は一定か?
◇収集したデータの分類
・範囲、階級は目的の特性を表すのに適しているか?
・項目、階級の分類はMECEとなっているか?
◇表やグラフの作成
・特性を表しているか? ・異常値は無いか?Copyright スキルアップ勉強会 All Right Reserved.
パレート図:取捨選択の判断
Copyright スキルアップ勉強会 All Right Reserved.
パレート図の素「度数分布表」の作成手順
(1) 項目分類別の発生件数を多い順に並べる
(2) それぞれの項目が全体に占める割合を算出する
(3) それぞれの項目までの割合の累積を算出する
<例> (1) (2) (3)
パレート図:取捨選択の判断
Copyright スキルアップ勉強会 All Right Reserved.
パレート図を用いることで、「何に優先的に取り組むべきか」が見える!
マイケル・E・ポーター「戦略とは何をやるかではなく、何をやらないか」
→やらないことは、 ”その他”にする
商品に対するクレーム件数の原因別割合
0%
20%
40%
60%
80%
100%
部品①
によ
るケ
ガ
部品②
の早
期破損
部品③
が原
因の初
期不
良
価格
が高
い
取り扱
い説明書
が難解
パッケ
ージ
と実
物の色
が
若干
違う
その他
ヒストグラム:全体像を把握
ヒストグラムを用いることで、全体感がつかめる!
<ヒストグラムを読み解く場合のポイント>
◇分布の範囲: 最大値、最小値
◇分布の形状: ばらつき、ピークの数、異常値の有無
◇分布の代表値: (1)最頻値、(2)平均値、(3)中央値 ピークの位置 重心の位置 面積を等分する位置
(1),(2),(3) (3)(1)(2) (1)(2)(3)
ヒストグラム:全体像を把握
Copyright スキルアップ勉強会 All Right Reserved.
出典:厚生労働省 平成22年国民生活基礎調査の概況 「所得金額階級別にみた世帯数の相対度数分布」
最頻値
階級(区間)が他と異なるため、縦軸とリンクしない。ヒストグラムの面積はデータ数を表すため。 次ページで解説
平均所得を代表値としてよいのか、注意が必要!左右対称な分布でない場合は、議論する内容によって、適切な代表値は何か、考える習慣をつけたい。
ヒストグラム:全体像を把握
<ヒストグラム作成時の注意点>
◇階級値はキリの良い数字にする。
◇基本的に階級(区間)幅は揃える。
階級幅が揃えられない部分は、面積がデータ数を表すように描く。
→ 階級幅が2倍になる部分は、高さを1/2にする。Not棒グラフ。
Copyright スキルアップ勉強会 All Right Reserved.
本日のテーマ
1. 統計に関する基礎知識と実用例 (パレート図、ヒストグラム)
2. 確率に関する基礎知識と実用例(ベイズのツリーダイアグラム、期待値、期待効用)
3.統計と確率を組み合わせた応用例(ガウス分布、管理図、回帰直線)
Copyright スキルアップ勉強会 All Right Reserved.
確率とは
◇未来のことや、まだ測定していない数値の予想が可能
・今日、沖縄県で雨が降る?
・2つのさいころを同時に振ったときに出る目の合計は?
・来年の売上はどのくらい?
◇リスクやチャンスを判断し、合理的な意思決定が可能
・倉庫の耐震強度をM4→6にする場合の費用はいくら増?
Copyright スキルアップ勉強会 All Right Reserved.
確率のポイント
Copyright スキルアップ勉強会 All Right Reserved.
◇ MECE (モレなく、ダブリなく)
・そもそも、それは起こるのか?
・他にも起こりうるパターンはないか?
・重複していないか?
◇ 区間推定
・予測数値の信頼性はどのくらいか?
ツリーダイアグラム
◇ある会社に販売員AとBがいる。(ある年度の成績)
販売員Aは全売上のうち60%を売った。
販売員Bは全売上のうち残りの40%を売った。
販売員Aの売上のうち5%は貸し倒れであった。
販売員Bの売上のうち3%は貸し倒れであった。
全売上
0.6 × 0.05 = 0.03 A販売分の貸し倒れ
0.6 × 0.95 = 0.57 A販売分の回収可能
0.4 × 0.95 = 0.3988 B販売分の回収可能
0.4 × 0.03 = 0.012 B販売分の貸し倒れ
0.6 A販売分
0.4 B販売分
ベイズのツリーダイアグラム
◇以下のようなガン診断機器がある。
この機械に陽性と診断された成人男性がガンの確率は?
・ガンの人が陽性と診断される確率は95%
・健康な人が陽性と診断される確率は5%
・成人男性がガンに罹ってしまう確率は0.5%0.005 × 0.95 = 0.00475 機械が正しく判定し、陽性
ガン0.005
ガンでない0.995
0.005 × 0.05 = 0.00025 機械の誤判定で、陰性
0.995 × 0.95 = 0.94525 機械が正しく判定し、陰性
0.995 × 0.05 = 0.04975 機械の誤判定で、陽性
成人男性
陽性と判定された人が本当にガンである確率 = 0.00475 / (0.04975+0.00475) ≒ 9%
期待値と期待効用
Copyright スキルアップ勉強会 All Right Reserved.
◇使い分けが重要
期待値:合理的 ⇔ 期待効用:感情的
本日のテーマ
1. 統計に関する基礎知識と実用例 (パレート図、ヒストグラム)
2. 確率に関する基礎知識と実用例(ベイズのツリーダイアグラム、期待値、期待効用)
3.統計と確率を組み合わせた応用例(ガウス分布、管理図、回帰直線)
Copyright スキルアップ勉強会 All Right Reserved.
統計と確率の密接な関係
◇未来は、過去、現在からの連続
コインを投げて10回連続で「表」が出た。
↓
同じコインを投げた時、次に出るのは?
ガウス分布とZテーブル
◇ガウス分布で範囲を指定したときの面積は、確率を表す。
◇変数は、平均値(中心位置)と標準偏差(ばらつき)のみ。
範 囲 範囲内に出現する確立 範囲外に飛び出す確立平均値±1標準偏差 68.3% 31.7%平均値±2標準偏差 95.4% 4.6%平均値±3標準偏差 99.7% 0.3%
ガウス分布と管理図
◇ガウス分布の性質を応用
◇異常と偶然を識別するための図
ガウス分布と管理図の応用
◇人事部門におけるパフォーマンスの評価への応用例
ガウス分布のと回帰直線
◇回帰直線から予測する数値は区間推定。
◇来期の売上高は、〇%の確率で、●円~■円となる。
ガウス分布の応用法
◇ガウス分布はランダムに発生する値の分布を模擬
◇単一数値目標はランダム性を損ない危険
おわりに
ビジネスシーンにおいて、
氾濫するデータから意味を見出すには、
統計と確率の知識が必要不可欠
↓
ただし、最も重要なのは、
データの示す意味を理解することではなく、
そこから決断し、行動すること
Copyright スキルアップ勉強会 All Right Reserved.
理解を深めるのにオススメ
<Web Site>
(易) 科学の道具箱http://rikanet2.jst.go.jp/contents/cp0530/contents/index.html
<書籍>
(中) 経営のための直感的統計学 吉田耕作 日経BP社 2003
(易) これだけは知っておきたい「ビジネス数字」の常識
椿勲公認会計士事務所 フォレスト出版 2003
Copyright スキルアップ勉強会 All Right Reserved.
今回の重要ポイントと補足説明
◇統計データ収集~統計資料作成時のチェックポイント
・データ収集の目的は何か?
・目的に沿ったデータは何か?
・測定方法、記録方法は一定か?
・範囲、階級は目的の特性を表すのに適しているか?
・項目、階級の分類はMECEとなっているか?
・データに異常値は無いか?
・表やグラフはデータの特性を適切に表しているか?
Copyright スキルアップ勉強会 All Right Reserved.
今回の重要ポイントと補足説明
◇パレート図のポイント
・優先順位を決定するためのツール
・下位項目は”その他”としてまとめる
(木を見ず、森を見る)
◇ヒストグラムのポイント
・最頻値はピークの位置
・平均値は重心の位置
・中央値は面積を等分する位置
・分布の代表値はどれを採用するのが適切か考える
(安易に、平均値を代表値としない)
今回の重要ポイントと補足説明
◇確率計算のポイント
・MECE(モレなく、ダブリなく)で考える
・条件付確率を考える場合は、ツリーダイアグラムを使う
◇管理図のポイント
・異常と偶然を見分けるためのツール
・管理限界値はいくつか?
それは、平均±標準偏差の何倍か?
管理限界値を逸脱する確率は何%か?
Copyright スキルアップ勉強会 All Right Reserved.
今回の重要ポイントと補足説明
平均標準偏差◇ガウス分布のポイント
・パラメータは、平均と標準偏差
・事象の発生確率は指定範囲の面積割合
全範囲:100%
平均±標準偏差:68.3%
平均±2×標準偏差:95.4%
平均±3×標準偏差:99.7%
平均±6×標準偏差:99.99966%
標準偏差が大きい分布
標準偏差が小さい分布
平均±3×標準偏差の範囲
シックス・シグマ ( シグマは標準偏差σ )※「100万回の作業を実施しても不良品の発生率を3.4回に抑える」ことを目標とした品質管理手法の一つ。
平均±3×標準偏差の範囲