So-net無料ブログ作成
検索選択
確率・統計、データマイニング ブログトップ
前の30件 | -

SPSS Modeler、シミュレーションノードを用いたモンテカルロ法の話 その2 [確率・統計、データマイニング]

SPSS Modeler、シミュレーションノードを用いたモンテカルロ法の話
http://skellington.blog.so-net.ne.jp/2017-04-21

前回は、正規分布を使ったシミュレーションでした。

今回は、ベータ分布を使ったシミュレーションの例になります。

ベータ分布は、ベルヌーイ分布や二項分布の事前分としての相性がとても良い分布です。
共役分布(きょうやくぶんぷ)と読みます。

3月の視聴率を30%と「点」で与えるのではなく、「30%付近に分布している」と分布で考えます。



シミュレーションノードを設定するとイメージが湧くかと思います。



例えば、形状1と2を1/10倍(サンプルサイズが1/10倍)にすると、分布は広がってきます。
つまり、30%よりも離れた値を取る割合が増えます。

形状の計算は、60人の30%ということで、18人、60人-18人=42人と計算します。
18+1=19
42+1=43



一方、形状1と2を10倍(サンプルサイズが10倍)にすると、分布の幅は狭くなります。

形状の計算は、6000人の30%ということで、1800人、6000人-1800人=4200人と計算します。
1800+1=1801
4200+1=4201



後は、「 theta_3 > theta_2 and theta_2 > theta_1 」となる確率を計算すれば、OKです。



朝野先生の教科書では、10万回シミュレーションされいて、0.57213という値でした。
SPSS Modelerを使ったシミュレーションでは、0.57299となり、非常に近い値を得ることができました。

nice!(1)  コメント(0)  トラックバック(0) 
共通テーマ:学問

SPSS Modeler、シミュレーションノードを用いたモンテカルロ法の話 [確率・統計、データマイニング]

朝野先生が書かれた『ベイズ統計学』をSPSS Modelerに実装しました。


ビジネスマンがはじめて学ぶ ベイズ統計学 ―ExcelからRへステップアップ―

ビジネスマンがはじめて学ぶ ベイズ統計学 ―ExcelからRへステップアップ―

  • 作者: 朝野 煕彦
  • 出版社/メーカー: 朝倉書店
  • 発売日: 2017/02/20
  • メディア: 単行本(ソフトカバー)



まずは、マルコフ連鎖モンテカルロ法ではない、普通のモンテカルロ法の話。

6章(6.1 モンテカルロ法より)
店舗A, B, C, Dの売上データあり、それを集計すると
 店舗A(平均100, 分散20)
 店舗B(平均120, 分散20)
 店舗C(平均110, 分散15)
 店舗D(平均100, 分散10)
となっていました。

なんとなく店舗Bの平均が高いのですが、1000日間の中で、店舗Bの売上が一番高い日はどれくらいあるでしょうか?といった問題をモンテカルロ法を使って計算します。

実際のストリームは、いたってシンプルです。



「シミュレーション生成」ノードの中身
分布で、正規分布を選んで平均と分散のパラメータを設定



売上なので、マイナスの値が出てくるとおかしいので、最小値を0.0としておきました。
実際は、平均100、分散10~20程度だと0以下になることは極めて稀なのですが、念のためです。w

相関のところは特に設定していませんが、こちらも設定することは可能です。
例えば、週末は売上が高くなるけど、平日は売上が落ちる、みたいな店舗の売上に相関があると仮定するならば、設定しても良いかもしれません。

拡張オプションでは、どれくらいの乱数を発生させるか、つまり、シミュレーションを行うか設定することができます。
デフォルトは10万。

「_max(フィールド作成)」ノードの中身
続いて、どの店舗の売上が最も高いかを計算しています。



@FIELD = max_n([Field_1, Field_2, Field_3, Field_4]


それぞれのフィールドで最大だったら1、それ以外は0という設定です。



「レコード集計とソート」ノードの中身
後は、各店舗別に1の数を合計しているだけなので、省略。

結果は、このようになります。



10万レコードあるので、各行のレコード数を10万で割ると、確率が出てきます。
教科書では、Bの店舗が最大になる確率は、54%となっていました。

今回、SPSS Modelerで実装した例では、54.75%ということで、ほぼ同じ結果となりました。

nice!(42)  コメント(0)  トラックバック(0) 
共通テーマ:学問

平成29年度統計数理研究所公開講座 [確率・統計、データマイニング]

平成29年度統計数理研究所公開講座が発表されました。

http://www.ism.ac.jp/lectures/kouza.html

B. ベイズ統計の理論・モデリング・評価について
D. 統計モデルと赤池情報量規準 AIC 1

気になっているのはこの2つ。

BもDも需要が高そうなので、抽選になりそうです。(^^;
抽選で当たると良いのですが。

nice!(4)  コメント(0)  トラックバック(0) 
共通テーマ:学問

All of Statistics: A Concise Course in Statistical Inference [確率・統計、データマイニング]

いくつか統計まわりの教科書を買いました。

All of Statistics: A Concise Course in Statistical Inference (Springer Texts
in Statistics)
https://www.amazon.co.jp/dp/0387402721/

All of Statistics: A Concise Course in Statistical Inference (Springer Texts in Statistics)

All of Statistics: A Concise Course in Statistical Inference (Springer Texts in Statistics)

  • 作者: Larry Wasserman
  • 出版社/メーカー: Springer
  • 発売日: 2004/10/21
  • メディア: ハードカバー




統計的学習の基礎 ―データマイニング・推論・予測―
https://www.amazon.co.jp/dp/432012362X/

統計的学習の基礎 ―データマイニング・推論・予測―

統計的学習の基礎 ―データマイニング・推論・予測―

  • 作者: Trevor Hastie
  • 出版社/メーカー: 共立出版
  • 発売日: 2014/06/25
  • メディア: 単行本




マーケティングの数理モデル (経営科学のニューフロンティア)
https://www.amazon.co.jp/dp/4254275161/

マーケティングの数理モデル (経営科学のニューフロンティア)

マーケティングの数理モデル (経営科学のニューフロンティア)

  • 作者:
  • 出版社/メーカー: 朝倉書店
  • 発売日: 2001/06
  • メディア: 単行本




実践 ベイズモデリング -解析技法と認知モデル
https://www.amazon.co.jp/dp/4254122209/

実践 ベイズモデリング -解析技法と認知モデル-

実践 ベイズモデリング -解析技法と認知モデル-

  • 作者: 豊田 秀樹
  • 出版社/メーカー: 朝倉書店
  • 発売日: 2017/01/25
  • メディア: 単行本(ソフトカバー)




岩波データサイエンス Vol.5
https://www.amazon.co.jp/dp/4000298550/

岩波データサイエンス Vol.5

岩波データサイエンス Vol.5

  • 作者:
  • 出版社/メーカー: 岩波書店
  • 発売日: 2017/02/16
  • メディア: 単行本(ソフトカバー)




ビジネスマンがはじめて学ぶ ベイズ統計学 ―ExcelからRへステップアップ―
https://www.amazon.co.jp/dp/4254122217/

ビジネスマンがはじめて学ぶ ベイズ統計学 ―ExcelからRへステップアップ―

ビジネスマンがはじめて学ぶ ベイズ統計学 ―ExcelからRへステップアップ―

  • 作者: 朝野 煕彦
  • 出版社/メーカー: 朝倉書店
  • 発売日: 2017/02/20
  • メディア: 単行本(ソフトカバー)



nice!(54)  コメント(0)  トラックバック(0) 
共通テーマ:学問

実践 ベイズモデリング [確率・統計、データマイニング]

豊田秀樹先生の新しい本が発売されていますね。

実践 ベイズモデリング -解析技法と認知モデル-2017/1/25


実践 ベイズモデリング -解析技法と認知モデル-

実践 ベイズモデリング -解析技法と認知モデル-

  • 作者: 豊田 秀樹
  • 出版社/メーカー: 朝倉書店
  • 発売日: 2017/01/25
  • メディア: 単行本(ソフトカバー)



こちらの基礎からのベイズ統計学の続編かと思われます。


基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門

基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門

  • 作者: 豊田 秀樹
  • 出版社/メーカー: 朝倉書店
  • 発売日: 2015/06/25
  • メディア: 単行本



基礎とありますが、途中は歯ごたえがあります。

ただ、原理をきちんと押さえることなく、ツールを使ってなんとなくそれっぽい解析をするのはとても危険なことなので、色々な本を読んで基礎を固めたうえで、実践をしていきたいものです。

nice!(50)  コメント(0)  トラックバック(0) 
共通テーマ:学問

放送大学「心理統計法」 [確率・統計、データマイニング]

豊田秀樹先生が4月からの放送大学で「心理統計法」という授業があるようです。

http://www.ouj.ac.jp/hp/kamoku/H29/kyouyou/C/sinri/1529196.html

心理学はデータに基づいて心のメカニズムを研究する学問です。この目的のためのデータ分析法について講義します。従来の心理統計法の初年度の講義は、有意性検定の利用を前提としていました。しかし本講義には有意性検定が登場しません。ベイズ流のアプローチで学習系列が展開されます。もちろんt分布・F分布・カイ2乗分布は登場しません。その点で本講義はとてもユニークですから、はじめてデータ分析に入門する方ばかりでなく、長くデータ分析をしてきた方の統計学再入門のための授業としても利用していただけます。


2017年4月1日から毎週土曜日 14時30分~15時15分
全15回、各回45分の講義

p値を使わないってことで、こちらの本が参考になりそうです。

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―2016/6/2


はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―

  • 作者: 豊田 秀樹
  • 出版社/メーカー: 朝倉書店
  • 発売日: 2016/06/02
  • メディア: 単行本(ソフトカバー)



nice!(5)  コメント(0)  トラックバック(0) 
共通テーマ:学問

ビッグデータ時代のマーケティング ベイジアンモデリングの活用 [確率・統計、データマイニング]

樋口先生と佐藤先生の本。

研究で使う手法について、この本に書かれているってことで、頂きました。
内容は難しそうですが、少しずつ読み進めていこうと思います。


ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS理工学専門書)

ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS理工学専門書)

  • 作者: 佐藤 忠彦
  • 出版社/メーカー: 講談社
  • 発売日: 2013/01/22
  • メディア: 単行本(ソフトカバー)



Kindle版




nice!(5)  コメント(0)  トラックバック(0) 
共通テーマ:学問

SPSS Modelerで逆関数法を使った乱数発生 [確率・統計、データマイニング]

RやSPSS Modelerには乱数生成の機能があります。
しかし、用意されていない乱数を発生したい場合、どう乱数を発生させるのか?

分布関数F(x)に従う乱数Yを生成する手順
1. (0, 1)の一様乱数Xを生成する

2. F-1(x)を求める(必要がある)。

ここで、三角分布の乱数(min=0, max=4, mode=1)を作成しました。

逆関数法を使って求めた三角分布の乱数





SPSS Modelerには乱数発生のシミュレーションノードがあるのですが、
調べたところ、なんと!三角分布の乱数発生がありました。w

直接、シミュレーションノードを使って求めた三角分布の乱数です。



逆関数法のシミュレーション結果と同じですね。

逆関数法を使うことで、ラプラス分布なども発生可能となります。
(ラプラス分布は、シミュレーションノードに入っていませんでした。)

nice!(54)  コメント(0)  トラックバック(0) 
共通テーマ:学問

正規分布かどうかの検定 [確率・統計、データマイニング]

色々な検定方法がありますが、ややこしいのは、微妙に似ている分布だと
同じデータであるにも関わらず、検定結果が採択になる場合があったり、
棄却される場合があったりしてしまいます。

適合度の検定--正規分布への適合度の検定
http://aoki2.si.gunma-u.ac.jp/lecture/GoodnessOfFitness/normaldist.html

上記以外の方法としては、Rのパッケージ tseries に含まれているJarque-Bera Test(ジャック・ベラ検定)などもあります。

library(tseries)
dat <- read.table("data.csv", header=T)

jarque.bera.test(dat)

## Jarque Bera Test
##
## data: data
## X-squared = 30.881, df = 2, p-value = 1.969e-07

上記の場合は、p値が 1.969e-07 なので、有意水準 5% だったとすると、
帰無仮説は棄却されることになります。

nice!(3)  コメント(0)  トラックバック(0) 
共通テーマ:学問

欠測データの統計学 [確率・統計、データマイニング]

統計数理研究所の公開講座『欠測データの統計学』に行ってきました。
http://www.ism.ac.jp/lectures/28m.html

高井先生、星野先生、野間先生によって書かれたこちらの本がベースになっているようです。


欠測データの統計科学――医学と社会科学への応用 (調査観察データ解析の実際 第1巻)

欠測データの統計科学――医学と社会科学への応用 (調査観察データ解析の実際 第1巻)

  • 作者:
  • 出版社/メーカー: 岩波書店
  • 発売日: 2016/04/20
  • メディア: 単行本(ソフトカバー)



今年もいろいろ公開講座を受講しましたが、今年度の受講はこちらが最後。
来年度の公開講座が楽しみです。

nice!(2)  コメント(0)  トラックバック(0) 
共通テーマ:学問

欠損値を含むレコードの処理 その6 オススメの補完方法 [確率・統計、データマイニング]

★ 過去の記事 ★
欠損値を含むレコードの処理 その1 欠測データの生成方法
http://skellington.blog.so-net.ne.jp/2016-12-19

欠損値を含むレコードの処理 その2 C&RT Treeを使った欠測処理
http://skellington.blog.so-net.ne.jp/2016-12-20

欠損値を含むレコードの処理 その3 リストワイズ削除
http://skellington.blog.so-net.ne.jp/2016-12-21

欠損値を含むレコードの処理 その4 平均値代入
http://skellington.blog.so-net.ne.jp/2016-12-22

欠損値を含むレコードの処理 その5 回帰代入
http://skellington.blog.so-net.ne.jp/2016-12-23


こちらの方法ではなんらかの不具合が生じてしまいました。

優れている手法としては、完全情報最尤推定(Full-Information Maximum Likelihood: FIML)や多重代入法(Multiple Imputation: MI)を使うのが良いようです。

多重代入法は、SPSS Modelerにはなく、SPSS Statisticsのオプションである Missing Values に入っているようです。

M.欠測データの統計科学:基礎理論と実践的な方法論
http://www.ism.ac.jp/lectures/28m.html


欠測データの統計科学――医学と社会科学への応用 (調査観察データ解析の実際 第1巻)

欠測データの統計科学――医学と社会科学への応用 (調査観察データ解析の実際 第1巻)

  • 作者:
  • 出版社/メーカー: 岩波書店
  • 発売日: 2016/04/20
  • メディア: 単行本(ソフトカバー)



nice!(1)  コメント(0)  トラックバック(0) 
共通テーマ:学問

欠損値を含むレコードの処理 その5 回帰代入 [確率・統計、データマイニング]

その2 C&RT Treeを使った欠測処理 で行った決定木を使う補完方法の場合、同じ枝の値は全部同じ値になってしまうため、上手く補完ができませんでした。

だったら、決定木ではなく回帰分析を行ってその値で補正しましょうというのは自然な流れです。



[真値]
yの平均:124
yの標準偏差:25.0
xとyの相関:0.592

[MCAR]
yの平均:124 ○
yの標準偏差:19.2 ×(小さい)
xとyの相関:0.793 ×(高い)



[MAR]
yの平均:122 ○
yの標準偏差:21.1 ×(小さい)
xとyの相関:0.816 ×(高い)



[MNAR]
yの平均:148 ×(高すぎる)
yの標準偏差:9.86 ×(小すぎる)
xとyの相関:0.671 ×(高い)



平均値に関して言えば、MCARとMARは大丈夫そうです。
yの標準偏差やxとyの相関に関しては上手く行っていません。

これは、CRT代入や平均値代入と同じく、一つの値で補正をしてしまっているため、母数にバイアスがないのが原因です。

★ 過去の記事 ★
欠損値を含むレコードの処理 その1 欠測データの生成方法
http://skellington.blog.so-net.ne.jp/2016-12-19

欠損値を含むレコードの処理 その2 C&RT Treeを使った欠測処理
http://skellington.blog.so-net.ne.jp/2016-12-20

欠損値を含むレコードの処理 その3 リストワイズ削除
http://skellington.blog.so-net.ne.jp/2016-12-21

欠損値を含むレコードの処理 その4 平均値代入
http://skellington.blog.so-net.ne.jp/2016-12-22

nice!(1)  コメント(0)  トラックバック(0) 
共通テーマ:学問

欠損値を含むレコードの処理 その4 平均値代入 [確率・統計、データマイニング]

リストワイズ削除は、データを削除するのでもったいない感じがします。
そこで、平均値で代入してみてはどうか?という発想です。

まずは、結果から。

[真値]
yの平均:124
yの標準偏差:25.0
xとyの相関:0.592

[MCAR]
yの平均:127 ○
yの標準偏差:14.5 ×(低い)
xとyの相関:0.322 ×(低い)

[MAR]
yの平均:141 ×(高い)
yの標準偏差:13.2 ×(低い)
xとyの相関:0.111 ×(低い)

[MNAR]
yの平均:152 ×(高い)
yの標準偏差:7.99 ×(低い)
xとyの相関:0.194 ×(低い)

なぜ、このような事が起こっているのか散布図を書いてみます。

[MCAR]の場合
平均値は真値に近いです。
これは、xとyが完全にランダムであるから。
しかし、yの値を一定の値にしてしまっているために
yの標準偏差が低くなったり、xとyの相関も低くなったりします。

CRT Treeを使った欠測処理で、CRTが分岐せずに全部同じ値になっていることと同様の結果ですね。



[MAR]の場合(x <= 135を欠損させる)
yの平均が高くなる理由ですが、xとyが相関があります。
欠測している個所は、欠損していない箇所よりも平均値が低くなっているはずです。
しかし、欠損していない個所の平均値で欠損箇所を埋めてしまっているために平均値が低くなってしまいます。



[MNAR]の場合(y <= 135を欠損させる)
MARよりもさらに平均値が高いです。
今回は、低いyの値を欠損させているにもかかわらず、高いyの値で補完していることが原因です。



★ 過去の記事 ★
欠損値を含むレコードの処理 その1 欠測データの生成方法
http://skellington.blog.so-net.ne.jp/2016-12-19

欠損値を含むレコードの処理 その2 C&RT Treeを使った欠測処理
http://skellington.blog.so-net.ne.jp/2016-12-20

欠損値を含むレコードの処理 その3 リストワイズ削除
http://skellington.blog.so-net.ne.jp/2016-12-21

nice!(64)  コメント(0)  トラックバック(0) 
共通テーマ:学問

欠損値を含むレコードの処理 その3 リストワイズ削除 [確率・統計、データマイニング]

リストワイズ削除とは、一つでも欠損があったら全部のレコードを削除するという方法になります。
なんだかもったいない気もします。。。

リストワイズ削除をすると、どのような影響になるのか、SPSS Modelerで検証します。



[真値]
yの平均:124
yの標準偏差:25.0
xとyの相関:0.592

[MCAR]
yの平均:126 ○
yの標準偏差:25.2 ○
xとyの相関:0.557 ○

[MAR]
yの平均:141 ×(高すぎる)
yの標準偏差:22.8 ×(低い)
xとyの相関:0.380 ×(低い)

[MNAR]
yの平均:152 ×(高すぎる)
yの標準偏差:14.2 ×(低すぎる)
xとyの相関:0.401 ×(低い)

xとyが完全ランダムの場合のみyの平均もyの標準偏差も同じになっていますが、
MARやMNARの場合は上手く復元できません。

特にxとyの相関係数は、切断効果により小さくなってしまいます。

リストワイズは手っ取り早いのですが、単純にデータを削除すると、平均や標準偏差など得られた結果がおかしい場合があるので注意が必要ですね。

★ 過去の記事 ★
欠損値を含むレコードの処理 その1 欠測データの生成方法
http://skellington.blog.so-net.ne.jp/2016-12-19

欠損値を含むレコードの処理 その2 C&RT Treeを使った欠測処理
http://skellington.blog.so-net.ne.jp/2016-12-20

nice!(7)  コメント(0)  トラックバック(0) 
共通テーマ:学問

欠損値を含むレコードの処理 その2 C&RT Treeを使った欠測処理 [確率・統計、データマイニング]

IBM SPSS Modelerには欠損値検査が付いています。
(手法としては、全部、微妙なのであまり使わない方が良さそうです。)

[データ検査]ノードというものがあります。
実行すると、このようなアウトプットが出てきます。



欠損値検査タブをクリックすると、どのようなアルゴリズムで欠損値を補完するかを選択することができます。

用意されているのは、下記の4種類。
1. 固定値
2. 無作為
3. 式(回帰式)
4. アルゴリズム(CRT)

1.~3.は、また、別の機会に調べるとして、まずは、4.のアルゴリズムから。
元々、データマイニングツールということもあり、補完するアルゴリズムは決定木のCRT(CA&RT)になっています。

なんで、CARTかといえば、classification and regression treesの名前の通り、
分類と回帰の両方を扱えます。

つまり、名義変数の補完の場合はclassification、連続値の補完としてregressionを使うことができるかです。

一見、上手く行きそうですが、細かく見ていくとおかしなことが起こっています。

今回、xとyは、相関0.600の関係になるようにサンプリングしています。
欠測を与える前のxとy値は0.592となっています。

欠測データを補完した際にxとyの相関も0.600(0.592)付近になることが期待されるのですが、0.315という結果になっていました。

出来上がったモデルを見ると、下図のようになっています。


つまり、欠損データ部分にすべて同じ値を埋めましょう、ということを意味しています。

次に、散布図を書いてみると、このようになります。


緑色の部分が欠損値のデータを補完した部分になります。
このようにすべて同じ値で埋めてしまうため、xとyの相関が0.315と低い値になってしまいました。

次にランダムシードを変更して実行すると、今度は、木が分岐し、散布図は下図のようになっています。


先ほど違ってすべて同じ値ではないのですが、やはり多くの個所を一つの値で置換していることがわかります。

また、別の問題として、C&RTを使って分岐するということは、
ちょっとした決定木の分岐の違いによって補完される値が変わってしまいます。
その結果、相関係数の値が実行するたびに大きく変化することも問題です。

ということで、一見、もっともらしいアルゴリズム(CRT)で置換しているように見えますが、細かく見ていくと、変なことが起こっているので、この置換方法はやめた方が良いように思えます。

★ 過去の記事 ★
欠損値を含むレコードの処理 その1 欠測データの生成方法
http://skellington.blog.so-net.ne.jp/2016-12-19

nice!(1)  コメント(0)  トラックバック(0) 
共通テーマ:学問

欠損値を含むレコードの処理 その1 欠測データの生成方法 [確率・統計、データマイニング]

レコードの中に欠損値があることは、よくあります。

IBM SPSS Modelerでも欠損値がある場合、それを補正するノードは用意されているのですが、今回、欠測データ解析の講義を受けて、なるほど!と思ったことがあったので、まとめたいと思います。

基本、SPSS Modelerでシミュレーションしていきます。

欠測データ解析と言えば、Rubin(1976)があまりにも有名です。

欠損値を3つのタイプに分けることができます。
今、(X, Y)の2変量データ、Yに欠測があるとします。

・MCAR(Missing Completely At Random)
YにもXにも依存しない。

・MAR(Missing At Random)
Yには依存しないが、Xに依存する。

・MNAR(Missing Not At Random)
Yに依存する。

いろいろな方法がありますが、上手く行くのはMCARとMARの場合です。

まずは、欠測データ解析用のデータを作ります。


[入力]タブにあるシミュレーション生成ノードを使います。
2変数(x, y)はともに平均が125, 標準偏差が25, 相関は0.6とします。

項目の選択
シミュレーションしたフィールド
ここで平均が125, 標準偏差が25を設定


相関
ここで相関0.6を設定


拡張オプション
発生させる乱数として1000個のデータを生成
ランダムシードを12345と設定


・MCAR(Missing Completely At Random)の作り方
randというフィールドを作成します。
random(100) と書くと、0 < x <= 100となります。
実際は、1から100までの100通りの乱数が生成されます。



random0(100) と書くと、0 <= x <= 100となります。
実際は、0から100までの101通りの乱数が生成されます。
通常は、randomを使うことが多いかと思われます。

YにもXにも依存しない。
つまり、randの値が66以下の場合にデータを欠損させます。


・MAR(Missing At Random)の作り方
Yには依存しないが、Xに依存する。
つまり、x <= 135 の場合に、yの値を欠損させます。


・MNAR(Missing Not At Random)
Yに依存する。
つまり、y <= 135 の場合に、yの値を欠損させます。


以下、欠測データを補完した場合にどうなるかをシミュレーションしていきます。

ちなみに、このデータは、相関は0.6で作っているので、y = a x + b という単回帰を考えた場合、回帰係数は0.6となるはずです。

完全データで線形回帰を行った場合、
y = 0.5962 * x + 50.83
となりました。



確かに、回帰係数は 0.6 となっています。
欠測データじゃないので、当然の結果と言えば当然の結果ですが。。。(^^;

欠測データがある場合、
・そのレコードを削除する
・平均値や最頻値などの固定値で置換する
・回帰などのアルゴリズムを使う
が考えられます。

SPSS Staticsでは、Missing Valuesを購入すれば、EMアルゴリズムで推定したり
多重代入を使って置換することができるようです。

SPSS Modelerに搭載されているアルゴリズムは、C&RT Treeが使えます。

nice!(50)  コメント(0)  トラックバック(0) 
共通テーマ:学問

統計・機械学習における確率的最適化 [確率・統計、データマイニング]

統計数理研究所の公開講座『統計・機械学習における確率的最適化』に行ってきました。
上期に行われた『スパース推定』の続編的な講座です。

ただ、かぶっている部分も多くあって、それぞれの先生によっていろんな角度から説明されるので、非常に参考になりました。

下期は、あと『欠測データの統計科学:基礎理論と実践的な方法論』を受講する予定です。

nice!(1)  コメント(0)  トラックバック(0) 
共通テーマ:学問

コーシー分布:乱数を使ったシミュレーション [確率・統計、データマイニング]

Rを使って正規分布とコーシー分布の乱数を1,000個発生させます。

# 正規分布の乱数を発生
x <- rnorm(1000)

# コーシー分布の乱数を発生
y <- rcauchy(1000, location = 0, scale = 1)

グラフを書いてみるとコーシー分布が正規分布に比べて、裾が重い分布ということが良くわかります。

まずは、正規分布のグラフ(青)。


これにコーシー分布(赤)を重ねてみると、、、

確かに0を中心とした乱数が発生されていますが、正規分布と比較してより大きな値もたくさん出ています。

さらに分かりやすいのが、グラフのy軸をデータに合わせてみると・・・

時々、ものすっごく大きな値が出てきています。

このグラフは正規分布のグラフと一緒に書いているのですが、正規分布の方は0付近でおとなしく値が出ています。

グラフを書いてみると、コーシー分布は少しやんちゃな分布のように見えます。

nice!(3)  コメント(0)  トラックバック(0) 
共通テーマ:学問

コーシー分布:なぜ平均を持たないのか [確率・統計、データマイニング]

コーシー分布は、正規分布と同じく左右対称な分布です。
正規分布に比べて、裾が重い分布となっています。

分布の形を見るだけだと、平均は明らかに 0 な気がするのですが
実はそうでもないようです。

積分を使って計算すると

1/2 log(1 + b^2) - 1/2 log(1 + a^2)
b -> ∞, a -> ∞ としたものなので、
∞ - ∞になります。

∞ - ∞ ≠ 0 なので、平均が存在しないって話です。

平均が存在しないってことは、分散も存在しません。
そして、大数の法則や中心極限定理も成立しないといった奇妙な分布になります。

確率変数がコーシー分布に従う時、その標本分布も再びコーシー布に従い
測定を繰り返しても、標本平均値の分散は無限大となります。

なんだか正規分布に比べて恐ろしい分布ですね。。。

nice!(43)  コメント(0)  トラックバック(0) 
共通テーマ:学問

自然科学の統計学 (基礎統計学) ~最強力検定 [確率・統計、データマイニング]

自然科学の統計学 (基礎統計学) ~最強力検定


自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

  • 作者:
  • 出版社/メーカー: 東京大学出版会
  • 発売日: 1992/08
  • メディア: 単行本



~備忘録~
6.3 標本の大きさnの決定
6.4 最強力検定

予算などの都合でサンプルサイズが小さい場合
第三層試験

局外母数、めいわく母数、撹乱母数

薬の認可などの特定の分野では、検出力を80%にしている

検出力50%くらいが信頼区間幅でやる場合と同じくらい
常識的な標本サイズになる

ネイマン・ピアソンの補題
実は大定理

両側検定
実際は片側検定を2回やっている事例が多い
制御みたいな例では両側検定

nice!(5)  コメント(0)  トラックバック(0) 
共通テーマ:学問

偉大なTukey [確率・統計、データマイニング]


自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

  • 作者:
  • 出版社/メーカー: 東京大学出版会
  • 発売日: 1992/08
  • メディア: 単行本



自然科学の統計学 (基礎統計学) を読んでいて、ジョン・ワイルダー・テューキー(John Wilder Tukey)の話が出てきました。
実は、Tukeyはとても偉大な統計学者だったようです。

自分は、Tukeyという言葉を聞くと、多重検定を思い出します。

ベル研が開発したS言語ですが、実はベル研にS言語を作らせたのは、Tukeyだったとか。

Tukeyのオレンジ本というのもあるようです。

CDA(Confirmatory data analysis:確証的データ解析)からEDA(Exploratory data analysis:探索的データ解析)へ提唱したのもTukeyでした。

nice!(1)  コメント(0)  トラックバック(0) 
共通テーマ:学問

フィッシュボーン [確率・統計、データマイニング]

日本には統計学部というのはなく、数学の一部的な感じで扱われていますが
海外では小学校から統計の授業がちゃんとあるようです。

高校くらいになると、重回帰とかもできるようになっているそうな。

そう考えると、ビックデータとか騒がれている割には、全体的には遅れている気がします。

原因、結果の不特性要因(フィッシュボーン)とかも小学校3年生くらいで習っていて、
フェルミテスト的な問題も数学の問題で出てくるそうです。

Welcome to Bowland Maths
http://www.bowlandmaths.org.uk/

自分で仮定や制約条件を積み上げて、考えられるかといった訓練になりますしね。

ちなみに、フィッシュボーンとかは、日本だと、企業に入ってから知ったって人も多いかと思われます。
自分もそうでした。w

フィッシュボーンは、元は石川馨先生が作り、いったん海外に海外に伝わり、
日本に逆輸入され有名になったという、、、

nice!(1)  コメント(0)  トラックバック(0) 
共通テーマ:学問

自然科学の統計学 (基礎統計学) ~主な検定と検出力 [確率・統計、データマイニング]

こちらを読み進めていますが、その備忘録として。


自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

  • 作者:
  • 出版社/メーカー: 東京大学出版会
  • 発売日: 1992/08
  • メディア: 単行本



6. 検定と標本の大きさ
6.2 主な検定と検出力

p値を否定する人の意見として、
データ数が大きくなれば、少しずれただけで検出が100%になってしまう。
⇒ データ数が多ければ、どんな検定も有意になる。

しかし、元々の検定の発想(立場)から考えると、「それは問題ではなく、そりゃそうだよね。」という自然な結論になる。

回帰分析でt値が出てくる理由
誤差が既知というのは普通はないので、分散が未知である場合のt検定になる

t分布は正規分布に比べて裾が重い分布になるが、nが30くらいあるとz検定と同じくらいになる

中心t分布と非心t分布

検出力を一番よくしたい
⇒ 差を取ったり比を取ったりする

フィッシャーは、色々な検定も提唱したが、誰も使っていない。(正しいのだが・・・)
フィッシャーの正確確率検定だけは生き残った。
条件付き検定
周辺度数を固定した時の確率分布は超幾何分布に従う
2×2分割表の自由度は1

当時は、フィッシャーが提案した時に、ものすごく論争になったが、最近では落ち着いている。
今でも20年に1回くらいは議論になっている。

nice!(2)  コメント(0)  トラックバック(0) 
共通テーマ:学問

自然科学の統計学 (基礎統計学) ~検定の検出力 [確率・統計、データマイニング]

こちらを読み進めていますが、その備忘録として。


自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

  • 作者:
  • 出版社/メーカー: 東京大学出版会
  • 発売日: 1992/08
  • メディア: 単行本



6. 検定と標本の大きさ
6.1 検定の検出力

検定のロジック ⇒ 背理法のアイデアと類似している。

「間違いだ」と証明したい仮説を H0(帰無仮説) として持ってきて、
それを棄却した時だけ、積極的に保証できる。

つまり、どちらを帰無仮説にし、どちらを対立仮説にするか、であるが、
価値がある(異常を発見したい)ものを対立仮説とする。

検定(保守的)
 確実にこっちになっている保証のロジック
 検定は、とにかく保障する!

決定理論
 AとBの時にどっちに行くかのロジック
 ベイズは決定論に近い

マイニング
 こういう可能性もありますよと示すもの

論文や新薬が効くかどうかの世界においては、保証のレベルを上げる必要があるので、検定との相性が良い
ビジネスの世界においては決定論が向いている

パラメトリック検定
 θのパラメータに対しての検定
ノンパラメトリック検定
 身長などの分布に対しての検定

豊田先生が、ポストp値時代の本を書かれています。


はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―

  • 作者: 豊田 秀樹
  • 出版社/メーカー: 朝倉書店
  • 発売日: 2016/06/02
  • メディア: 単行本(ソフトカバー)



実際は、p値が悪というわけではなく、それぞれの状況にあった使い分けだと思います。

nice!(2)  コメント(0)  トラックバック(0) 
共通テーマ:学問

正則化法に基づいたスパース推定 [確率・統計、データマイニング]

統計数理研究所の公開講座に行ってきました。

近年ビッグデータ (超高次元データ)の解析ニーズが高まっているのか、かなりの人気みたいで、抽選に落ちた人も多そうです。

Lasso、リッジ回帰の基本的な説明から始まって、Elasic Net、Fused lasso、Generalized lasso、Group lasso、Overlapping group lasso、OSCAR、Clusterd lassoと話が展開されていきました。

この辺りって、いきなり論文見ても分からないし、独学ではなかなか難しい部分がありますが、こうして説明を聞くとかなりすっきりと話が入ってきますね。

他にはベイジアンアプローチや推定アルゴリズムの話もありましたが、なんとか最後まで話についていくことができました。

近日、これらの本が出るみたいなので、そちらの本も買ってみたいと思います。

nice!(19)  コメント(0)  トラックバック(0) 
共通テーマ:学問

HadoopとRによるビッグデータ解析 [確率・統計、データマイニング]

統計数理研究所の公開講座に行ってきました。

通常のコースは、数学がたくさん出てくるコースなのですが、
こちらのコースは、計算機を主に使うコースでした。

Rのコードがある程度分かっていない人はつらかったように思えます。

MapperとかReducerとか、過去に書いたことがある人はすんなりと授業についていけたと思いますが、初めての人は概念などつかみ難い内容だったかもしれません。

nice!(2)  コメント(0)  トラックバック(0) 
共通テーマ:学問

SPSS Datathon [確率・統計、データマイニング]

SPSS Datathon - 研究奨励賞復活!データサイエンティストへの道
http://spss-datathon.com/

応募資格を見ると、「教育機関の在学生」とあるので、自分も対象者ですかね?w

nice!(10)  コメント(0)  トラックバック(0) 
共通テーマ:学問

有限母集団における無相関検定について [確率・統計、データマイニング]

『無限母集団における無相関検定について』はこちら。
http://skellington.blog.so-net.ne.jp/2016-06-21

ちなみに、母集団が有限の場合、無限母集団で行った検定方法は使えません。

分かりやすく極端な例を考えると、母集団の数が100あったとし、その中から無作為抽出で99のデータを抽出したとします。
この様な状況を仮定すると母相関係数の信頼区間は相当狭い範囲になっているはずです。

このような状態においては、通常の無限母集団を想定するのではなく、有限母集団に対する検定を行う必要があります。

ここは色々なアプローチがあるかと思いますが、ノンパラメトリックブートストラップ検定などのアプローチが考えられます。
実際に、信頼区間を計算してみると、無限母集団で考えた信頼区間よりも狭い区間になっていることが確認できます。


An Introduction to the Bootstrap (Chapman & Hall/CRC Monographs on Statistics & Applied Probability)

An Introduction to the Bootstrap (Chapman & Hall/CRC Monographs on Statistics & Applied Probability)

  • 作者: Bradley Efron
  • 出版社/メーカー: Springer
  • 発売日: 1994/05/15
  • メディア: ハードカバー



nice!(51)  コメント(0)  トラックバック(0) 
共通テーマ:学問

無限母集団における無相関検定について [確率・統計、データマイニング]

無相関検定とは、二つの変数の相関係数を計算した時に、その相関係数に意味があるのかを調べる検定です。

検定の流れですが、まず、帰無仮説と対立仮説を仮定します。
帰無仮説「母集団の相関係数が0である。母相関係数ρ=0」
対立仮説「母集団の相関係数は0でない。母相関係数ρ≠0」

母集団から標本を取り出し、二つの変数の相関係数を計算し、その信頼区間を計算します。
少しややこしいのですが、標本の相関係数 r の分布は ρ=0のとき、自由度 n - 2のt分布に従います。

n-1 ではなく、n-2に注意が必要です。
なぜ、自由度がn-2かですが、二つの変数を使っているので、それぞれの平均値を計算しています。
そのため、自由度が2つ減ります。

さて、相関係数の信頼区間を計算するのだが、こちらは無作為抽出をやり直すたび信頼区間は変動します。
母相関係数ρの値は固定されており、確率的に変化するのはこの r の信頼区間です。

標本を何度も抽出すると、rの信頼区間の幅や位置が変わり、その形の区間がρを含む確率が95%になるという意味しています。

この区間が0を含んでいる場合、母相関係数が0ということを否定できないから、帰無仮説を採択します。
間違えやすいのは、母相関係数が0であるとは言っていないことです。
(実際に二つの変数の相関係数が0ということは滅多に起こりえないことだと思います。)

nice!(14)  コメント(0)  トラックバック(0) 
共通テーマ:学問
前の30件 | - 確率・統計、データマイニング ブログトップ