Python matplotlibを使って学ぶ統計処理 正規分布 新しいページはコチラ

提供: yonewiki
移動: 案内, 検索
(求めるべき係数の算出の前に〜確率密度関数から考える期待値・平均値と分散値について)
 
1行: 1行:
 
[[Python]]の記事へ戻る
 
[[Python]]の記事へ戻る
記事作成途中で、今のところ、何がPythonなの?っていう記事になっています。Python要素ゼロです。管理人はグラフを書くのにちょくちょく使ってますが、グラフを書く説明以上に統計的な知識を微分積分もあまりよくわからない人向けに難しい式変形を落とし込むという作業で管理人自身が苦しんでいます。意外とわかっていなかったことってあるんだなぁ。と、そのように思っていて、人に教えるような資格はないのではないかと感じ始めています。でも、まぁ頑張ってみます。いろんなサイトを検索したけど、ここまで真面目に向き合っているサイトは検索しても検索しても出てこないので、この記事が出来上がったら、確率・統計が手に取るようにわかるようになると思います。統計を制するもの製造を制する。世界を制する。ありとあらゆる現象を制するのだと思うと、有用なものになるんではないか。そう信じて、歩き続ける。
+
 
 +
 記事作成途中で、今のところ、何がPythonなの?っていう記事になっています。Python要素ゼロです。管理人はグラフを書くのにちょくちょく使ってますが、グラフを書く説明以上に統計的な知識を微分積分もあまりよくわからない人向けに難しい式変形を落とし込むという作業で管理人自身が苦しんでいます。意外とわかっていなかったことってあるんだなぁ。と、そのように思っていて、人に教えるような資格はないのではないかと感じ始めています。でも、まぁ頑張ってみます。いろんなサイトを検索したけど、ここまで真面目に向き合っているサイトは検索しても検索しても出てこないので、この記事が出来上がったら、確率・統計が手に取るようにわかるようになると思います。統計を制するもの製造を制する。世界を制する。ありとあらゆる現象を制するのだと思うと、有用なものになるんではないか。そう信じて、歩き続ける。
  
 
<yjavascript>
 
<yjavascript>
29行: 30行:
  
 
 3.<ymath>$ \int ^{\infty }_{-\infty } f( x) $</ymath>で積分すると1<span>(</span>グラフで言うと関数の描く曲線がy=0の線と囲まれているところの面積が1ということ<span>)</span>になる。
 
 3.<ymath>$ \int ^{\infty }_{-\infty } f( x) $</ymath>で積分すると1<span>(</span>グラフで言うと関数の描く曲線がy=0の線と囲まれているところの面積が1ということ<span>)</span>になる。
 +
 +
 +
 [[Python_matplotlibで学ぶ…グラフ描画プログラム]]
  
  
65行: 69行:
 
 
 
 
  
 [[ネイピア数のマイナスx乗の2乗の積分]]の記事にて、その証明を記載します。
+
 [[ネイピア数のマイナスx乗の2乗の積分]]の記事にて、その証明を記載します。後でなりますが…今のところは積分の公式だと思ってください。この公式も掘り下げて考え始めると加減乗除くらいしか出来ない人からすると、理解するのに3時間はかかると思います。
  
  
 証明を理解したとして、<ymath>$ (1) $</ymath>の式の両辺に<ymath>$ \sqrt{\frac{\mathrm{N}}{\pi}} $</ymath>を掛けて
+
 さてさて、証明を理解したとして、<ymath>$ (1) $</ymath>の式の両辺に<ymath>$ \sqrt{\frac{\mathrm{N}}{\pi}} $</ymath>を掛けて
  
 
<big> <ymath>\[  \int \sqrt{\frac{\mathstrut \mathrm{N}}{\mathstrut\pi}} e^{-\mathrm{N}x^2} \cdot dx = \sqrt{\frac{\mathstrut\pi}{\mathstrut \mathrm{N}}}\sqrt{\frac{\mathstrut \mathrm{N}}{\mathstrut \pi}}= 1  \]</ymath> </big>
 
<big> <ymath>\[  \int \sqrt{\frac{\mathstrut \mathrm{N}}{\mathstrut\pi}} e^{-\mathrm{N}x^2} \cdot dx = \sqrt{\frac{\mathstrut\pi}{\mathstrut \mathrm{N}}}\sqrt{\frac{\mathstrut \mathrm{N}}{\mathstrut \pi}}= 1  \]</ymath> </big>
129行: 133行:
  
  
 とイメージだけでは怪しいので、確率密度関数に<ymath>$ (x - \mu)^2  $</ymath>をかけたモノを積分するだけで分散が求まるのか、ここでも確認をしてみたいと思います。分散はデータを2乗したものの平均から平均値を引くこと<ymath> $ \sigma^2=\overline{\text{x}^{2}} -\overline{\text{x}}^{2} $</ymath> で求めることができます。本当にそれでも分散が算出できるのかについても触れないといけないですね。ここで<ymath>$ \overline{\text{x}} $</ymath>は全部のデータ<ymath>$ \text{x} $</ymath>に対するの平均を意味します。オーバーラインの下にあるモノに対しての平均になります。<ymath>$ x $</ymath>は一つのデータで、与えられた<ymath>$ x $</ymath>は分布関数<ymath>$ f(x) $</ymath>の値によって表現される全体のデータ出現頻度に相当する数値となり、<ymath>$ x $</ymath>のときの<ymath>$ f(x) $</ymath>で囲われる面積によって確率が決定されるものなのでした。このことを踏まえて、説明を続けます。
+
 とイメージだけでは怪しいので、確率密度関数に<ymath>$ (x - \mu)^2  $</ymath>をかけたモノを積分するだけで分散が求まるのか、ここでも確認をしてみたいと思います。分散はデータを2乗したものの平均から平均値を2乗したものを引く<ymath> $ \sigma^2=\overline{\text{x}^{2}} -\overline{\text{x}}^{2} $</ymath> で求めることができます。本当にそれでも分散が算出できるのかについても触れないといけないですね。ここで<ymath>$ \overline{\text{x}} $</ymath>は全部のデータ<ymath>$ \text{x} $</ymath>に対するの平均を意味します。オーバーラインの下にあるモノに対しての平均になります。<ymath>$ x $</ymath>は一つのデータで、与えられた<ymath>$ x $</ymath>は分布関数<ymath>$ f(x) $</ymath>の値によって表現される全体のデータ出現頻度に相当する数値となり、<ymath>$ x $</ymath>のときの<ymath>$ f(x) $</ymath>で囲われる面積によって確率が決定されるものなのでした。このことを踏まえて、説明を続けます。
  
  
140行: 144行:
 
\end{align}
 
\end{align}
 
$$</ymath> </big>
 
$$</ymath> </big>
分散は個別のデータと平均値を引いたモノについてそれぞれ和にしたものをデータ数で割ったモノと定義されていますから、
+
分散は個別のデータと平均値を引いたモノについて2乗して、それぞれ和にしたものをデータ数で割ったモノと定義されていますから、
 
<big><ymath>\[ xの分散 \sigma^2 = \frac{(a-\overline{x})^2+ (b-\overline{x})^2 + (c-\overline{x})^2 + (d-\overline{x})^2}{4} \]</ymath> </big>
 
<big><ymath>\[ xの分散 \sigma^2 = \frac{(a-\overline{x})^2+ (b-\overline{x})^2 + (c-\overline{x})^2 + (d-\overline{x})^2}{4} \]</ymath> </big>
 
となって、上記の2乗になっている部分を展開すると分配法則の<ymath>$ (a + b)^2 = a^2 + 2ab + b^2 $</ymath>を利用して
 
となって、上記の2乗になっている部分を展開すると分配法則の<ymath>$ (a + b)^2 = a^2 + 2ab + b^2 $</ymath>を利用して
285行: 289行:
  
 
==== 分散値を求める式から確率密度関数に平均値変数と分散値変数を含めた積分して1になる係数をもつ式を求める ====
 
==== 分散値を求める式から確率密度関数に平均値変数と分散値変数を含めた積分して1になる係数をもつ式を求める ====
 +
 +
 確率密度関数はこうなんじゃないか?という随分前のところで
 +
 +
<big> <ymath>\[  \int \sqrt{\frac{\mathstrut \mathrm{N}}{\mathstrut \pi}} e^{-\mathrm{N}(x-\mu)^2} \cdot dx = 1  \]</ymath> </big>
 +
 +
 まで求めてました。積分して1になるちょうど良い膨らみの係数を求めることです。
 +
 +
 +
 でも、これって求めるのってガウスさん位の奇才でないと思いつかないことなんです。どうなっていたら都合がいいのか?その数学の魔術師の才能の考え方の一部がここまで説明してきた確率密度関数から平均値を求めることであったり、確率密度関数から分散値を求めることに適しているようなNという係数なのです。どちらかというとネイピア数つまりエクスポーネンシャルeの右上に記述されているNを優先的に決めて、それに対応するものがeの手前のNにも関わってくるということになります。結果的には <ymath>$ N = \frac{1}{2\sigma^2} $</ymath>になります。Nが何であっても、積分の結果が1になるのですから、あとはこの関数が役立つ事を目指します。係数はグラフで言う所のx=0のときのyの値である上凸の最大値と広がりが決まります。
 +
 +
 +
 とにかく、何で<ymath>$ N = \frac{1}{2\sigma^2} $</ymath>が都合がいいのかを後は考えれば良いことになります。
 +
 +
 +
 まずは分散<ymath>$ \sigma^2 $</ymath>が式の中で影響して、グラフにおいてもなんらかの役割が働かないといけません。なので<ymath>$ N = \sigma^2 $</ymath>にしたらどうなるのか?ということを考えます。
 +
 +
 +
 この場合、σが大きくなるほどグラフの広がりが小さくなり頂点の位置が高くなるような感じになってしまいます。データが分散するイメージとは逆になります。なので、逆数の<ymath>$ \frac{1}{\sigma^2} $</ymath>を掛けます。あとは結果的に出てくる<ymath>$ \frac{1}{2} $</ymath>だけがどこからやってきたのか?を考えるだけですが、これがナカナカ凡人の自分にはわからない。<ymath>$ \frac{1}{2\sigma^2} $</ymath>と<ymath>$ \frac{1}{\sigma^2} $</ymath>とで比べると2で割ってる方が広がりが大きめになります。じゃなんで2で割ってる方が使われてるの?ここが、とても重要なポイントで、データの分散値以内になる確率が面積から求められるための調整がされています。さすがにここは感覚的な議論ではなく、計算に基づいて決められていそうです。
 +
 +
 +
 さてさて、これってどうやって調べればいいの?と思ったのが自分でして、いろいろインターネットにある正規分布の確率密度の導出に関わる文献をいろいろと調べましたが、明確な答えを見つけ出すことが出来ませんでした。もうちょっと調べてみよかな。
 +
 +
 +
 ん~考えてもわからないので、まずは実際の数値がどうなるかを確認してみましょう。
 +
 +
 +
 <ymath>$ \frac{1}{2\sigma^2} $</ymath>の場合のσの値毎の面積を確認します。こっちは正しい方の値ですので、よく見かける値でしょう。1σは正規分布におけるx軸の値が-1から1までの積分値<span>(</span>グラフの面積<span>)</span>です。xを-10~10に変動した場合は、10σと表現して、面積はほぼ1になります。これを%表記で100%とすると
 +
 +
 +
 1σ = 68.27%、2σ= 95.45%、3σ=99.73%、… 6σ=99.999999808520
 +
 +
 +
 となります。6σは間違いの起こりえる世界でも正しいことが起こる確率を極限に高めた状態で100万回に1回くらいの間違いや100万個に1個の不良しかでない状態として有名な値です。6σを達成してこそ世に出せる製品と言えるというのが日本品質みたいなね。過剰品質と呼ばれることもありますが、伝統的なモノとして受け継がれています。悪習とみられて、緩い考えのモノも増えてきてはいます。良品維持コストと不良発生リスクのバランスが大事になります。命に係わるものほど6σを基準にしたモノづくりを目指してほしいです。そして、その100万個に1個さえも失敗や不良として検出できるのが理想なんでしょう。開発段階なんかでは、まずは3σくらいは達成しないとね。ってそんな感じで現場では使われています。
 +
 +
 +
 で、<ymath>$ \frac{1}{\sigma^2} $</ymath>だと、どうなるでしょう。
 +
 +
 +
 1σ = 84.27%、2σ= 99.53%、3σ=99.9978%、… 6σ=99.999999999998 <span>(</span>※例えばの悪い例なので、コレを参考にしてはダメ。正しいのはもう少し上にあります。<span>)</span>
 +
 +
 +
 と間違いの計算をすると、誰かが勘違いしそうで、怖いですが、上記のように1σでもかなりの範囲が収まる<span>(</span>ちょっと離れただけで面積が1に迫る<span>)</span>急峻な凸グラフになってしまいます。前者の方がちょうど良い塩梅であることがわかります。誰がどうやって決めたのか?式の考案者ド・モアブルさんとか、<ymath>$ \int e^{-x} \cdot dx  = \sqrt{\pi} $</ymath>と計算したガウス積分の発案者ガウスさんに聞いた方が早いかもしれませんが、自分ではここまでしか迫ることは出来ませんでした。いろいろなサイトをみてもエクスポーネンシャルの乗数<ymath>$ \frac{1}{2} $</ymath>とエクスポーネンシャルの手前に出ている<ymath>$ \frac{1}{\sqrt{2}} $</ymath>が同じになることを証明しているだけで、なんで2が生まれたのかについては触れられていないように感じます。
 +
 +
 +
 また、年月を重ねて統計学歴史書なんかに触れることが出来たら、知ることができると思いますので、それまでは、これ以上のことは、そっとしておきましょう。
 +
 +
 +
 現代において、100程ある分布関数を前にして
 +
 +
 +
 [http://www.math.wm.edu/~leemis/chart/UDR/UDR.html http://www.math.wm.edu/~leemis/chart/UDR/UDR.html]
 +
 +
 +
 [https://translate.google.co.jp/translate?hl=ja&sl=en&tl=ja&u=http%3A%2F%2Fwww.math.wm.edu%2F~leemis%2Fchart%2FUDR%2FUDR.html&sandbox=1 https://translate.google.co.jp/translate?hl=ja&sl=en&tl=ja&u=http%3A%2F%2Fwww.math.wm.edu%2F~leemis%2Fchart%2FUDR%2FUDR.html&sandbox=1]※グーグル翻訳
 +
 +
 +
 初歩の初歩である正規分布さえも理解しきれていないと感じてしまうと、自分の知識の浅さを思い知らされます。なんなんこれ?というリンク先です。恐るべし統計学。
  
 
== '''<span style= "background: #3f17ff; color: #ffffff; font-weight: bold;border-radius: 3px; padding: 10px; width: 100%; display: inline-block;">アンダーラインCSSのサンプル<span style = "'Meiryo', 'ヒラギノ角ゴ Pro W3 ', 'MS Pゴシック', ' Osaka',  sans-serif; font-style: normal; !important"></span> <span style = "'Meiryo', 'ヒラギノ角ゴ Pro W3 ', 'MS Pゴシック', ' Osaka',  sans-serif; font-style: normal; !important">[蛍光ペンを模した形式]</span><span style = "'Meiryo', 'ヒラギノ角ゴ Pro W3 ', 'MS Pゴシック', ' Osaka',  sans-serif; font-style: normal; !important"></span></span>''' ==
 
== '''<span style= "background: #3f17ff; color: #ffffff; font-weight: bold;border-radius: 3px; padding: 10px; width: 100%; display: inline-block;">アンダーラインCSSのサンプル<span style = "'Meiryo', 'ヒラギノ角ゴ Pro W3 ', 'MS Pゴシック', ' Osaka',  sans-serif; font-style: normal; !important"></span> <span style = "'Meiryo', 'ヒラギノ角ゴ Pro W3 ', 'MS Pゴシック', ' Osaka',  sans-serif; font-style: normal; !important">[蛍光ペンを模した形式]</span><span style = "'Meiryo', 'ヒラギノ角ゴ Pro W3 ', 'MS Pゴシック', ' Osaka',  sans-serif; font-style: normal; !important"></span></span>''' ==

2020年10月27日 (火) 00:00時点における最新版



個人用ツール
名前空間

変種
操作
案内
ツールボックス