2015/10/05

[ai]『深層学習』を読む (3)

まだ、昨日のページから進んでません。。
「条件付き確率の定義」が気になってしまいまして。

教科書ではp.6と最初の方にあったから、そのくらいまでのページは読んでおこう、と読み進めたものの、「確率の定義」で悩んでいた。

σ集合族、というものについて。
確率論と集合論は似たような用語というか、同じようなものを扱うらしい。
「確率が半分」だった場合、「その範囲はどこからどこまで?」とか「どれを確率と関係するとかしないとか決めるの?」のような定義をしましょう、ということが書いてある。

まず、「全体」がある。教科書ではΩで表してある。
これは「全体の集合」という意味。
それに対して、部分集合がある。Ωの一部ですな。

全体は1つしかないけど、部分集合はいくつでもパターンが考えられる。
なので、部分集合の集合、というものも考えることができる。
これを「集合族」と呼ぶそうだ。
Ω内の個々の要素いくつかをまとめたものが「部分集合」で、部分集合をいくつかまとめたものが「集合族」。
ここまでは、だいたいわかったつもり。

で、その次に「σ集合族」という言葉が出てくる。
以下の条件を満たすと、σ集合族らしい。
集合族の名前?をB(教科書ではフラクトゥールの書体になってる)とすると、

  1. Ω∈B
  2. A∈B⇒Aの補集合∈B
  3. A,, A2, ..., An, ...∈B⇒Anの和集合∈B

数式エディタとかないと、ちゃんと表現できんな・・・。
たぶん、言葉としては以下と同じことなんじゃないかと思う。
https://ja.wikipedia.org/wiki/%E5%AE%8C%E5%85%A8%E5%8A%A0%E6%B3%95%E6%97%8F#.E5.AE.9A.E7.BE.A9.E3.81.A8.E6.80.A7.E8.B3.AA

1番目は、わかる。BがΩに属する、ですな。
3番目も、わかる気がする。それぞれがBに属していたら、その和集合もBに属している、と。
2番がぴんと来なかった。AがBに属しているんなら、Aの補集合は属してないんじゃないの?と。

調べていたら、ここがわかりやすかった。
ときわ台学・ルベーグ積分
ここのβというは、上のBと同じ意味のようだ。
私が疑問に思っていたことは、1章の[2]に実例で書いてある。
集合族Bというのは、部分集合の集合の一部じゃなくて、全部の部分集合の集まりなのだ。
だから、Aという部分集合もあるし、Aの補集合という部分集合もあるのだ。


そしてようやく、条件付き確率についてだ。

P(A | C) = P(A ∩ C) / P(C)

定義式はこれだけ。
P(A | C)というのが「Cという条件があるときのAの確率」みたい。
縦線だとORみたいだけど、縦線の右側が左側の説明をしているようだ。
これだと、AはCという集合の一部だ、みたいな見方でよいのかな。
教科書にはベン図が載っていて、「Aの丸」と「Cの丸」があり、それが交わっている。
その交わった部分がP(A | C)になる。

image

数式はともかく、図としてはわかった。

もう1つ、条件付き確率の説明の近くに重要な公式があった(教科書に赤ペンでマークしているので)。
これが「ベイズの定理」で、こういう式だ。

P(Aj | A) = P(Aj) P(A | Aj) / sum( P(Ai) P(A | Ai) )

ここでの前提は、Aiは部分集合族で、Aiの領域は重ならず、全Aiの和集合は集合の全体(Ω)、だ。
実は、ベイズの定理より前に「全確率の公式」の説明がある。
ベイズの定理と同じ前提条件の時、以下が成り立つとのこと。

P(A) = sum( P(Ai) P(A | Ai) )

これは、ベイズの定理の分母と同じだ。
条件付き確率の定義式と、この全確率の公式から、ベイズの定理が導き出せる。

P(A | C) = P(A ∩ C) / P(C)    ・・・条件付き確率
P(A) = sum( P(Ai) P(A | Ai) )   ・・・全確率の公式

まず、条件付き確率のAをAjに、CをAにする(AjはAの一部)。

P(Aj | A) = P(Aj ∩ A) / P(A)

P(A)を全確率の公式にする。

P(Aj | A) = P(Aj ∩ A) / sum( P(Ai) P(A | Ai) )

あー、もう1つ公式があった。
「乗法公式」というもので、

P(A1 ∩ A2 ∩ ... ∩ An) = P(A1) P(A2 | A1) ... P(An | A1 ∩ A2 ∩ ... ∩ An-1)

というもの。
これを分子に当てはめて、

P(Aj | A) = P(Aj) P(A | Aj) / sum( P(Ai) P(A | Ai) )

うーん、もう訳がわからなくなってきた。。。

Wikipediaを見てみよう。
概要の説明がわかりやすい。
事後事後いっていたが、事前確率は縦線がないP(A)、つまり、ふつーの確率。
Aの後のBの確率が、事後確率とか条件付き確率とかいう呼び名でP(B | A)。
事後確率は、事前確率P(B)をP(A)で割った値に P(A | B)を掛けた数字で出てくる。
って、P(A | B)も条件付き確率やん!

と思ったら、こっちは「尤度」と書いてある。
違いは、AとBの順番が逆なだけなのだが・・・。

ものごとの順番としては、Aの次にBを行っている。
だから、P(B | A)は、Aの次にBしたときの確率だったのだ。
それが逆となると、「Aの次にBやって結果が出たんだけど、じゃあそこからそれっぽいパラメータを出してみようか」という、後出しじゃんけんみたいなもの、と読んだ。

教科書では、尤度が出てくるのはかなり後の方だ。
にもかかわらず、数式としてはさっさと出てくるので、この値を「尤度」として見ようと見まいとどうでもよかったのだろう。
深く考えるのは、もうちょっと気になってからやることにしよう。


「深層学習」の中では、p(d=1 | x)のように書いてあり、これは「事後確率」とのこと。
文章を見る限りでは、条件付き確率と同じ扱いのようだ。
xというパラメータを与えたときにd=1となる確率ということかな。

ただ、式が、

p(d=1 | x) = p(x, d=1) / ( p(x, d=0) + p(x, d=1) )

と、右辺がコンマで区切った確率になっている。
ベイズの定理と見比べると、コンマで区切った方が「事前確率」になるんじゃなかろうか。

でも、事後確率というか条件付き確率の式では、分母がP(A ∩ C)なんだが・・・。
はっ、このP(A ∩ C)が「Cした後のAの確率」という事前確率なのか?

なんか深みにはまりそうなので、間違っていたら間違っていたで、読み進めていけばわかるかもしれないので、この程度にして先に行こう。

0 件のコメント:

コメントを投稿

コメントありがとうございます。
スパムかもしれない、と私が思ったら、
申し訳ないですが勝手に削除することもあります。