まずは、条件付き確率のことから。
hiro99ma blog: [ai]『深層学習』を読む (3)
で、ああだこうだと悩んでいたが、こちらの説明がわかりやすかった。
第2回 確率の初歩:機械学習 はじめよう|gihyo.jp … 技術評論社
数式だけで考えているとわからなかったが、実例を挙げてあるので助かる。
P(A | C) = P(A ∩ C) / P(C)
これは、AでありCであるという確率をCの確率で割ったものだ。
意味は「確率の範囲を、全体(前回のΩ)からCの範囲に狭めたもの」という、世界を小さくした確率ということなのだ。
まあ、P(C)で割ってるし、P(A ∩ C)はP(C)の一部だから、そうなるな。
領域CにおけるA ∩ Cの割合、という見方でもよいかも。
「条件付き」というのは、「対象を絞ります」ということなのだろう。
絞ったので、確率を合計したら1.0になるという範囲も狭くなり、P(C)だけで1.0になる、というだけのことだ。
そして、条件付き確率と事後確率の関係について。
2ページ目に、ベイズの定理が書いてある(サイトでは「ベイスの公式」)。
教科書ではΣで合計する形の式が書いてあったが、意味としてとらえるならその展開前の式で書かれてあるこの説明の法がわかりやすい。
P(A | C) = P(A ∩ C) / P(C)
両辺にP(C)をかけて
P(A | C) P(C) = P(A ∩ C)
また、AとCが逆になった場合も同じ。
P(C | A) = P(C ∩ A) / P(A)
P(C | A) P(A) = P(C ∩ A)
交換法則により、
P(C ∩ A) = P(A ∩ C)
よって、
P(A | C) P(C) = P(C | A) P(A)
両辺をP(C)で割って(P(C)は0ではない前提)、
P(A | C) = P(C | A) P(A) / P(C)
P(A)で割ったら、その逆が求まる。
サイトでは、P(A ∩ C)をP(A, C)と書いてある。
これは「深層学習」でもそうみたいだ。
私も、∩を書くのが面倒なので合わせよう。
P(A | C)を、条件付き確率と見るか、事後確率と見るかは、考え方や使われ方だけのようだ。
それはわかるのだが、その考え方がピンと来ていない。
私は事前確率を「ふつーの確率」と思っていたのだが、これを読むとそうではないようだ。
いや、条件付き確率を「事後確率」と見るように、ここも普通の確率を「事前確率」という捉え方をするのだろう。
だから、数式上はP(A)となっていても、条件が付きではない確率ではなくて、事後確率と対になる事前確率、と見るのだ。たぶん。
http://www.kumikomi.net/interface/sample/201004/if04_154.pdf
ネットでは1ページ分しかないが、私は雑誌を持っているので読んだ。
詳しくはどこかで入手して読んでほしいが、次のページではP(A|XX)を求めて、1回やったときの結果から求める確率P(A|X)と、2回やったときの結果から求める確率P(A|XX)では確率が変わってくる、というお話。
これで思ったのは、確率は「次どうなる」(次にコインを取り出したら、それが正か偽か)みたいな見方じゃなくて、ここでは「確率がこうなるから、元の壺はAである可能性が高い」のような使い方をしているんだ、ということだ。
なので、こういう特徴(ここだと、正のコインを取り出す回数が多い)から、その元(ここだと、壺がAである)を導き出す、という感じだろうか。
そういう考え方をすると、機械学習で事後確率の話が出てくるのもわかる気がする。
画像認識だと、「特徴」が画像データで、「元」がネコの画像、とかになるのか。
まだ理解が浅いので、先走るのはやめよう。
さて、「深層学習」は5章に入った。
「自己符号化器」。もちろん、初めて聞く。
おおざっぱにいえば、卵からゆで卵を作って、そこからまた卵に戻そうと学習する話だ。
まあ、卵は無理だろうから、ネコの画像を計算して特徴値を出し、その特徴値からネコの画像を復元させる感じか。
どうもこれによってニューラルネットの学習が現実的になってきたらしいのだが、これがどう役に立つのか。。。
読み進めてのお楽しみだ。
ちなみに、章は全部で8つあり、4章までで54ページになっている。
8章の最後が156ページだから、約3分の2が5章以降に割り当てられていることになるので、こっからが本番ということか。
0 件のコメント:
コメントを投稿
コメントありがとうございます。
スパムかもしれない、と私が思ったら、
申し訳ないですが勝手に削除することもあります。
注: コメントを投稿できるのは、このブログのメンバーだけです。