2016/01/26

[ai]『深層学習』を読む (9)

講談社『深層学習』を章ごとに読んでいくシリーズ。
8章「ボルツマンマシン」で最後だから、この回で終わらせたかったのだが・・・とても読み終わる感じがしない。
けど、放置していてもどうしようもないから、読んだ分だけ書いていく。

などとしているうちに、Microsoftから新しいフレームワークが。。。
https://github.com/Microsoft/CNTK


8.1 データの生成モデル

まず最初に、ボルツマシンどうこうの前に、データの生成ということについて書いてある。
ここでは数字の画像が例になっている。

「データx」は「x1, x2, … , xN」となっているが、このxNは画素値かと思っていたけど、画像データそのものを表すようだ。
別に「x1が”1”の画像」とかいうわけじゃなくて、単に便宜上順番を振っただけ。

これを、ベクトルで表す。
2次元だったら(x, y)で直交した平面上にベクトルを描けるし、3次元だったら(x, y, z)の直方体みたいな空間にベクトルを描けるが、ここは画素値全部を使ったベクトル。
例えば画像サイズが10x10だったら、100次元のベクトルだ。
図にはできないが、3次元のがすごく拡張されたくらいのイメージを持っておけばよいのかな。
画素値があるから、有限のベクトルというか、点として表現できる。

数字の画像のように、画像自体に特徴があると言うことは、この点が偏っているんじゃなかろうかと考える、というのが根底にあるようだ。
人間が見てわかるのも、この偏りを無意識のうちに判断しているからだ、とかか?
「”1”は縦一本」「”8”は輪っかが2つ」みたいな判断ができるのは、そういうことなのかも。

それをもう1歩進めて、「点の偏りは、ある確率分布に従っているんだ」と考える。
確率分布って言うとなんか難しいが、式で表せる、くらいでよいのかな。
「2+3=5」のようなきっちりとした結果にはならないけど、「2っぽいもの+3っぽいもの=5っぽいもの」のような、ぼやっとした式か。

この確率分布式をpg(x)で表す。gは”generate”のgらしい。
このpg(x)が、いってしまえば「正解の式」だ。
そして、今はこれがわからない状態なので、画像データをたくさん使って式を求めようとしている。
その式はp(x|θ)で表す。
θはパラメータで、これをいろいろ変えていって、pg(x)を求めようとするのだ。

ただ、正解の式がわからないのにどうやって求めるのか?というところ。
わかるのは、自分で決めるθ、このθに画像xMを代入したときの結果p(xM|θ)、画像xMは”数字y”という答だけだ。
なので、こう考える。
画像{x1, x2, …, xN}を入力して得られた結果{p(x1|θ), p(x2|θ), …, p(xN|θ)}が正解{数字y1, 数字y2, …, 数字yN}に最も近いものを求める、と。

なんか、わかったようなわからんような。
2章に書いてあった事後確率とか多クラス分類とかの復習なのか?
これが1ページにも満たないくらいの内容なのだ。
先が長ーい。


8.2.1 確率的構造

8.2章はボルツマンマシンについて。

前の章は、xは数字の画像のデータ集で、x1, x2, …, などはそれぞれが画像データということだった。
文字にするとわかりづらいが、このxはベクトルというか集合というかのxなのだろう。

8.2.1章に出てくるxiは、状態になっている。
xiは、0か1かをとるユニット。ユニットというのは、ニューラルネットのネットワーク図でいう丸いやつ。
1か0しか状態がないから「2値ユニット」と呼ぶ。
そして2値ユニット間が結合しているのを、ボルツマンマシンと呼ぶ。
全部結合している必要があるかどうかまでは、書かれていない(例に書いてあるのは全部結合してた)。

これを使って、事後確率p(x|θ)を定義する。
この定義式が、急に出てくる。
いや、他の式も私にとっては急に出てくるのだけど、ここも唐突だ。
eのなんとか乗という式だ。
y = exp(-x)のグラフは、こういう感じ。


関数f(x)の描画 - 高精度計算サイト

なので、傾きが違ったりはするけど、こういう分布になるものだ、と決めるのだろう。
まあ、何も式がないと基準がないから、経験則だか理論的だかわからないけど、こういう式に当てはめたんだろう。
この分布を「ボルツマン分布」とか「ギブス分布」とか呼ぶとのこと。

 

ここまでで、まだ4ページですよ。。。
読み飛ばしたいのだけど、どう読み飛ばしてよいかもわからないくらい、さっぱりわからん。
急に用語が出てきたりもするので、なんか生き急いでる感じすらしてしまう。
(『生起確率』ってなんだよ!と思ったが、単に「そういうことになると予想される確率」みたいなものみたい(「通信用語の基礎知識」より)。)

1か0しか取らないってことで、2進数だよなぁ、という感じだけはする。
するけど、そういう方向に話が進むのかどうかはわからん。

0 件のコメント:

コメントを投稿

コメントありがとうございます。
スパムかもしれない、と私が思ったら、
申し訳ないですが勝手に削除することもあります。

注: コメントを投稿できるのは、このブログのメンバーだけです。