さて、caffeもちょっと動かしたので、深層学習を読み進めよう。
今回は6章の「畳み込みニューラルネット」だ。
ここは、他に比べると頭に入りやすかった。
学生の時にやっていた画像処理の内容に近かったためだ。
よく聞く「畳み込み」というのも、画像フィルタを適用するだけのことだった(計算的には「相関」と呼ぶようだ)。
こんなの。
http://ipr20.cs.ehime-u.ac.jp/column/gazo_syori/chapter5.html
「畳み込み層」では、フィルタした結果が元と同じサイズで、「プーリング層」は小さくなるのが主みたいだ。
どうやってプーリング層が小さくなるかというと、数画素ごとに読み飛ばすからで、これはアフィン変換で小さくするような感覚だ。
そういうのを何回か行い、学習パラメータが挟まることで画像のクラスタリングができるというのは、非常に不思議だ。
いや、実際にできているからそこを疑うわけではないのだが、勝手にそうなっていくのが面白い。
さすが機械学習だ。
さて、今のところまで読んだところでは、最後の出力はソフトマックス関数なので、入力をクラスタリングする装置として眺めていることになる。
いままで「どうやって分類させようか」と悩んでいたところが、ある程度まで切り離された感がある。
そこを1つの装置として眺めると、あとは「入力を何にするか」と「出力をどう使うか」になってくるか。
ネットで、研究段階でもいいので実用している例があるか探してみた。
- NVIDIA Seminar ディープラーニングによる画像認識と応用事例
- [画像]自動車で、歩行者を検出して、身長、向き、距離などを推定(p.8)
- [画像]自動運転支援(p.9)
- 最新人気サービスを支えるディープラーニング
- [画像]写真の分類
- [言語]ニュースの自動分類
- [音声]検索時の音声認識
まあ、クラスタリングするんだから、そういうものよねぇ。
内容としても「精度が上がった」みたいなのが多かった。
ディープラーニングはビジネスにどう使えるか? - WirelessWire News(ワイヤレスワイヤーニュース)
この辺を読むと、日本での情報が少ないだけかもなあ、とも思う。
では海外からの情報を読むか、となると、日本語で書かれた本ですら読んでわからないところがあるのに、英語となると・・・と尻込みしてしまう。
かといって、すでにできたものを使うとなるとアイデア勝負になって、あんまり私には向いていない。
なかなか新しい分野というのは難しいもんだ。
0 件のコメント:
コメントを投稿
コメントありがとうございます。
スパムかもしれない、と私が思ったら、
申し訳ないですが勝手に削除することもあります。
注: コメントを投稿できるのは、このブログのメンバーだけです。