情報理論やりなおし勉強会

あまり整理できてないけど、本日の情報理論やりなおし勉強会の振り返り。
http://atnd.org/events/37702

■１．１　情報とは何だろう？
情報科学および情報理論の広辞苑における定義
↓
シャノンの情報の定義＝確率概念の利用

情報の価値は受け手を取り巻く環境によって異なる。
↓
情報の価値は左右される
↓
状況の応じて条件付けて事象の価値を数量化しなければならない
↓
条件付確率を用いる!!

■１．２　学習とは何だろう？
学習の広辞苑における定義
↓
多くのデータを例として与えて、そのデータの中に潜む数学的な構造を
機械に推論させて、それに基づいて機械の動作を最適化していくこと

機械学習の手続き
　モデルの作成(数学的な構造の発見＆数学的な記述を与える)
　モデルの利用(抽出した構造に基づいて記録・予測・判別などの処理を行う)
＃ここでの記録とは、大量にくる情報の特徴を抽出して採取すること??
　前処理とかフィルタのこと??
いずれも確率モデルが用いられることが多い

入力と出力が微妙に異なる・入力と異なる入力が異なる、という問題あり。
↓
微妙なゆらぎ(曖昧さ)を柔軟に記述する方法の一つが確率モデルである
(そしてこれは統計学や情報理論と深く関連する)

■１．３　確率変数としての情報の記述
確率変数＝確率空間上の関数
※正確には「根元事象を実数値にマッピングする関数＝確率変数」

もとの確率空間で定義された確率分布ではなく、
確率変数の従う確率分布を直接用いることで
確率変数に絡む色々な量(事象の原因となるω)を考える

※一様分布は付録Ａ参照。

■１．４　確率モデルのいろいろ
パラメトリックモデル
　平均と分散を決めて、分布の形を特定する
　＃真(True)なモデルがあるという前提??
ノンパラメトリックモデル
　補助変数による縮約は行わずに、もっているデータをできるだけそのまま使うことを前提しているモデル
　今までにない新しい点の性質を過去に得られたデータから探す＆重み付けで近似するという考え方
※どちらも一長一短あり。

入力ｘに対して出力Ｙを求める判別問題＝入力ｘが与えられたもとで、最大の生起確率を持つＹ^を求める問題
と考える

データの量が少ない場合はノンパラ
→とりあえず計算(オンライン学習?)とかするのがいいよ、ということ？
　類似度とかに着目でごりごり計算
　パラメトリックなアプローチは平均と分散。しかしこれらはまとまった量がないとだめ。
　＃厳密には「漸近理論ではある程度のデータ量がないとダメ」なことに由来する!?

Ｑ．縮約って何？→データの次元を下げる？(パラメタ化で次元さげる)
従来のようにデータを確率空間にマッピングする、というアプローチをとらないのがノンパラである

■２．１　情報源
・記憶のない情報源
　確率の積

・記憶のある情報源
　条件付き確率の積

■２．２　通信路
通信路＝雑音を考慮した情報の伝達モデル
(ex.確率ｐで情報が反転して伝達される)
・記憶のない通信路
　条件付確率が時間によらず一定
・記憶のある通信路
　ある時間帯に固まって雑音がのるような状況(バースト誤り)をモデル化
　(ex.トラフィック増大する時間帯とか??)
　→一種の隠れマルコフモデルであるGilbertモデル

■２．３　符号化
符号化＝情報源から得られた文字列を別の文字列に置き換えること
復号化＝置き換えられた文字列からもとの文字列に戻すこと

情報源とそれを置き換えた文字列の対応については以下の３つの考えがある
　すべての符号語を用いた一対一対応
　一部の符号語を用いた一対一対応
　多対一対応

沢山出るものは０で表現するというアプローチ→ハフマン符号
ＰＮＧは可逆圧縮なのでいい
ＪＰＥＧは不可逆圧縮(写真を小さくするとかはいいけど、あとで戻すのよくない画質が悪くなる)
※現場ではＰＮＧならそれでもらえばいいけど、
　ＪＰＥＧだと本番サイズでもらわないとダメだったりする。

■次回について
２．４(情報量)と３章。(時間余れば４章も少しやるかも!?)
4/6(土)ＡＭあるいは4/14(日)ＡＭで
時間は１０：００〜１３：００ or １０：００〜１４：００で検討中。
(どちらの時間になるかは会場の状況から判断)