情報理論やりなおし勉強会

あまり整理できてないけど、本日の情報理論やりなおし勉強会の振り返り。
http://atnd.org/events/37702


■1.1 情報とは何だろう?
情報科学および情報理論広辞苑における定義

シャノンの情報の定義=確率概念の利用

情報の価値は受け手を取り巻く環境によって異なる。

情報の価値は左右される

状況の応じて条件付けて事象の価値を数量化しなければならない

条件付確率を用いる!!

■1.2 学習とは何だろう?
学習の広辞苑における定義

多くのデータを例として与えて、そのデータの中に潜む数学的な構造を
機械に推論させて、それに基づいて機械の動作を最適化していくこと

機械学習の手続き
 モデルの作成(数学的な構造の発見&数学的な記述を与える)
 モデルの利用(抽出した構造に基づいて記録・予測・判別などの処理を行う)
#ここでの記録とは、大量にくる情報の特徴を抽出して採取すること??
 前処理とかフィルタのこと??
いずれも確率モデルが用いられることが多い

入力と出力が微妙に異なる・入力と異なる入力が異なる、という問題あり。

微妙なゆらぎ(曖昧さ)を柔軟に記述する方法の一つが確率モデルである
(そしてこれは統計学情報理論と深く関連する)

■1.3 確率変数としての情報の記述
確率変数=確率空間上の関数
※正確には「根元事象を実数値にマッピングする関数=確率変数」

もとの確率空間で定義された確率分布ではなく、
確率変数の従う確率分布を直接用いることで
確率変数に絡む色々な量(事象の原因となるω)を考える

※一様分布は付録A参照。

■1.4 確率モデルのいろいろ
パラメトリックモデル
 平均と分散を決めて、分布の形を特定する
 #真(True)なモデルがあるという前提??
ノンパラメトリックモデル
 補助変数による縮約は行わずに、もっているデータをできるだけそのまま使うことを前提しているモデル
 今までにない新しい点の性質を過去に得られたデータから探す&重み付けで近似するという考え方
※どちらも一長一短あり。

入力xに対して出力Yを求める判別問題=入力xが与えられたもとで、最大の生起確率を持つY^を求める問題
と考える

データの量が少ない場合はノンパラ
→とりあえず計算(オンライン学習?)とかするのがいいよ、ということ?
 類似度とかに着目でごりごり計算
 パラメトリックなアプローチは平均と分散。しかしこれらはまとまった量がないとだめ。
 #厳密には「漸近理論ではある程度のデータ量がないとダメ」なことに由来する!?

Q.縮約って何?→データの次元を下げる?(パラメタ化で次元さげる)
従来のようにデータを確率空間にマッピングする、というアプローチをとらないのがノンパラである

■2.1 情報源
・記憶のない情報源
 確率の積

・記憶のある情報源
 条件付き確率の積

■2.2 通信路
通信路=雑音を考慮した情報の伝達モデル
(ex.確率pで情報が反転して伝達される)
・記憶のない通信路
 条件付確率が時間によらず一定
・記憶のある通信路
 ある時間帯に固まって雑音がのるような状況(バースト誤り)をモデル化
 (ex.トラフィック増大する時間帯とか??)
 →一種の隠れマルコフモデルであるGilbertモデル

■2.3 符号化
符号化=情報源から得られた文字列を別の文字列に置き換えること
復号化=置き換えられた文字列からもとの文字列に戻すこと

情報源とそれを置き換えた文字列の対応については以下の3つの考えがある
 すべての符号語を用いた一対一対応
 一部の符号語を用いた一対一対応
 多対一対応


沢山出るものは0で表現するというアプローチ→ハフマン符号
PNGは可逆圧縮なのでいい
JPEGは不可逆圧縮(写真を小さくするとかはいいけど、あとで戻すのよくない画質が悪くなる)
※現場ではPNGならそれでもらえばいいけど、
 JPEGだと本番サイズでもらわないとダメだったりする。

■次回について
2.4(情報量)と3章。(時間余れば4章も少しやるかも!?)
4/6(土)AMあるいは4/14(日)AMで
時間は10:00〜13:00 or 10:00〜14:00で検討中。
(どちらの時間になるかは会場の状況から判断)