自動分類

POPFile でメールを自動分類しているところであるが, それをどういう仕組みで実装しているのか. ちょっと調べてみた. といっても, 単純ベイジアンフィルタ (Naive Bayes Classifier) であることは POPFile のドキュメントにも明記されているので, ここでは単純ベイジアンフィルタの仕組みについて改めて説明することにする.

カテゴリ C1, ..., Ck と 単語 W1, ..., Wn について次の確率データベースが存在するものとする.

P(Ci) ({i|1≦i≦k}), P(Wj|Ci) ({i,j|1≦i≦k, 1≦j≦n})

すると, 任意の文章が与えられたとき, それがカテゴリCiに属する確率 P(Ci| {Wj})は, P(CijP(Wj|Ci) となる. これは, 条件付独立性を仮定している場合の式となる.

分類は当然 P(Ci| {Wj}) を最大にするような Ci を選べばよい.

コメントを残す