ハッカーと画家から学ぶベイジアンフィルタ

用語

なんとなくわかったこと

  • ベイジアンフィルタ統計学を用いているらしい
  • 形態素解析を使うと高度な戦略を取れるらしい(P128参照)
  • 数字のトークンとHTMLのコメントは無視するなどのルールを作ると良い
  • 大文字小文字は無視(でも統計を取るときはどちらで保存するのだろう?)
  • スパムコーパスと非スパムコーパスを作る必要があるらしい
  • ハッカーと画家に書いてあるものはGraham方式、さらに優れたものにRobinson方式というものがある

以上のことをいろいろ調べてみて

すでにRubyで実装している方を発見。ただベイジアンフィルタ自体は作成していないのであくまでベイジアンフィルタの動きの参考。
d:id:zariganitosh:20070713:1184302281