Hacking mozilla

> > そんなもんなんですか？　日本語のメールに英単語が混ざっているようなメールならそういうことも有るかも知れませんが、（Eudoraのベイジアン・フィルタと同じなら）「１本のメールに現れる頻度」のはずだから、希釈されているという感じではなさそうですが。
>
> そうなのかも……。
> 実は確率計算の詳しいところはよく理解していないのです。
私も数学は嫌いです。
なんか、いろんなところを見てみると難しそうな計算式で表現してありますが、スパムでの出現回数と非スパムでの出現回数をトークン毎に登録しておき、その差をポイント制にして発見されたトークンのポイントを合計して、ユーザーが指定した閾値で決めているっていう感じなんでしょうね　(^^;)
（Thunderbirdでは閾値は90に設定されていますね）

> もしかすると、ヘッダの分析で躓いている？
でも英語のトークンを見てもヘッダからの情報はまともな物じゃないですしね。
私はSubject:ヘッダの分析は期待していません。偽装レベルの高いスパムのヘッダは「Re:」だけとかブランクや「口が堅い人ですよね？秘密厳守でお願いしたいのですが…。」とか(^^;)、規則性を取っても面倒なものばかりです。
ここも、Eudoraのベイジアン・フィルタではヘッダにはヘッダ専用の正規表現のフィルタ定義が用意されています。（私は追加設定していませんが）

> Thunderbirdは判別したメールで再帰的に学習することはないようです。
> これやりすぎると、途中でご主人様の趣味が変わったときにフォローできなくなる様な気がします。
> リセットすれば良いのでしょうけどね。
そうですね、そのためにThunderbirdにはリセットを用意してあるんだと思います。
Eudoraのベイジアン・フィルタにはリセットが有りません。たぶん趣味が変わると出現頻度の数値が逆転するのでしょう。
データベースは膨れ上がるままで、30MBを超えることも有ります。スパムから非スパムへの突然の変更は自動的な非スパムのアドレス登録で対処します。（Thunderbirdは自動ではアドレス登録しませんね）

> Thunderbirdであんなに学習に時間がかかるのはなんででしょうねー。
> ハッシュテーブルからの検索はほぼ一瞬みたいですけど。
結果を書き込むところでは直接ファイルに書いているから遅いんでしょうね。読み込みは単語のグループ毎にメモリーにインデックスを展開しているとか工夫されていると思うのですが．．．
Eudoraはテキストファイルなのでもっと時間がかかります。（検索も遅い）

現状のままでもEudoraよりも Thunderbirdのベイジアン・フィルタが優れているのは、日本語がutf-8なので「トークンとして認識した文字列はそのままデータベースに保存され利用される」という点でしょう。
Eudoraのベイジアン・フィルタは日本語のトークンは一切登録＆利用されません。（無理やり登録しましたが効果無しでした）

ちょっと長くなりますが、
以下は training.dat の中身をスパムに典型的な「エッチ」という言葉と、仕事やメーリングリストで流れてくる「データ」という言葉で検索して出てきた全てです。

”エッチ”で検索した場合
エッチビデオ
エッチング　<---------これだけはスパムではないですね
エッチフレンド
エッチトーク
エッチメール
エッチテープ
チャットエッチ
エッチ・・・
カーエッチ
エッチー
[tab]エッチ　<--------- [tab]も日本語？
エッチポーズ

”データ”で検索した場合（スパムからの登録は全くなし）
フォームデータ
データバックアップ
バイナリーデータ
ログデータ
データセンタ
データベース・テーブル
データ・ウエアハウス
データベー
オンライン・リアルタイム・データベース
データベースアクセス
データベースアーキテクト
・コンピュータデータソース
データベースマネージメントシステム
・データアクセス
データファイル
レコードデータ
オープンソースデータベースサーバー
データベースデータベース
データベース・クラスター
リテラルデータ
ネットワークアドレスデータ
メッセージデータ

たったこれだけの長さのカタカナ文字列に頻度パラメータが設定されているだけでもかなりのフィルタ効果は出ていると思うのです。この上漢字仮名混じりの熟語や例文をトークンにした場合のベイジアン・フィルタっていうのは最強だと思います。

おそらく、熟語や例文だけを予め登録しておいてトークンとして扱える「切れ目」だけの考慮のロジックを入れておくだけで日本語のベイジアン・フィルタとしては他にないほどの品質を出せるのではないでしょうか。
＃たとえトークンを新たに追加する機能がなくても、です

先の投稿に書くのを忘れたんですが、junnnoさんのexeセットを試させていただきました。しかし、最初の起動時にエラーダイアログが出たり私にとって重要なextension（Enigmailなど）がなぜか使えなくなったので、少しの間試しただけで利用を断念してしまったのです。

長くなってすみませんでした。