> Thunderbirdの組み込みの閾値は.99みたいです?
> 設定で上書きされているのでしょうか。
mail.adaptivefilters.junk_threshold パラメータは user.js にも prefs.js にも指定してはいません。しかし about_config によると 90 が"初期値"として表示されています。99だとあんまりスパムだと認識しにくいんじゃないかと思います。(Eudoraではそうでした)
# でもソースは.99になってるし...GetIntPref関数の前にデフォルト値で初期化する関数を実行するのかな
> Subject欄をMIMEデコードしてからトークン分割する手法は意外と良さそうです。ヘッダのトークン分割は本文のトークン分割とほとんど同じコードなのでまとめられるような気が。
ちゃんとMIMEデコードしてから解析できるのなら良いですね。トークンのDBはヘッダと本文の区別がないですが、ヘッダに現れる頻度と本文に現れる頻度っていうのは考慮しなくても あんまり関係ないものなんでしょうか。
> フィルタとして最も理想的なのは、単にユーザーは何も考えずに「これはいる」「これはいらない」と選択するだけで、完全に判別してくれることだと思います。ユーザーが細かい設定をして判別確率を上げるのであれば、最初からフィルタ定義を細かく作ればよいわけで……。
これですよね、使い始めたら もうやめられません。常用でベイジアン・フィルタの無いメールソフトは もう使わないと思います。
Thunderbird 0.9 が目に付く前に試したのが「the Bat!」というソフトですが、これも「S/MIME」「PGP」「GnuPG」が同時に使えて、おまけにベイジアン・フィルタを実装していたのです。ただし、日本語がSJISってところがダメダメで 他を探していたら Thunderbird 0.9を見つけてしまったんです。
> Enigmailが使えないのはgccでビルドしているからだと思われます。
> 私もやってみましたが、モジュールがロードされないとか言われて動きませんでした。本当はVC++6でビルドしたいのだけれども。.NETは持ってないし。MFCを使っていないのであれば2003 Toolkit + Platform SDKでいけるような気もするけどねー。
これ、コンパイラの違いでしたか。
リリース版に日本語トークンの考慮が反映されれば良いですね。
今日はちょっと小型の training.dat で使っています。約3MBで 日本語トークンは昨日挙げた単語ほど多くは入っていませんが良好に振り分けています。
ただ、Thunderbirdのスパムフィルタの動作で おかしなことに遭遇しました。暗号化されたメールを復号した瞬間にスパムと認識してしまい、スパムフォルダに放り込まれてしまいます。スパムフィルタの実行順序を「メッセージフィルタ実行後」に変えていることが影響しているような感じです。prefsを削除して様子を見ます。