> ちゃんとMIMEデコードしてから解析できるのなら良いですね。トークンのDBはヘッダと本文の区別がないですが、ヘッダに現れる頻度と本文に現れる頻度っていうのは考慮しなくても あんまり関係ないものなんでしょうか。
subjectの内容はトークン化された後、先頭にsubject:が付いた状態で保存されるので、本文中の同じトークンとは区別されるようです。同じ単語でも、どの文脈で使われるのか、というのは重要だと思います。
ヘッダ関係で他を見てみると、x-mozillaとかx-mozilla-status2とかx-uidlとか、けっこう無駄なトークンがありますね。
x-uidlは増え続けていく一方で何の手懸かりにもならない。
> これ、コンパイラの違いでしたか。
> リリース版に日本語トークンの考慮が反映されれば良いですね。
日本語トークン化パッチは既にMozillaのtrunkにマージされたので、次の公式のbetaかalphaかには組み込まれるはずです。
> ただ、Thunderbirdのスパムフィルタの動作で おかしなことに遭遇しました。暗号化されたメールを復号した瞬間にスパムと認識してしまい、スパムフォルダに放り込まれてしまいます。スパムフィルタの実行順序を「メッセージフィルタ実行後」に変えていることが影響しているような感じです。prefsを削除して様子を見ます。
復号化後にジャンクメールコントロールが実行されるのは多分仕様ではないかと思います。
それとはあんまり関係ないですが、私の場合、たまに間違えてジャンクじゃないのにジャンクにチェックを入れてしまってゴミ箱行きになった後、大量のジャンクの中から探索する羽目になる場合がしばしばありました。
あんまりやりすぎるので、今はジャンクマーキング時に自動移動しないようにしていますけども。
Javascriptから、データベースとか、メール毎の確率とかにアクセスするインタフェイスがほしいと思う今日この頃。