> subjectの内容はトークン化された後、先頭にsubject:が付いた状態で保存されるので、本文中の同じトークンとは区別されるようです。同じ単語でも、どの文脈で使われるのか、というのは重要だと思います。
そうでした。一番最初に見たときはプリフィックスが付加されていたと思います。
> ヘッダ関係で他を見てみると、x-mozillaとかx-mozilla-status2とかx-uidlとか、けっこう無駄なトークンがありますね。
> x-uidlは増え続けていく一方で何の手懸かりにもならない。
有りますね。Mnenhy0.7.1のJunk Filter Statisticsで見たとき、これらが多すぎるような表示になっていました。
> 日本語トークン化パッチは既にMozillaのtrunkにマージされたので、次の公式のbetaかalphaかには組み込まれるはずです。
tb.1.0.private.build.zip や tb.1.0.private.build.vc6.zip を試させてもらいました。
他にもnightlyのサイトから いろいろ持ってきて試していたのですが、データベースは予想通りの成長にはなりませんね。
期待しすぎて大きなデータベースを作っても効果が上がらないことが判りました。教育しすぎるとメールの中の私の名前やハンドルを覚えてしまってスパムと認識させたいメールをスパムと認識できなくなってしまいました。
> 復号化後にジャンクメールコントロールが実行されるのは多分仕様ではないかと思います。
これ確認しました。思った以上にEnigmailなどextensionとThunderbird本体と密なデータ連携の仕組みが有るんですね。
> それとはあんまり関係ないですが、私の場合、たまに間違えてジャンクじゃないのにジャンクにチェックを入れてしまってゴミ箱行きになった後、大量のジャンクの中から探索する羽目になる場合がしばしばありました。
> あんまりやりすぎるので、今はジャンクマーキング時に自動移動しないようにしていますけども。
ちょっと前までスパムをデータベースの教育用に保存してあったのですが今はやめました。一度に大量に読み込ませても効果が上がらないようです。受信した直後に確認して、間違っていたら「J」「shift+j」で教育していった方が早く育ちます。
また、Mnenhy0.7.1により「!」マークが表示されているメールに関して「J」「shift+j」で教育してやると どういうわけか振り分けを上手にやってくれるように育つようです。