ヘッダについては残しておいた方が良かったのが有るのかも知れません。
なぜかと言うと、本文のないメールもジャンク扱いさせていたんですが、junnno'版ではジャンクと決めつけることが出来なくなったから。(手動で設定しても次回は必ず非ジャンクとなる)これはトークン数が一定数を超えてからの現象かも知れませんが。
# 本文のないメールはジャンク判定以前の問題として削除しても構わないんですが(本文がないこと自体Thunderbirdのバグなのかも)
受信時と手動時の動作については
やはり、どこか違うような感じがあります。手動ではジャンクと認識出来るメールも受信させると非ジャンクになる場合があります。
mailnews.ui.junk.firstuse の設定のせいかも。どういう訳かjunnno'版では"false"がデフォルトになっています。この状態ではメッセージフィルタが先に走行します。
ここのところの確認は「メーラーdeネットニュース」というソフトを使えば出来ると思いますし、時間が出来たら試します。
ほかにも有りますが、(時間の関係で現象の説明が出来ないので)今はここまで。
ジャンクメールは後で試すために削除せずに別フォルダに保管するようにしました。
とりあえず、作り直した直後ですが以下の状態です。
Number of good messages: 1
Number of bad messages: 518
Number of good tokens: 77
Number of bad tokens: 11299
Number of good messages: 4102
Number of bad messages: 213
Number of good tokens: 87842
Number of bad tokens: 1962
Creating master table...
Updating view...
done.
これは上半分が英語、下半分が日本語ですよね?
# 結果の training.2.dat を提出しても良いかなと考えたんですが、中身を見ると私自身のプライベートや仕事関連の情報が多すぎて困ります。(例えばせっかく暗号化された情報やパスワードまで記録されている)
この先、重ならない4文字熟語を大量に入れて試すとか、、、時間を作ってやってみようかな