> ヘッダについては残しておいた方が良かったのが有るのかも知れません。
> なぜかと言うと、本文のないメールもジャンク扱いさせていたんですが、junnno'版ではジャンクと決めつけることが出来なくなったから。(手動で設定しても次回は必ず非ジャンクとなる)これはトークン数が一定数を超えてからの現象かも知れませんが。
従来は、メールに固有のIDを登録していたために、一度学習したメールの成功率が引き上げられていたのだと思います。
再帰テストの成績は下がるかもしれませんが、予測フィルタの動作としては正しいのではないかと思います。
> # 本文のないメールはジャンク判定以前の問題として削除しても構わないんですが(本文がないこと自体Thunderbirdのバグなのかも)
関係ないことを思い出しました。
本文が空で添付ファイルがWORD形式で一つ、
というとんでもないメールを送る偉い人がいました。
(さらにTo:には100人分ぐらいのメールアドレスが)
> mailnews.ui.junk.firstuse の設定のせいかも。どういう訳かjunnno'版では"false"がデフォルトになっています。この状態ではメッセージフィルタが先に走行します。
> ここのところの確認は「メーラーdeネットニュース」というソフトを使えば出来ると思いますし、時間が出来たら試します。
そんな設定があったのですね。
よろしくお願いします。
> Number of good messages: 1
> Number of bad messages: 518
> Number of good tokens: 77
> Number of bad tokens: 11299
> Number of good messages: 4102
> Number of bad messages: 213
> Number of good tokens: 87842
> Number of bad tokens: 1962
> Creating master table...
> Updating view...
> done.
> これは上半分が英語、下半分が日本語ですよね?
そうです。
学習数が多いですが、動作が遅くなりませんか?
> # 結果の training.2.dat を提出しても良いかなと考えたんですが、中身を見ると私自身のプライベートや仕事関連の情報が多すぎて困ります。(例えばせっかく暗号化された情報やパスワードまで記録されている)
一方向関数でハッシュ化すればデータの共有ができるかも。
役に立つかどうかはともかく…。