(61) (無題)
by きよ
at 2005/01/26 02:29:24
レス投稿
ヘッダについては残しておいた方が良かったのが有るのかも知れません。 なぜかと言うと、本文のないメールもジャンク扱いさせていたんですが、junnno'版ではジャンクと決めつけることが出来なくなったから。(手動で設定しても次回は必ず非ジャンクとなる)これはトークン数が一定数を超えてからの現象かも知れませんが。 # 本文のないメールはジャンク判定以前の問題として削除しても構わないんですが(本文がないこと自体Thunderbirdのバグなのかも)
受信時と手動時の動作については やはり、どこか違うような感じがあります。手動ではジャンクと認識出来るメールも受信させると非ジャンクになる場合があります。 mailnews.ui.junk.firstuse の設定のせいかも。どういう訳かjunnno'版では"false"がデフォルトになっています。この状態ではメッセージフィルタが先に走行します。 ここのところの確認は「メーラーdeネットニュース」というソフトを使えば出来ると思いますし、時間が出来たら試します。
ほかにも有りますが、(時間の関係で現象の説明が出来ないので)今はここまで。 ジャンクメールは後で試すために削除せずに別フォルダに保管するようにしました。
とりあえず、作り直した直後ですが以下の状態です。
Number of good messages: 1 Number of bad messages: 518 Number of good tokens: 77 Number of bad tokens: 11299 Number of good messages: 4102 Number of bad messages: 213 Number of good tokens: 87842 Number of bad tokens: 1962 Creating master table... Updating view... done. これは上半分が英語、下半分が日本語ですよね?
# 結果の training.2.dat を提出しても良いかなと考えたんですが、中身を見ると私自身のプライベートや仕事関連の情報が多すぎて困ります。(例えばせっかく暗号化された情報やパスワードまで記録されている)
この先、重ならない4文字熟語を大量に入れて試すとか、、、時間を作ってやってみようかな
http://kiyo.chips.jp/blog/
(62) Re: (無題)
by junnno'
at 2005/01/26 04:02:04
レス投稿
> ヘッダについては残しておいた方が良かったのが有るのかも知れません。 > なぜかと言うと、本文のないメールもジャンク扱いさせていたんですが、junnno'版ではジャンクと決めつけることが出来なくなったから。(手動で設定しても次回は必ず非ジャンクとなる)これはトークン数が一定数を超えてからの現象かも知れませんが。
従来は、メールに固有のIDを登録していたために、一度学習したメールの成功率が引き上げられていたのだと思います。 再帰テストの成績は下がるかもしれませんが、予測フィルタの動作としては正しいのではないかと思います。
> # 本文のないメールはジャンク判定以前の問題として削除しても構わないんですが(本文がないこと自体Thunderbirdのバグなのかも)
関係ないことを思い出しました。 本文が空で添付ファイルがWORD形式で一つ、 というとんでもないメールを送る偉い人がいました。 (さらにTo:には100人分ぐらいのメールアドレスが)
> mailnews.ui.junk.firstuse の設定のせいかも。どういう訳かjunnno'版では"false"がデフォルトになっています。この状態ではメッセージフィルタが先に走行します。 > ここのところの確認は「メーラーdeネットニュース」というソフトを使えば出来ると思いますし、時間が出来たら試します。
そんな設定があったのですね。 よろしくお願いします。
> Number of good messages: 1 > Number of bad messages: 518 > Number of good tokens: 77 > Number of bad tokens: 11299 > Number of good messages: 4102 > Number of bad messages: 213 > Number of good tokens: 87842 > Number of bad tokens: 1962 > Creating master table... > Updating view... > done. > これは上半分が英語、下半分が日本語ですよね?
そうです。 学習数が多いですが、動作が遅くなりませんか?
> # 結果の training.2.dat を提出しても良いかなと考えたんですが、中身を見ると私自身のプライベートや仕事関連の情報が多すぎて困ります。(例えばせっかく暗号化された情報やパスワードまで記録されている)
一方向関数でハッシュ化すればデータの共有ができるかも。 役に立つかどうかはともかく…。
(65) Re: (無題)
by きよ
at 2005/01/26 16:52:54
レス投稿
> 従来は、メールに固有のIDを登録していたために、一度学習したメールの成功率が引き上げられていたのだと思います。 > 再帰テストの成績は下がるかもしれませんが、予測フィルタの動作としては正しいのではないかと思います。 そうですね。ただThunderbirdにはアドレス設定によるジャンク特定の機能がないのでジャンクと決めつけることが出来ないのが残念です。
> そんな設定があったのですね。 > よろしくお願いします。 メーラーdeネットニュース は継続して使う気がなかったので期限切れになっていました (^^;)
mailnews.ui.junk.firstuse は上に書いたようなメッセージフィルターにてアドレスでのジャンク特定に使えます。最初はこの機能を使っていました。
> 学習数が多いですが、動作が遅くなりませんか? 遅いですよ。Eudoraはもっと時間がかかります。
> > # 結果の training.2.dat を提出しても良いかなと考えたんですが、中身を見ると私自身のプライベートや仕事関連の情報が多すぎて困ります。(例えばせっかく暗号化された情報やパスワードまで記録されている) > > 一方向関数でハッシュ化すればデータの共有ができるかも。 > 役に立つかどうかはともかく…。 人間は読めないってことですね。 ジャンクフィルタデータベースとして流通させるならばサニタイズするツールが有れば良いのかも。
http://kiyo.chips.jp/blog/
|