Hacking mozilla
戻る

新規投稿 日付順表示 ツリー順表示 [スレッド順表示]


(42) 言語別カウンタ by とおりすがり at 2005/01/22 06:25:57 レス投稿

言語別にカウンタを分けるんじゃなくて、
別のトークンと思えばいいんじゃないんでしょうか?
日本語メールなら、ja_JP:というプレフィックスをつけるとか。

(43) Re: 言語別カウンタ by junnno' at 2005/01/22 06:48:22 レス投稿

> 言語別にカウンタを分けるんじゃなくて、
> 別のトークンと思えばいいんじゃないんでしょうか?
> 日本語メールなら、ja_JP:というプレフィックスをつけるとか。

現在のパッチでは、別のトークンとして認識させています。
具体的には、JA:というプレフィックスを付けています。

問題は、確率計算にこれまでに学習したメールの数を使うところにあります。
通常、トークンの数は学習メールの数に比例すると考えられます。
ですが、英語メールの学習は、日本語のトークンを増やさずに学習メール数だけを増やすことになります。
結果として、日本語トークンのジャンク確率の希釈が起こり、陰性になってしまいます。

で、結局次の式の分母を大きくしてしまうようです。

 (spamcount×ngood)
---------------------------------------
 (hamcount×nbad + spamcount×ngood)

ここで、
spamcountがジャンクとして学習したメールの数、
hamcountが非ジャンクとして学習したメールの数、
nbadがジャンク中に出現した回数、
ngoodが非ジャンク中に出現した回数。


あ。

ということは、別に辞書は分けなくても、言語毎にメールの数だけ数えていればいいのか……。

(45) Re: 言語別カウンタ by junnno' at 2005/01/22 06:55:27 レス投稿

間違えた。
正しくは、

 (spamcount×ngood)
---------------------------------------
 (hamcount×nbad + spamcount×ngood)

spamcountがジャンク中に出現した回数、
hamcountが非ジャンク中に出現した回数、
nbadがジャンクとして学習したメールの数、
ngoodが非ジャンクとして学習したメールの数。




次の1件を表示
削除ID パスワード
BBS mozilla, which is administered by junnno