Hacking mozilla

新規投稿 日付順表示 ツリー順表示 スレッド順表示


(5) 学習特性 by junnno' at 2005/01/16 01:50:32

日本語だけで学習しているときは日本語メールの分類性能はかなり高いが、英語メールを大量に学習させると日本語メールの分類性能が落ちる。

Experimental:
102通の日本語ジャンク、298通の日本語非ジャンクを用意し、これらで学習を行ったのち、これらに対してジャンクメールコントロールを実行した。この時点で、false positive(偽陽性)、false negative(偽陰性)はともに0だった。

次に、500通の英語のジャンクと41通の英語の非ジャンクを用意し、非ジャンクを全て学習させた。その後、英語ジャンク100通を学習させるごとにジャンクメールコントロールを実行し、偽陰性と偽陽性の変化を調べた。

英語ジャンクの学習数が100, 200, 300, 400, 500と増加するに従って、日本語ジャンクの偽陰性の数は4, 20, 30, 49, 67と増加した。日本語非ジャンクの偽陽性の数は変化しなかった。

一方、英語ジャンクの偽陰性の割合は、100通学習後以降は1%だった。500通学習後、英語非ジャンクで偽陽性が1通あった。


この記事にレスを書く:
投稿者
タイトル
メール
リンク
削除キー
メッセージ
投稿後表示 日付順 ツリー順 スレッド順

BBS mozilla, which is administered by junnno