日本語だけで学習しているときは日本語メールの分類性能はかなり高いが、英語メールを大量に学習させると日本語メールの分類性能が落ちる。
Experimental:
102通の日本語ジャンク、298通の日本語非ジャンクを用意し、これらで学習を行ったのち、これらに対してジャンクメールコントロールを実行した。この時点で、false positive(偽陽性)、false negative(偽陰性)はともに0だった。
次に、500通の英語のジャンクと41通の英語の非ジャンクを用意し、非ジャンクを全て学習させた。その後、英語ジャンク100通を学習させるごとにジャンクメールコントロールを実行し、偽陰性と偽陽性の変化を調べた。
英語ジャンクの学習数が100, 200, 300, 400, 500と増加するに従って、日本語ジャンクの偽陰性の数は4, 20, 30, 49, 67と増加した。日本語非ジャンクの偽陽性の数は変化しなかった。
一方、英語ジャンクの偽陰性の割合は、100通学習後以降は1%だった。500通学習後、英語非ジャンクで偽陽性が1通あった。