> 私が言ってるのはトークンごとじゃなくて、
> ドキュメント(メール)ごと、ってことですよ。
> パフォーマンスの心配はほとんど要らないと思います。
>
> 日本語とasciiが混じってるようなジャンクメールは
> 「日本語のジャンクメール」ですから、
> これらを違うデータソースに格納するのは不利でしょうし。
確かに、実験から見てみると、言語毎にメールの処理を変えれば性能が改善するのは明らかですね。しかも簡単に。確実に。
ただそんな簡単に言語依存の処理を放り込んでもいいものかな、と思うわけですよ。日本語についての処理を作るなら、中国語、韓国語、タイ語、ロシア語、ギリシャ語、ヒンズー語、ヒエログリフ、ルーン文字、くさび形文字A、etc.とかも作らなければいけないでしょうし。
まあ、でも作るのは簡単だしやってみようかな。
mozilla.orgにプッシュする際はどうぞよろしくお願いします。