> ただ日本語の処理を深く組み込むと英語圏での性能
>(速度・分類・可読性)に影響を与えること必至なので、
> なかなか簡単に提案できないところがあります。
> 大多数のユーザには必要のないものでしょうし。
> 全体的に絶対的な性能が向上することが示せれば
> いいんですけど。
私が言ってるのはトークンごとじゃなくて、
ドキュメント(メール)ごと、ってことですよ。
パフォーマンスの心配はほとんど要らないと思います。
日本語とasciiが混じってるようなジャンクメールは
「日本語のジャンクメール」ですから、
これらを違うデータソースに格納するのは不利でしょうし。