Hacking mozilla

新規投稿 日付順表示 ツリー順表示 スレッド順表示


(10) Re: 学習特性 by junnno' at 2005/01/17 01:20:05

> 私が言ってるのはトークンごとじゃなくて、
> ドキュメント(メール)ごと、ってことですよ。
> パフォーマンスの心配はほとんど要らないと思います。
>
> 日本語とasciiが混じってるようなジャンクメールは
> 「日本語のジャンクメール」ですから、
> これらを違うデータソースに格納するのは不利でしょうし。

確かに、実験から見てみると、言語毎にメールの処理を変えれば性能が改善するのは明らかですね。しかも簡単に。確実に。

ただそんな簡単に言語依存の処理を放り込んでもいいものかな、と思うわけですよ。日本語についての処理を作るなら、中国語、韓国語、タイ語、ロシア語、ギリシャ語、ヒンズー語、ヒエログリフ、ルーン文字、くさび形文字A、etc.とかも作らなければいけないでしょうし。

まあ、でも作るのは簡単だしやってみようかな。

mozilla.orgにプッシュする際はどうぞよろしくお願いします。


この記事にレスを書く:
投稿者
タイトル
メール
リンク
削除キー
メッセージ
投稿後表示 日付順 ツリー順 スレッド順

BBS mozilla, which is administered by junnno