[sylpheed-jp:10305] Re: Sylpheed 全文検索アプリケーションα版公

Hiroyuki Yamamoto hiro-y @ kcn.ne.jp
2007年 6月 12日 (火) 10:57:28 JST


山本です。

割と反響が多くてうれしいです :)

On Mon, 11 Jun 2007 23:09:20 +0900
Satoru Mizuta <kaku6 @ world.odn.ne.jp> wrote:

> インストール(問題では、ないです、すいません、独り言です)
>      tsearch2.sqlは、(てっきり)postgresと一緒にインストールされるもの
> だと、思い込んでいました。README.jaにも、インストールするように、と、
> きちんと書かれているのに、、、。
>      今回のトライをきっかけにpostgresを8.2.4にupdateしました。
>      MeCab,libSylphは、新規インストールしました。

README はまだ適当なのでちょっと不親切です^^;

> メール取り込み
>      約52,000件を取り込みました。約83分かかりました。
>      2種類のワーニングが出ました。
>          1. failed to get text content in msg NNN
>              これは、GnuPGで暗号化されたメールでしたので当然といえば当
> 然ですね。
>          2. INSERT INTO msginfo failed: ERROR:  value is too big
>              pptファイルが添付されたメールだったのですが、その中味が
> (アルファベットと数字と記号で)本文に表示されているものでした。通
>              常は、本文とは別のタブにファイル名が表示されるものなの
> に、このメールだけは、本文の下の方に大量に表示されてました。
>              これの取込みには、これだけで5分程かかりました。

MIME 構造が壊れていてマルチパートの区切りを認識できない場合は
このようになってしまいます。この場合、base64の文字列をそのまま
取り込もうとしてエラーになってしまいます。なぜかやたら時間が
かかってしまうので、回避する必要がありますね。

>      他にも、duplicate violation...、みたいなのが大量に出ましたが、こ
> れは同じディレクトリを読み込ませたからだと思います。
> 
>      取り込んだあともメールは増えていきますが、増えた分だけimportでき
> るのでしょうか ? 何番まで取り込んだのかを、(ディレクトリ名と一緒に)ど
>      こかに記憶させておく必要がありますね。

差分インポートにはまだ対応していません。
とりあえず今考えているのは Message-Id を unique な ID として識別
しようかと思っています(同じ Message-Id を持つメールは登録できなくする)。

> 検索
>      超速い、です。postgres開発者の方々、ありがとうございます。
>      (山本様にも感謝していますよ。仕事ではSylpheedを常用してます。)
> 
>      アルファベット5文字の検索文字で、約52,000件の中に9件しかないメー
> ルの検索に1秒もかかりませんでした。感じとしては、「いち」、「にー」と
> カウントしようとして「い」を言ったか言わない間に完了しました。
>      (えっ、もう終わり ? 本当にやってんの ? と疑いたくなるくらい速
> い。) Sylpheedの検索では、同じ検索文字で、約7600件の中から34秒でした。
> 
>      ヒット件数が多かった場合は、list viewに取り込むのに時間がかかりま
> したね。 5000件のヒットで数分返ってきませんでした。
>      postgresのカーソルの使用は予定されていないのでしょうか ?

件数が多いと遅いのは、実はGTK+(GtkTreeView)の問題です。特にカラムをク
リックしてソートするようにしていると、かなり遅くなります。
最適化などはまだ行っていないので、もう少しましになる予定です。

> 希望を記します。
>      本文の表示で検索文字をハイライトさせることはできないでしょうか ?

予定しています :)

-- 
Hiroyuki Yamamoto <hiro-y @ kcn.ne.jp>


Sylpheed-jp メーリングリストの案内