今読んでる本 - 『情報検索アルゴリズム』

2008/08/30

随分前に買ってパラパラ読んでたんですけど,今ちゃんと腰を据えて読んでいます。

おそらく,今世紀初頭におけるネット関連技術で中心となっているのは,検索技術なんだと思います。Google をはじめとした検索システムは,それだけでもってひとつの産業として成立しています。本書はというと,そうした検索技術の基礎的な問題群をまとめた良書。これから検索システムを作ろうと考えている向きや,検索システムの仕組みを(特に「ネット検索(産業)」という文脈で)知りたい向きにはオススメです。

本書は,どちらかというと,既存の技術をネット検索の文脈で捉え直す,といった意味合いが強いので,知っている向きには割とおなじみの技術が出てできます。例えば,文字列照合アルゴリズムの KMP 法(Knuth-Morris-Pratt 法)や BM 法(Boyer-Moore 法),AC 法(Aho-Corasick 法)なんてのは,少し詳しめのアルゴリズム本なら大抵載っているので,おなじみの方も多いはず。そうしたもんも,一章を丸々割いて紹介しています。

また,検索というと,索引語でベクトル空間を作って解析する方法が割と有名なんですけれど,こうしたもんを理解するには,線形代数の知識が不可欠だったりします。この点についても本書では,最低限必要な線形代数の基礎事項を丁寧に紹介しています。知っている向きには冗長な感じがあるかもしれませんけど,初めて検索システムの内部に触れる人にとってみると,副読本なしに読めるのはありがたいんじゃないかと思います。

あたしはというと,パトリシア・トライ法というアルゴリズムを調べていて本書に行き着いたんですけど,理論書としては十分だったものの,実装に落とし込むには,もうちっと他書を参照したいところでした。その意味で言うと,本書はやはり概説本という色彩が強い気がします。まぁ,実装本なんてのは,それこそ産業分野の企業秘密にあたりそうなもんだから,そうそう「他書」なんてもんは出ないんでしょうけどね。

実装に近いところとして,一般書の限界にあるのは『Googleを支える技術』くらいまでだと思います。この本ですら,BigTable(Google 検索システムで使ってるデータベース)の内部構造については,あまり詳しく触れられていません。

まぁ,こっから先は自分で考えろってなんですね。きっと。

山師のマーケター諸氏からしてみたら,検索システムが踏まえておかなくてはいけない最低限の技術水準を知る上で,役に立つんじゃないかと思います。

Site Navigation
SNS Accounts (@aian)

普段はここら辺に住んでいます.