Contents

PR

クローラー

検索エンジンにおけるこのパーツはシンプルなロボットであり、サイトの各ページをダウンロードし、リンクを拾っていきます。そして、各リンクを開いてダウンロードし、巡回していきます。
クローラーは定期的にサイトを訪れ、内容の変更を発見すると、それに応じてランキングも修正します。サイトの質やコンテンツ更新の頻度によって変わり、1カ月に1回から人気のあるニュースサイト等では1日に数回も行われます。
クローラー自体はサイトをランク付けしません。クロールしたサイトを、インデクサーと呼ばれる検索エンジンモジュールへ引き渡すだけです。

インデクサー

このモジュールは、スパイダーによってクロールされたすべてのページを、インデックスと呼ばれる大きなデータベースに格納します。本の中にある索引と考えてください。
あるワードを見つけたら、それがどのページに記述されているかを確認します。インデックスは静的ではありません、クローラーが新しいページを発見する度、または既存ページを再クロールする度に更新します。
インデックスは大量ですので、すべての変更がデータベースに格納されるまでにはしばしば時間が掛かかります。従って、「サイトはクロールされたが、インデックスがまだだ」という状況もあり得ます。
すべてのコンテンツと共にサイトがインデックスに追加されると、次は検索エンジンのサードパーティが動き始めます。

ランカー

このパートは、ユーザから検索クエリを取得します。そして、何万にも及ぶインデックス済ページをふるいにかけ、該当の検索クエリに関連する全てのページを検出します。
結果は、関連度によって省略された後、ようやくユーザに表示されます。