Ahrefsの使い方：AhrefsはどのようにWebサイトをクロールしてインデックスを作成するのか

この記事はAhrefs公式サイト内【Academy】内、【Ahrefsの使い方】のページの日本語訳です。
原文：How Does Ahrefs Crawl and Index the Web

各ツールの使用方法を学ぶ前に、Ahrefsがデータをどこから取得しているのかを知っておく必要があります。

Ahrefs では、検索エンジンと同じように、クローラーを使用してWeb をクロールします。

私たちのクローラーはAhrefsBotと呼ばれます。これは、最もアクティブな SEO クローラー ( Google と Bing に次いで8 番目にアクティブなクローラー) であり、24 時間ごとに 80 億以上の Web ページにアクセスし、15 ～ 30 分ごとにインデックスを更新します。

仕組みは次のとおりです。

私たちのクローラーは、既知の URL の大きなリストから始まります。
これらの URL はSchedulerに送信され、URL をいつクロールするかを決定します。
URL を分析する準備ができると、AhrefsBot は URL をクローラーに送信し、そのコンテンツをダウンロードします。その際、robots.txt ファイルに設定された許可/不許可ルールを厳密に尊重します。
クローラーは生データをパーサーに配信し、パーサーはそのページ上のリンク、タイトル、その他の関連メタデータを抽出します。
抽出されたデータはインデクサーに送信されます。
その後、リンクインデックスに追加され、Ahrefs のさまざまなレポートで利用できるようになります。