この記事はAhrefs公式サイト内【Academy】内、【Ahrefsの使い方】のページの日本語訳です。
原文:How Does Ahrefs Crawl and Index the Web
各ツールの使用方法を学ぶ前に、Ahrefsがデータをどこから取得しているのかを知っておく必要があります。
Ahrefs では、検索エンジンと同じように、クローラーを使用してWeb をクロールします。
私たちのクローラーはAhrefsBotと呼ばれます。これは、最もアクティブな SEO クローラー ( Google と Bing に次いで8 番目にアクティブなクローラー) であり、24 時間ごとに 80 億以上の Web ページにアクセスし、15 ~ 30 分ごとにインデックスを更新します。
仕組みは次のとおりです。
- 私たちのクローラーは、既知の URL の大きなリストから始まります。
- これらの URL はSchedulerに送信され、URL をいつクロールするかを決定します。
- URL を分析する準備ができると、AhrefsBot は URL をクローラーに送信し、そのコンテンツをダウンロードします。その際、robots.txt ファイルに設定された許可/不許可ルールを厳密に尊重します。
- クローラーは生データをパーサーに配信し、パーサーはそのページ上のリンク、タイトル、その他の関連メタデータを抽出します。
- 抽出されたデータはインデクサーに送信されます。
- その後、リンク インデックスに追加され、Ahrefs のさまざまなレポートで利用できるようになります。
これは、クローラーがどのように機能するかを直線的に単純化して説明したものです。新しいページを継続的に発見し、バックリンク インデックスのサイズを増やすために、以下から新しいリンクを表示して URL リストをフィードします。
- 解析されたデータ
- クローラー経由で見つかったリダイレクト
注記
現在、ライブ リンク データと、過去 60 日間に削除されたリンクが表示されます。