この記事はAhrefs公式ブログの日本語訳です。
原文:Crawl Me Maybe? How Website Crawlers Work
(著者:Louise Linehan / 原文の最終更新日:August 19, 2024)
※フルスピード註:この記事は2024年8月19日時点の記載をもとに翻訳しています。Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。
皆さんはこれまでに、Webサイトのクローリングについて聞いたことがあるかもしれません。それが何なのか、漠然と知っているかもしれません。では、なぜクローリングが重要なのか、またはWebクローリングとは何が違うのかご存知ですか?(もちろん、違いがあります!)
検索エンジンは、検索結果に表示するサイトの品質に関してますます厳しくなっています。
Webクローラー(および最終的にはユーザー)を最適化する基本を理解していない場合、オーガニック トラフィックがその代償を払うことになるかもしれません。
優れた Webサイトクローラーは、サイトの可視性を保護し、さらに向上させる方法を教えてくれます。
この記事では、Webクローラーとサイトクローラーの両方について知っておくべきことを説明します。
Web クローラーとは?
Webクローラーとは、インターネットを自動的に検索し、Webページを分析およびインデックス化するソフトウェアプログラムまたはスクリプトです。
ウェブスパイダーまたはスパイダーボットとも呼ばれるWebクローラーは、ページのコンテンツを評価して、インデックス内での優先順位を決定します。
Google のWebクローラーである Googlebot は、Webを注意深く閲覧し、ページからページへとリンクをたどり、データを収集し、Google の検索エンジンに含めるためにコンテンツを処理します。
WebクローラーはSEOにどのような影響を与える?
Webクローラーはページを分析し、インデックス可能か、またはランク付けが可能かどうかを判断します。これにより、最終的にそのWebサイトへオーガニックトラフィックを誘導する能力が決まります。
検索結果で自分のサイトを見つけてもらいたい場合は、コンテンツをクロールおよびインデックス作成用に準備することが重要です。
ご存知でしたか?
AhrefsBot は、次のような機能を備えた Web クローラーです。
- 24時間ごとに80億以上のWebページにアクセス
- 15~30分ごとに(Ahrefs内の)インデックスを更新
- 最もアクティブな SEO クローラーの 1 位 (世界で 4 番目にアクティブなクローラー)
Web クローラーはどのように動くのか?
Web クロールには、おおよそ7つの段階があります。
1. URLの検出
ページを公開すると (たとえば、サイトマップに)、Web クローラーがそれを検出し、「シード」 URL として使用します。発芽サイクルにおけるシード(種子)のように、スターターとして使うURLによって、クロールとそれに続くクロール ループが開始されます。
2. クローリング
URL の検出後、ページはスケジュール設定され、クロールされます。メタタグ、画像、リンク、構造化データなどのコンテンツは検索エンジンのサーバーにダウンロードされ、解析とインデックス作成を待機します。
3. 解析
解析とは、本質的には分析を意味します。クローラーボットは、クロールしたばかりのデータを抽出して、ページをどのようにインデックス付けしてランク付けするかを決定します。
3a. URL 検出ループ
解析フェーズでは、URL 検出ループも実行されますが、これについては別のサブセクションで説明します。これは、新しく検出されたリンク(リダイレクトによって検出されたリンクを含む)が、クローラーがアクセスする URL のキューに追加されるときです。これらは実質的に新しい「シード」URL であり、ステップ 1 ~ 3 は「URL 検出ループ」の一部として繰り返されます。
4. インデックス作成
新しい URL が発見される一方で、元の URL はインデックス化されます。インデックス化とは、検索エンジンが Web ページから収集したデータを保存することです。これにより、検索エンジンはユーザーのクエリに関連する結果をすばやく取得できるようになります。
5. ランキング
インデックスされたページは、品質、検索クエリとの関連性、および他の特定のランキング要因を満たす能力に基づいて検索エンジンでランク付けされます。これらのページは、ユーザーが検索を実行したときに提供されます。
6. クロール終了
最終的には、割り当てられた時間、クロールされたページ数、たどられたリンクの深さなどの要因に基づいて、クロール全体(URL 再検出ループを含む)が終了します。
7. 再訪
Webクローラーは定期的にページを再訪問し、更新、新しいコンテンツ、構造の変更を確認します。
ご想像のとおり、このプロセスで検出されクロールされる URL の数は、わずか数回のホップで指数関数的に増加します。
まず、検索エンジンにサイトをクロールさせるには?
検索エンジンの Web クローラーは自律的であるため、クロールを開始したり、任意にオン/オフを切り替えたりすることはできません。
ただし、次の方法でWebクローラーを支援することができます。
XML サイトマップ
XMLサイトマップは、検索エンジンがコンテンツを正確に検出してインデックス付けできるように、Web サイト上のすべての重要なページをリストしたファイルです。
GoogleのURL検査ツール
Google Search Console のURL 検査ツールを使用して、Google にサイト コンテンツの再クロールを検討するよう依頼できます。Google が URL を認識しているものの、まだクロールまたはインデックス登録していない場合は、GSC でメッセージが表示されることがあります。
その場合は、「検出済み – 現在インデックス登録されていません」を修正する方法を(※)確認してください。
※フルスピード注:発見された場合の修正方法-「現在インデックスされていません」の翻訳記事はこちら
IndexNow
ボットがコンテンツを再クロールしてインデックス作成するのを待つ代わりに、IndexNowを使用すると、次の場合にBing、Yandex、Naver、Seznam.cz、Yep などの検索エンジンに自動的に ping を送信できます。※フルスピード注:YepとAhrefsのIndexNowサポート開始に関する翻訳記事はこちら。
- 新しいページを追加する
- 既存のコンテンツを更新する
- 古くなったページを削除する
- リダイレクトを実装する
Ahrefsサイト監査を介して IndexNow への自動送信を設定できます。
Google にもっと多くのページをもっと頻繁にクロールさせる方法
検索エンジンのクロール決定は動的であり、少しわかりにくいです。
Google がコンテンツをクロールするタイミングや頻度を決定するために使用する明確な基準はわかりませんが、最も重要な 3 つの領域を推測しました。
これは、Google がサポート ドキュメントや担当者のインタビューで提供したパンくずリストに基づいています。
1. 品質を優先する
Google PageRank は、ページへのリンクの数と品質を、重要性の「投票」として評価します。
質の高いリンクを獲得したページはより重要であるとみなされ、検索結果で上位にランクされます。
PageRank は Google のアルゴリズムの基本的な部分です。したがって、リンクとコンテンツの品質が、サイトがクロールされインデックスされる方法に大きな影響を与えるのは当然のことです。
Google はサイトの品質を判断するために、次のような要素を考慮します。
サイト上で最も多くのリンクを持つページを評価するには、Ahrefs のサイトエクスプローラーから、「Best by Links」レポートを確認してください。
このレポートで、「最初に表示されたページ」、「最終チェック」列に注目してください。そこには、どのページが最も頻繁にクロールされたか、またいつクロールされたかが表示されます。
2. コンテンツの鮮度を保つ
Google のシニア検索アナリスト、John Mueller氏によると…
検索エンジンは URL をさまざまな頻度で再クロールします。1 日に複数回の場合もあれば、数か月に 1 回という場合もあります。
John Mueller、Google検索アドボケート
しかし、コンテンツを定期的に更新すると、クローラーがより頻繁に訪れるようになります。
Google などの検索エンジンは、競争力と関連性を維持するために正確で最新の情報を提供したいと考えています。そのため、コンテンツを更新することは、ニンジンを棒にぶら下げるようなものです。
Google Search Console でクロール統計を確認すると、Google が更新をどのくらい速く処理しているかを調べることができます。
そこにいる間に、「目的別」のクロール内訳(更新されたページと新しく発見されたページの割合)を確認してください。これは、Web クローラーがサイトを再訪問する頻度を把握するのにも役立ちます。
Webサイトの中で、更新が必要な特定のページを見つけるには、Ahrefsのサイトエクスプローラーで「トップページ」レポートに移動し、次の手順を実行しましょう。
- トラフィックフィルターを「拒否(Declined)」に設定します。
- 比較日を過去1~2年に設定します。
- コンテンツの変更ステータスを確認し、「軽微な変更」のみのページを更新します。
「トップページ」レポートには、分析対象のWebサイト上で最も多くオーガニックトラフィックを生み出しているコンテンツが表示されます。これらのページを更新してプッシュすると、クローラーが最適なコンテンツに頻繁にアクセスするようになり、減少しているトラフィックが増加する(ことが期待)されます。
3. サイト構造を改善する
論理的なサイトマップを通じて明確なサイト構造を提供し、関連する内部リンクでそれをバックアップすると、クローラーが次のことを行うのに役立ちます。
- サイトのナビゲーションを改善する
- 階層構造を理解する
- 最も価値のあるコンテンツをインデックスしてランク付けする
これらの要素を組み合わせると、簡単なナビゲーション、直帰率の低下、エンゲージメントの向上がサポートされるため、サイトを訪問するユーザーも満足するでしょう。
以下は、サイトがクロール時にどのように検出され、優先順位が付けられるかに影響を与える可能性のあるその他の要素です。
クロールバジェットとは?
クローラーは人間のユーザーの動作を模倣します。ユーザーが Web ページにアクセスするたびに、サイトのサーバーに ping が送信されます。クロールしにくいページやサイトではエラーが発生し、読み込み時間が遅くなります。また、クローラー ボットが頻繁にページにアクセスすると、サーバーや Web マスターによってリソースの過剰使用としてブロックされます。
このため、各サイトにはクロール バジェット、つまりクローラーがクロールできるURLとクロールしたいURL の数があります。サイトの速度、モバイルフレンドリーであるか、論理的なサイト構造などの要素が、クロールバジェットの有効性に影響します。
クロール バジェットについてさらに詳しく知りたい場合は、Patrick Stox のガイド「クロール バジェットについて心配すべきタイミングは?」をご覧ください。
※フルスピード注:クロールバジェットとは何か&ほとんどのSEO担当者が心配しない理由の翻訳記事はこちら
Webサイトクローラーとは?
Google などの Web クローラーはインターネット全体をクロールするため、どのサイトにアクセスするか、どのくらいの頻度でアクセスするかを制御することはできません。
ただし、独自のプライベートボットのような Webサイトクローラーを別途使用することは可能です。
重要なSEOの問題(SEO Issue)を見つけて修正するために、Webサイトをクロールするよう依頼するか、競合他社のサイトをWebサイトクローラーで調査して最大の弱点を次のチャンスに変えましょう。
Webサイトクローラーは基本的に検索パフォーマンスをシミュレートします。次の情報に基づいて、検索エンジンの Web クローラーがページをどのように解釈するかを理解するのに役立ちます。
- 構造
- コンテンツ
- メタデータ
- ページの読み込み速度
- エラー
- 等
Webサイトクローラーの例:Ahrefsのサイト監査
Ahrefsのサイト監査クローラーは、ランクトラッカー、プロジェクト(ダッシュボード)、および Ahrefs の主な Web サイトクロールツールである サイト監査などのツールを強化します。
Ahrefsのサイト監査は、次のようなことに役立ち、SEO担当者に便利なツールです:
- 170以上の技術的なSEO問題を分析します。
- ライブサイトパフォーマンスデータを使用して、オンデマンドクロールを実行します。
- 1分間に最大17万のURLを評価します。
- 検索エンジンにおけるサイト可視性のトラブルシューティング、維持、改善に役立ちます。
URL の検出から再訪問まで、Webサイトクローラーは Webクローラーと非常によく似た動作をします。ただし、SERP(検索結果ページ)にページをインデックスしてランク付けするのではなく、独自のデータベースに保存して分析します。
サイトはローカルでもリモートでもクロールできます。ScreamingFrog などのデスクトップクローラーを使用すると、サイトクロールをダウンロードしてカスタマイズできます。一方、Ahrefs サイト監査 などのクラウドベースのツールは、コンピューターのリソースを使用せずにクロールを実行するため、修正やサイトの最適化を共同で行うことができます。
SEOでお困りではありませんか?
この記事を翻訳している株式会社フルスピードは、約20年にわたり5,500社以上の企業様へSEOサービスを提供してまいりました。ご相談は無料。お気軽にお問い合わせください。
※以下をクリックすると、株式会社フルスピードのお問合せフォームページが開きます。
>SEOでお悩みの方はこちら。
>被リンク、サイテーション獲得でお悩みの方はこちら。
自分のWebサイトを(Ahrefsで)クロールする方法
Webサイト全体をリアルタイムでスキャンして技術的なSEOの問題を検出する場合は、サイト監査 でクロール設定を行います。
視覚的なデータの内訳、サイトの健全性スコア、詳細な修正推奨事項が提供され、検索エンジンがサイトをどのように解釈するかを理解するのに役立ちます。
1. クロール設定をする
「サイト監査」タブに移動し、既存のプロジェクトを選択するか、新しいプロジェクトを設定します。
プロジェクトとは、時間の経過に伴って追跡するドメイン、サブドメイン、または URL のことです。
クロール設定(クロール スケジュールや URL ソースなど)を構成したら、サイト監査を開始できます。完了するとすぐに通知されます。
すぐに実行できるいくつかの方法をご紹介します。
2. 主なエラーを診断する
サイト監査の「主要な問題(Top issues)」の概要には、影響を受ける URL の数に基づいて、最も緊急のエラー、警告、通知が表示されます。
SEO ロードマップの一環としてこれらに取り組むと、次のことが可能になります。
1.クロールに影響するエラー(赤いアイコン)を見つけましょう。例:
- HTTP ステータス コード/クライアント エラー
- リンク切れ
- 正規化に関する問題
2.警告(黄色)に基づいてコンテンツとランキングを最適化することもできます。例:
- 代替テキストがありません
- リダイレクトへのリンク
- メタディスクリプションが長すぎます
3.通知(青いアイコン)で安定した視認性を維持しましょう。例:
- オーガニックトラフィックの減少
- 複数の H1タグ
- サイトマップにないインデックス可能なページです
SEO問題をフィルターする
フィルターを使用して修正の優先順位を付けることもできます。
たとえば、メタディスクリプションが欠落しているページが何千もあるとします。最初にトラフィックの多いページをターゲットにすることで、タスクの管理が容易になり、効果も高まります。
- Ahrefsのサイト監査「ページエクスプローラー」レポートを確認します
- 高度なフィルタードロップダウンを選択します
- 内部ページフィルターを設定します
- 「AND」演算子を選択します
- 「メタディスクリプション」と「存在しない(Not exists)」を選択します
- 「オーガニックトラフィック > 100(100未満)」を選択します
Webサイトの最も重要な部分をクロールする
サイト監査の 200 以上のフィルターを使用して、サイト上の最も重要なページ(サブフォルダーやサブドメインなど)をセグメント化して絞り込むこともできます。これはブログ、ECストア、さらには特定のトラフィックしきい値を超えるページでも対象となります。
3. 修正を迅速に行う
コーディングの経験がない場合、サイトをクロールして修正を実施することは気が重いかもしれません。
開発者のサポートがあれば問題解決は容易になりますが、他の人の時間を交渉することになります。
こうした悩みを解決するため、Ahrefsのサイト監査に役立つ新しい機能が登場しました。
近日公開予定のパッチは、サイト監査で自律的に実行できる修正です。※フルスピード注:Patch機能の予告記事翻訳版はこちら。
タイトルの変更、メタディスクリプションの欠落、サイト全体のリンク切れなど、このようなエラーが発生した場合は、「Patch it」をクリックして、開発者に煩わされることなく、修正を直接 Web サイトに公開できます。
何か不明な点がある場合は、いつでもパッチをロールバックできます。
4. 最適化の機会を見つける
Webサイトクローラーを使用してサイトを監査することは、バグを修正することと同じくらい、機会を見つけることにもつながります。
内部リンクの改善機会を見つける
サイト監査の「内部リンクの機会」レポートでは、クロールされた各ページの上位 10 個のキーワード (トラフィック別)を取得し、他のクロールされたページでそれらのキーワードが言及されているかどうかを調べることで、関連する内部リンクの提案が表示されます。
「ソース」ページはリンク元となるページであり、 「ターゲット」ページはリンク先となるページです。
コンテンツ間における「接続」の質が高くなるほど、Googlebot がサイトをクロールしやすくなります。
まとめ
Webサイトのクローリングを理解することは、単なる SEO ハック以上のもので、トラフィックと ROI に直接影響を与える基礎知識です。
クローラーの仕組みを知ることは、検索エンジンがサイトをどのように「認識」するかを知ることであり、ランキングに関してはそれが戦いの半分です。
著者プロフィール
Louise Linehan
Louiseは、Ahrefs のコンテンツ マーケターです。過去 10 年間、彼女は SaaS ブランドである Pi Datametrics、BuzzSumo、Cision で上級コンテンツのポジションを務めてきました。この間、彼女は何百ものブログ記事を公開し、業界をリードする研究を先導し、専門家主導のウェビナープログラムを開発しました。昼間はコンテンツと SEO について執筆し、夜はサッカーをしたり、カラオケでマイクに向かって叫んだりしています。