この記事はAhrefs公式ブログの日本語訳です。
原文:<What Is Crawl Budget & Why Most SEOs Shouldn’t Worry About It>
(著者:<Patrick Stox>/ 原文の最終更新日:<August 22, 2023>)
※フルスピード註:この記事は2023年8月22日時点の記載をもとに翻訳しています。Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。
クロール バジェットとは、検索エンジンがサイト上でクロールしたいページの数 (クロール デマンド) と、クロールできる速度 (クロール レート) です。これは、クローラーがサイト上で使用したいリソースの量と、サーバーがサポートするクロールの量に影響されます。
クロールが増えてもランクが上がるわけではありませんが、ページがクロールされインデックスに登録されなければ、まったくランクが上がりません。
ほとんどのサイトではクロール バジェットを気にする必要はありませんが、検討した方がよいケースはほとんどありません。それらのケースのいくつかを見てみましょう。
- クロールのバジェットを考慮する必要があるのはどのような場合ですか?
- クロールアクティビティを確認する方法
- クロールバジェットに対して何が考慮されますか?
- Google はどのようにクロールを調整しているのでしょうか?
- Googleのクロールを速くするにはどうすればよいですか?
- Googleのクロールを遅くするにはどうすればよいですか?
クロールのバジェットを考慮する必要があるのはどのような場合ですか?
SEO は通常、人気のあるページのクロール予算を心配する必要はありません。通常、新しいページ、リンクが不十分なページ、またはあまり変更されていないページが、頻繁にクロールされません。
新しいサイト、特にページ数が多いサイトでは、クロールの予算が懸念されることがあります。サーバーはより多くのクロールをサポートできる可能性がありますが、サイトが新しく、まだあまり人気がない可能性があるため、検索エンジンはサイトをあまりクロールしたがらない可能性があります。これは主に期待のずれです。ページをクロールしてインデックスに登録したいと考えていますが、Google はページをインデックスに登録する価値があるかどうかを判断しておらず、ユーザーが希望するほど多くのページをクロールしたくない可能性があります。
クロールの予算は、数百万のページがある大規模なサイトや頻繁に更新されるサイトでも懸念されることがあります。一般に、クロールや更新が思ったほど頻繁に行われていないページがたくさんある場合は、クロールの高速化を検討することをお勧めします。その方法については、この記事の後半で説明します。
クロールアクティビティを確認する方法
Google のクロール アクティビティの概要と、そこで特定された問題を確認したい場合は、 Google Search Console のクロール統計レポートを参照するのが最適です。
ここには、クロール動作の変化やクロールの問題を特定し、Google がサイトをどのようにクロールしているかに関する詳細情報を提供するさまざまなレポートがあります。
ここに示すようなフラグが設定されたクロール ステータスを必ず調べてください。
ページが最後にクロールされたときのタイムスタンプもあります。
すべてのボットとユーザーからのヒットを確認したい場合は、ログ ファイルにアクセスする必要があります。ホスティングとセットアップに応じて、cPanel との共有ホストで示されているように、Awstats や Webalizer などのツールにアクセスできる場合があります。これらのツールは、ログ ファイルからのいくつかの集計データを表示します。
より複雑なセットアップの場合は、生のログ ファイル (場合によっては複数のソース) にアクセスしてデータを保存する必要があります。また、ログ ファイルの保存、処理、視覚化を可能にする ELK (elasticsearch、logstash、kibana) スタックなど、大規模なプロジェクトには特殊なツールが必要になる場合もあります。Splunkなどのログ分析ツールもあります。
クロールバジェットに対して何が考慮されますか?
すべての URL とリクエストはクロール バジェットにカウントされます。これには、AMP や m-dot ページ、hreflang、CSS、埋め込みコンテンツ、XHR リクエストを含む JavaScript などの代替 URL が含まれます。
これらの URL は、ページのクロールと解析によって、またはサイトマップ、RSS フィード、Google Search Console でのインデックス登録のための URL の送信、インデックス APIの使用など、他のさまざまなソースから検索されることがあります。
クロール バジェットを共有する複数の Googlebotもあります。ウェブサイトをクロールしているさまざまな Googlebot のリストは、GSC のクロール統計レポートで確認できます。
Google、クロール方法を調整
各 Web サイトには、いくつかの異なる入力から構成される異なるクロール バジェットがあります。
クロール需要
クロール需要とは、単に Google がウェブサイト上でどれだけのクロールを望んでいるかを表します。人気のあるページや大幅な変更が発生したページは、より多くクロールされるようになります。
人気のあるページ、またはより多くのリンクとPageRank を持つページは、通常、他のページよりも優先されます。Google は何らかの方法でページのクロールに優先順位を付ける必要があり、リンクはサイト上のどのページがより人気があるかを判断する簡単な方法であることに注意してください。ただし、これはあなたのサイトだけではなく、インターネット上のすべてのサイトのすべてのページで、Google は優先順位を付ける方法を見つけなければなりません。
サイトエクスプローラーのリンク別ベスト レポートを使用する と、どのページがより頻繁にクロールされる可能性があるかを示すことができます。また、Ahrefs が最後にページをクロールしたのがいつかも表示されます。
Google は、クロール需要を判断する際に、どのページがインデックスに最も頻繁に登録されているかも調べます。彼らは、提供する必要があるページをより頻繁にクロールして、ページが最新であることを確認したいと考えています。
古さという概念もあります。ページが変更されていないと Google が判断すると、ページをクロールする頻度が減ります。たとえば、ページをクロールして 1 日経っても変化が見られなかった場合、再度クロールするまで 3 日、次回は 10 日、30 日、100 日などとなります。クロールの間に待機する実際の設定期間はありません。しかし、時間の経過とともに頻度は低くなります。ただし、サイト全体に大きな変更があった場合、またはサイトが移動した場合、Google は通常、少なくとも一時的にクロール レートを増加させます。
クロール速度制限
クロール レート制限は、Web サイトがサポートできるクロールの量です。Web サイトでは、速度低下やエラーなどのサーバーの安定性に関する問題が発生する前に、一定量のクロールを実行できます。ほとんどのクローラーは、これらの問題を認識し始めると、サイトに損害を与えないようにクロールを中止します。
Google はサイトのクロールの状態に基づいて調整します。サイトがクロールを増やしても問題ない場合、制限は増加します。サイトに問題がある場合、Google はクロール速度を遅くします。
5xx (サーバー エラー) または 429 (リクエストが多すぎる) HTTP ステータス コードを受信しすぎると、Google はクロールを遅くします。
Googleのクロールを早くしてほしい
サイトで追加のクロールをサポートし、サイトのクロール需要を増やすためにできることがいくつかあります。それらのオプションのいくつかを見てみましょう。
サーバーの高速化 / リソースの増加
Google がページをクロールする方法は、基本的にリソースをダウンロードし、リソース側で処理することです。ユーザーが認識するページ速度はまったく同じではありません。クロールの予算に影響を与えるのは、Google がリソースに接続してダウンロードする速度です。これはサーバーとリソースに大きく関係します。ログに 5xx または 429 エラーがないか確認してください。
外部リンクと内部リンクの追加
クロールの需要は通常、人気やリンクに基づいていることに注意してください。外部リンク や内部リンクの量を増やすことで、予算を増やすことができます。サイトを管理するのはあなたなので、内部リンクは簡単です。Site AuditのLink Opportunities レポートで推奨される内部リンクを見つけることができます。このレポートには、その仕組みを説明するチュートリアルも含まれています。
リダイレクトされたリンクを修正する
サイト上のリダイレクトされたページへのリンクをアクティブなままにしておくと、クロール バジェットにわずかな影響を与えます。通常、ここにリンクされているページはしばらくの間変更されていない可能性があるため、優先度がかなり低くなりますが、問題を解決することは一般的に Web サイトのメンテナンスに役立ち、クロールの予算も少しは節約できます。
サイト上のリダイレクトされた (3xx) リンクは、Site Audit の内部ページレポートで簡単に見つけることができます。
サイトマップ内のリダイレクトされたリンクについては、すべての問題レポートで「サイトマップ内の 3XX リダイレクト」問題を確認してください。
可能な場合は POST の代わりに GET を使用してください
これは、HTTP リクエスト メソッドが関与するという点で、もう少し技術的です。GET リクエストが機能する場合は POST リクエストを使用しないでください。基本的には GET (プル) と POST (プッシュ) です。POST リクエストはキャッシュされないため、クロール バジェットに影響しますが、GET リクエストはキャッシュできます。
インデックス API を使用する
ページをより速くクロールする必要がある場合は、Google のIndexing APIの資格があるかどうかを確認してください。現在、これは求人投稿やライブビデオなどのいくつかのユースケースでのみ利用可能です。
Bing には、 誰でも利用できるIndexing APIもあります。
インデックスなし
Google は依然としてnoindex タグを確認するためにページをクロールする必要がありますが、クロールの調整により、時間の経過とともにこれらのページのクロールがますます少なくなる可能性があります。とにかくインデックスを付けたくないページがある場合は、noindex タグを追加する価値があるかもしれません。
304 (未修正)
Googlebot は、常に If-Modified-Since または If-None-Match HTTP リクエスト ヘッダーを送信するとは限りません。実際に送信し、サーバーが本文コンテンツのない 304 (Not Modified) 応答で応答した場合、Google は最後にクロールしたときのコンテンツを再利用します。
これにより、使用するサーバー リソースが少し減り、Google がサイトをより多くクロールできるようになる可能性があります。ただし、これは技術的に複雑なセットアップであり、それだけの価値があるとは思えません。おそらく、このアプローチを試すよりも、キャッシュの設定に取り組むほうがよいでしょう。
何が効果があるのか
これがクロールの予算に役立つかどうかについては、少し不確かです。
- ノーフォロー。以前は、nofollow リンクはクロール バジェットを使用しませんでした。ただし、nofollow はヒントとして扱われるようになり、Google がこれらのリンクをクロールすることを選択する可能性があります。また、Web 上の他のページにあるリンクを見つけることもできます。
何がうまくいかないのか
時々人々が試してみても、実際にはクロール予算を節約できないことがいくつかあります。
- サイトに小さな変更を加えます。 ページがより頻繁にクロールされることを期待して、日付、スペース、句読点を更新するなど、ページに小さな変更を加えます。Google は変更が重要かどうかを判断するのに非常に優れているため、これらの小さな変更はクロールに影響を与える可能性はありません。
- robots.txt のクロール遅延ディレクティブ。 このディレクティブは多くのボットの速度を低下させます。ただし、Googlebot はこれを使用しないため、影響はありません。Ahrefs ではこれを尊重しているため、クロールを遅くする必要がある場合は、 robots.txtファイルにクロールの遅延を追加できます 。
- サードパーティのスクリプトを削除します。 サードパーティのスクリプトはクロール バジェットにカウントされないため、削除しても役に立ちません。
Googleのクロールをもっと遅くしてほしい
Google のクロールを遅くする良い方法がいくつかあります。ウェブサイトの速度を遅くするなど、技術的に実行できる調整は他にもいくつかありますが、それらは私がお勧めする方法ではありません。
調整は遅いですが保証されています
クロールを遅くするために Google が提供する主な制御は、 Google Search Console 内のレート リミッターです。このツールを使用してクロール速度を遅くすることはできますが、効果が現れるまでに最大 2 日かかる場合があります。
迅速な調整だがリスクも伴う
より迅速な解決策が必要な場合は、サイトの健全性に関連する Google のクロール レート調整を利用できます。ページ上で Googlebot に「503 Service Unavailable」または「429 Too Many Requests」ステータス コードを提供すると、クロールが遅くなったり、クロールが一時的に停止したりすることがあります。ただし、これを数日以上実行しないと、インデックスからページが削除され始める可能性があります。
場合によっては、サイトに大きな変更を加えると、Google のクロールが高速化されることがあります。変更にはリスクが伴うため、Google に一部のページを再クロールしてもらいたいという唯一の理由がある場合には、通常はお勧めしません。
まとめ
クロール率はランキングに影響しません。繰り返しになりますが、ほとんどの人にとってクロールバジェットは心配する必要はありません。懸念がある場合は、このガイドがお役に立てば幸いです。
通常、私がこの問題を調べるのは、ページがクロールされずインデックスに登録されないという問題がある場合、なぜ心配する必要がないのかを説明する必要がある場合、または Google Search Console のクロール統計レポートでたまたま気になる内容を見つけた場合のみです。 。
ご質問がありますか? Twitterでお知らせください。
著者
Patrick Stox は、Ahrefs のプロダクト アドバイザー、テクニカル SEO、およびブランド アンバサダーです。彼は、2021 年の Web 年鑑の SEO の章の筆頭著者であり、2022 年の SEO の章の査読者でもありました。また、Ahrefs の『初心者のための SEO 本』の共著者であり、『The Art of SEO 第 4 版』のテクニカル レビューの編集者でもありました。彼は、Raleigh SEO Meetup (米国で最も成功した SEO Meetup)、Beer and SEO Meetup、Raleigh SEO Conference などのいくつかのグループの主催者であり、Technical SEO Slack グループを運営し、Redditの/r/TechSEO のモデレーターでもあります。
コメント