この記事はAhrefs公式ブログの日本語訳です。
原文:What Is Googlebot & How Does It Work?
(著者:Patrick Stox / 原文の最終更新日:August 9, 2023)
※フルスピード註:この記事は2023年8月9日時点の記載をもとに翻訳しています。Ahrefs公式ブログにて更新される場合があることをご了承ください。
Googlebot とは必要な情報を収集し、Web で検索可能なインデックスを構築するために Google が使用する Web クローラーのことです。Googlebot には、モバイル クローラーとデスクトップ クローラーに加えて、ニュース、画像、動画に特化したクローラーもあります。
Google が特定のタスクに使用するクローラーは他にもあり、各クローラは「ユーザー エージェント(User Agent)」と呼ばれる、異なるテキスト文字列で自身を識別します。Googlebot はエバーグリーンです。つまり、ユーザーが最新の Chrome ブラウザで見るのと同じようにWeb サイトを表示します。
Googlebot は何千ものマシン上で実行されます。これらは、Web サイト上でどのくらいの速度でクロールするか、何をクロールするかを決定します。ただし、Web サイトに負荷がかからないように、クロールの速度は遅くなります。
Webページのインデックスを構築するプロセスを見てみましょう。
Googlebot がWebぺージをクロールしてインデックスを作成する仕組み
Google は、過去にパイプラインのいくつかのバージョンを共有してきました。以下は最新のものです。
これを再度処理し、ページへの変更または新しいリンクを探します。レンダリングされたページのコンテンツは、Google のインデックスに保存され、検索可能になります。見つかった新しいリンクはすべて、クロールするために URL のバケットに戻されます。
このプロセスについては、検索エンジンの仕組みに関する記事で詳しく説明しています。
※注:検索エンジンの仕組みはこちら。
Google botを制御する方法
Google では、クロールされインデックスに登録されるものを制御する方法をいくつか提供しています。
クロールを制御する方法
- robots.txt – Web サイト上のこのファイルを使用すると、クロールされる内容を制御できます。※注:robots.txt翻訳記事はこちら。
- nofollow – Nofollow は 、リンクをたどるべきではないことを示唆する リンク属性またはメタ ロボット タグです。単なるヒントとみなされますので、無視されても構いません。※注:Nofollowリンク翻訳記事はこちら。
- クロール速度を変更する– Google Search Console 内のこのツールを使用すると、 Google のクロール速度を遅くすることができます。※注:クロールバジェット翻訳記事はこちら。
インデックス作成を制御する方法
- コンテンツを削除する – ページを削除すると、インデックスを作成するものが何もなくなります。これの欠点は、他の人もアクセスできないことです。
- コンテンツへのアクセスを制限する – Google はウェブサイトにログインしないため、いかなる種類のパスワード保護や認証によってもコンテンツが表示されなくなります。
- noindex – meta robot タグ内の noindex は、検索エンジンにページのインデックスを作成しないよう指示します。※注:robotsメタタグとx-robotsタグ翻訳記事はこちら。
- URL 削除ツール – Google によるこのツールの名前は、その仕組みがコンテンツを一時的に非表示にするものであるため、少し誤解を招きます。Google は引き続きこのコンテンツを参照してクロールしますが、ページは検索結果に表示されません。
- robots.txt (画像のみ) – Googlebot 画像のクロールをブロックすると、画像のインデックスが作成されなくなります。
どのインデックス作成コントロールを使用すればよいかわからない場合は、Google 検索からの URL の削除に関する投稿のフローチャートを確認してください。※注:Google検索からURLを削除する方法の翻訳記事はこちら。
Googlebotをはじめ、検索エンジンの仕組みをより深くお知りになりたいですか?ぜひ株式会社フルスピードにご相談ください。SEOコンサルティングサービス「デフォイキ」で、検索エンジンの仕組みを理解したスペシャリストによる、総合的なSEOをご提案いたします。
Google bot によるアクセスかなりすましかを確認するには
多くの SEO ツールと一部の悪意のあるボットは Google bot になりすまします。これにより、ブロックしようとする Web サイトにアクセスできる可能性があります。
以前は、Googlebot を確認するには DNS ルックアップを実行する必要がありました。しかし最近、Google はそれをさらに簡単にし、 リクエストが Google からのものであることを確認するために使用できるパブリック IP のリストを提供しました。これをサーバー ログのデータと比較できます。
Google Search Console の「クロール統計」レポートにもアクセスできます。[設定] > [クロール統計]に移動すると、レポートには Google がウェブサイトをどのようにクロールしているかに関する多くの情報が含まれます。どの Googlebot がどのファイルをクロールしているのか、いつアクセスしたのかを確認できます。
まとめ
ウェブは大きくて乱雑な場所です。Googlebot は、Google が検索エンジンを機能させるために必要なデータを収集するために、ダウンタイムや制限を伴うさまざまな設定をすべて操作する必要があります。
結論として興味深い事実は、Googlebot は通常ロボットとして描かれており、適切に「Googlebot」と呼ばれているということです。「クローリー」という名前のクモのマスコットもあります。
まだ質問がありますか? Twitter でお知らせください。
記事を書いた人
Patrick Stox
Patrick Stox は、Ahrefs のプロダクト アドバイザー、テクニカル SEO、およびブランド アンバサダーです。彼は、Raleigh SEO Meetup、Raleigh SEO Conference、Beer & SEO Meetup、Findability Conference の主催者であり、/r/TechSEO のモデレーターでもあります。
コメント