この記事はAhrefs公式ブログの日本語訳です。
原文:What Is Googlebot & How Does It Work?
(著者:Patrick Stox / 原文の最終更新日:January 12, 2022)
※フルスピード註:この記事は2023年8月9日時点の記載をもとに翻訳しています。Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。
Googlebot は、必要な情報を収集し、Web の検索可能なインデックスを構築するために Google が使用する Web クローラーです。Googlebot には、モバイル クローラーとデスクトップ クローラーに加えて、ニュース、画像、動画に特化したクローラーもあります。
Google が特定のタスクに使用するクローラは他にもあり、各クローラは「ユーザー エージェント」と呼ばれる異なるテキスト文字列で自身を識別します。Googlebot はエバーグリーン(常緑)です。つまり、ユーザーが最新の Chrome ブラウザで見るのと同じようにウェブサイトを表示します。
Googlebot は何千ものマシン上で実行されます。これらは、Web サイト上でどのくらいの速度でクロールするか、何をクロールするかを決定します。ただし、Web サイトに負荷がかからないように、クロールの速度は遅くなります。
Webページのインデックスを構築するプロセスを見てみましょう。
Googlebot がWebぺージをクロールしてインデックスを作成する仕組み
Googleは過去にパイプラインのいくつかのバージョンを共有してきました。以下は最新のものです。
これを再度処理し、ページへの変更または新しいリンクを探します。レンダリングされたページのコンテンツは、Google のインデックスに保存され、検索可能になります。見つかった新しいリンクはすべて、クロールするために URL のバケットに戻されます。
このプロセスについては、検索エンジンの仕組みに関する記事で詳しく説明しています。
Google botを制御する方法
Google では、クロールされインデックスに登録されるものを制御する方法をいくつか提供しています。
クロールを制御する方法
- Robots.txt – Web サイト上のこのファイルを使用すると、クロールされる内容を制御できます。
- Nofollow – Nofollow は 、リンクをたどるべきではないことを示唆する リンク属性またはメタ ロボット タグです。単なるヒントとみなされますので、無視されても構いません。
- クロール速度を変更する– Google Search Console 内のこのツールを使用すると、 Google のクロール速度を遅くすることができます。
インデックス作成を制御する方法
- コンテンツを削除する – ページを削除すると、インデックスを作成するものが何もなくなります。これの欠点は、他の人もアクセスできないことです。
- コンテンツへのアクセスを制限する – Google はウェブサイトにログインしないため、いかなる種類のパスワード保護や認証によってもコンテンツが表示されなくなります。
- Noindex – メタ ロボット タグ内の noindex は、検索エンジンにページのインデックスを作成しないよう指示します。
- URL 削除ツール – Google によるこのツールの名前は、その仕組みがコンテンツを一時的に非表示にするものであるため、少し誤解を招きます。Google は引き続きこのコンテンツを参照してクロールしますが、ページは検索結果に表示されません。
- Robots.txt (画像のみ) – Googlebot 画像のクロールをブロックすると、画像のインデックスが作成されなくなります。
どのインデックス作成コントロールを使用すればよいかわからない場合は、Google 検索からの URL の削除に関する投稿のフローチャートを確認してください。
それは本当にGoogle botですか?
多くの SEO ツールと一部の悪意のあるボットは Google bot になりすまします。これにより、ブロックしようとする Web サイトにアクセスできる可能性があります。
以前は、Googlebot を確認するには DNS ルックアップを実行する必要がありました。しかし最近、Google はそれをさらに簡単にし、 リクエストが Google からのものであることを確認するために使用できるパブリック IP のリストを提供しました。これをサーバー ログのデータと比較できます。
Google Search Console の「クロール統計」レポートにもアクセスできます。[設定] > [クロール統計]に移動すると、レポートには Google がウェブサイトをどのようにクロールしているかに関する多くの情報が含まれます。どの Googlebot がどのファイルをクロールしているのか、いつアクセスしたのかを確認できます。
まとめ
ウェブは大きくて乱雑な場所です。Googlebot は、Google が検索エンジンを機能させるために必要なデータを収集するために、ダウンタイムや制限を伴うさまざまな設定をすべて操作する必要があります。
結論として興味深い事実は、Googlebot は通常ロボットとして描かれており、適切に「Googlebot」と呼ばれているということです。「クローリー」という名前のクモのマスコットもあります。
まだ質問がありますか? Twitter でお知らせください。
記事を書いた人
Patrick Stox
Patrick Stox は、Ahrefs のプロダクト アドバイザー、テクニカル SEO、およびブランド アンバサダーです。彼は、Raleigh SEO Meetup、Raleigh SEO Conference、Beer & SEO Meetup、Findability Conference の主催者であり、/r/TechSEO のモデレーターでもあります。
コメント