インターネットで調べ物をするとき、多くの人は検索エンジンを使うでしょう。検索エンジンにはたくさんの情報が検索結果として表示されますが、これらがどうやって集められているかはご存じでしょうか?
インターネットで公開されている情報を集めるには、「クローラー」という存在が欠かせません。この記事では、そもそもクローラーとは何なのか、基本的な仕組みと役割、そしてSEOを理解するうえでなぜクローラーについても理解するべきなのか、初めてSEOを学ぶ方にもわかりやすく解説します。
クローラーとは?
クローラーとは、英語の「crawler(這うもの・人・動物・虫など)」という意味です。直接的に「(検索エンジンの)クローラー」も意味します。
インターネット(Web)に公開されている情報を、人間が手作業で集めるには膨大な時間がかかることから、これを自動的に行うプログラムとして開発されました。Webページを這うように移動・巡回して、情報を収集することから「クローラー」と名付けられました。
クローラーは、プログラムであることを指す「ボット(bot)」や、Web(網)を這うイメージから「スパイダー(蜘蛛)」と呼ぶ場合もあります。
SEOについて学ぶ場合、基本的にはクローラーと覚えておけば問題ありませんが、時々「~bot」と表現する場合もあります。
クローラーの仕組み
クローラーはどこから始まるのか?
クローラーは、そもそもどのWebページからスタートして巡回しているのか、考えたことはありますか?クローラーは、まず「シードURL(種URL)」と呼ばれる特定のWebページからスタートします。
収集した情報が検索エンジンに表示されるまでの流れ
クローラーがシードURLを決めた後、どのように他のページへ移動していくのか、その後に何をしているのかを見ていきましょう。
- シードURLを決める:シードURLがどれであり、いくつなのかは基本的に開示されません。
- リンクを辿る:クローラーが、シードURLに含まれるリンクを辿り、その先のページへ訪問していきます。
- ページの情報を収集する:Webページのテキストや画像、メタ情報などを読み取り、検索エンジンのデータベースに保存します。詳しくはこの後で説明します。
- 検索エンジンにインデックスする:巡回したページを検索エンジンにまとめ、インデックスします。これにより、公開したWebサイト/ページは検索エンジンでも表示されるようになります。
- ランキング(順位付け)する:集めた情報は、検索ユーザーにとって最も有益で役立つ順序で表示されるようにランキングされます。このステップは、コンテンツSEOやコンテンツマーケティングで、特に重視すべきです。
- 定期的に情報を更新:新しいページや変更されたページを発見したときや、検索エンジンが定めるスケジュールに基づいて、再度クロールを実行し、インデックスした情報を更新します。これにより、検索結果が新鮮に保たれるようになります。
クローラーが収集する情報
検索エンジンによってクローラーが収集する内容は異なりますが、GoogleのクローラーであるGooglebotの場合、次の情報を収集し、検索結果に表示したりランキング要素にしたりするとされています。
Googleの検索結果に表示される情報:
Core Web Vitalsに影響するとされる情報:
- CSS
- JavaScript
なぜクローラーを理解するべきなのか?
クローラーの仕組みを理解することは、SEO対策をする人にとって重要です。テクニカルSEOだけでなく、コンテンツSEOやオンページSEOを行う人も仕組みを理解しておくことで、検索結果に表示されるための施策コミュニケーションを取りやすくなります:
- インデックスの仕組みを理解できるから:クローラーがページを見つけられなければ、検索結果にも表示されません。クローラーがリンクを見つけられず、たどり着けない「孤立したページ」はSEOとして望ましくない状態です。
- サイト構造を最適化できるから:クローラーはリンクを辿って情報を集めます。その仕組みを理解することで、現在のサイト構造を評価できるとともに、適切な内部リンクやサイトマップを用意することに繋がります。
SEOコンサルティングのご依頼は、株式会社フルスピードにご相談ください。SEOコンサルティングサービス「デフォイキ」で、総合的なSEO施策をご提案いたします。
主要な検索エンジンのクローラーを紹介
検索エンジンのクローラーはさまざまなものがありますが、次の5つが代表的です:
- Googlebot:Googleのクローラーで、世界中のWebページを収集・インデックスしています。Googleの検索セントラルに概要ドキュメントが公開されています。
- Bingbot:Microsoft Bingのクローラー。Googlebotと同様に多くのWebページをカバーしています。
- Yandex Bot:ロシアの検索エンジン「Yandex」のクローラー。ロシア語圏の情報を重点的にクロールします。
- DuckDuckBot:プライバシー重視の検索エンジン「DuckDuckGo」のクローラー。広告に利用しないデータ収集を行っています。
- Baidu Spider:中国最大の検索エンジン「Baidu」のクローラー。
このほかにも、SEOツールが巡回させているクローラーもあります。AhrefsBotは、その代表例と言えるでしょう。
まとめ
クローラーは、検索エンジンがWeb上の情報を集めるために用いているプログラムであることを理解しましょう。また、クローラーは収集した情報をインデックスし、検索ユーザーに最適な結果を提供する過程で重要な存在です。その仕組みと役割を理解することで、SEO対策を行いやすくなります。
まずは、自分のWebサイトがクローラーにとって「見つけやすく」「理解しやすい」構造になっているかを確認することが大切です。これからSEOを始める方は、クローラーについてしっかり学び、検索エンジンに愛されるサイト作りを目指しましょう!