この記事はAhrefs公式ブログの日本語訳です。
原文:https://ahrefs.com/blog/google-index/
(著者:Joshua Hardwick 原文の最終更新日:April 30, 2019)
※フルスピード注:この記事は2019年4月30日時点の記載をもとに翻訳しています。
Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。
Googleがあなたのウェブサイトをインデックスしていない場合、あなたはほとんど透明人間のような状態です。検索クエリに表示されず、オーガニックトラフィックは一切得られません。零であり、無であり、ゼロなのです。
あなたがこの記事にいるということは、おそらく上に書いた言葉は初めて聞く話ではないということでしょう。
では、さっそく本題に入りましょう。
この記事では、下記の3つの問題のいずれかを解決する方法をお教えします:
- あなたのウェブサイト全体がインデックスされていない。
- インデックスされているページもあれば、そうでないページもある。
- 新しく公開されたウェブページが十分に速くインデックスされない。
まずは、インデックス化に関する問題を完全に理解しているかどうか、確認しましょう。
SEO対策は初めてですか?私たちのガイドもご覧ください。
SEO基礎ガイド
クローリングとは、インデックスとは何ですか?
Googleは、ウェブをクロールすることによって新しいウェブページを発見し、そのページをインデックスに追加しています。この作業は、Googlebotと呼ばれるウェブスパイダーを使用して行われます。
よくわからない?いくつかの重要な用語を定義してみましょう。
クロール(Crawling):ウェブ上のハイパーリンクをたどって、新しいコンテンツを発見するプロセス。
インデックスを作成すること:すべてのウェブページを膨大なデータベースに保存するプロセス。
ウェブスパイダー:クローリング処理を大規模に行うために設計されたソフトウェアの一部。
Googlebot(グーグルボット):Googleのウェブスパイダー。
ここでは、Googleの動画で詳しく解説しています:
Googleで何かを検索するとき、あなたはGoogleにインデックスからすべての関連ページを返すように求めています。適合するページが何百万もあるため、Googleのランキングアルゴリズムは、最良で最も関連性のある結果を最初に表示するようにページを並べ替えるために最善を尽くします。
ここで私が強調したい重要なポイントは、インデックスとランキングは別物であるということです。
インデックスは「レースに参加すること」を意味し、ランキングは「勝利」を意味します。
すなわち、レースに参加しなければ、勝つことはできません。
Googleでインデックスされているかどうかを確認する方法
Googleにアクセスし、「site:yourwebsite.com(あなたのURL)」と検索します。
※yourwebsite.comには、知りたいドメインを入力
上記の数字は、Googleがインデックスしたあなたのページの大まかな数を示しています。
特定のURLのインデックス状況を確認したい場合は、同じ
「site:yourwebsite.com/web-page-slug」オペレータを使用します。
ページがインデックスされていない場合、結果は表示されません。
なお、Google Search Consoleのユーザーである場合は、Coverageレポートを使用してウェブサイトのインデックス状況についてより正確な洞察を得ることができます。
下記のように進みます:
Google Search Console > インデックス > Coverage
警告付きの有効なページの数を確認してください。
上記赤枠の2つの数字がゼロ以外の何かを合計していれば、Googleはあなたのウェブサイトのページの少なくとも一部をインデックスしています。そうでなければ、あなたは深刻な問題を抱えています。なぜなら、あなたのウェブページのどれもインデックスされていないからです。
注:Google Search Consoleのユーザーではありませんか?登録してください。無料です。Googleからトラフィックを得たいと考えているウェブサイトの運営者は、Google Search Consoleを使用すべきです。それほど重要なツールです。
また、Search Consoleを使用して特定のページがインデックスされているかどうかを確認することもできます。そのためには、URLをURL検査ツールに貼り付けます。
そのページがインデックスされていれば、「URLはGoogle上にあります」と表示されます。(※下記参照)
ページがインデックスされていない場合、「URLはGoogle上にありません」と表示されます。
Googleにインデックスされるには
あなたのウェブサイトまたはウェブページがGoogleでインデックスされていないことがわかったら、次の手順を試してみてください:
- Google Search Consoleにアクセスする
- URL検査ツールに移動する
- GoogleにインデックスさせたいURLを検索バーに貼り付けます。
- GoogleがURLを確認するのを待つ
- 「インデックス作成を依頼する」ボタンをクリック
このプロセスは、新しい投稿やページを公開するときに行うのが良いです。
Googleに「サイトに新しいページを追加したので、見てください」と効果的に伝えることになります。
しかし、インデックスを申請しても、Googleが古いページをインデックスするのを妨げている深刻な問題を直接解決するわけではありません。そういった問題がある場合、以下のチェックリストに従い、問題の原因を特定し、それを解決する手順に進んでください。
すでに試したことがある人もいるかもしれませんが、それぞれの戦術を簡単に紹介します:
1)robots.txtファイルのクロールブロックを削除する。
Googleはあなたのウェブサイト全体をインデックスしていないですか?
それは、robots.txtファイルのクロールブロックが原因かもしれません。
この問題を確認するには、yourdomain.com(あなたのドメイン)/robots.txtにアクセスしてください。
そして、以下の2つのコードのどちらかを探してください:
User-agent: Googlebot
Disallow: /
User-agent: *
Disallow: /
これらはどちらも、Googlebotがあなたのサイトのどのページもクロールの許可をしていないことを伝えています。この問題を修正するには、これらを削除します。
たったそれだけです。
robots.txtの設定が、Googleが特定のウェブページをインデックスしない原因となることもあります。この疑問を解消するためには、Google Search ConsoleのURL検査ツールにURLを入力します。その後、「Coverage」部分をクリックして詳細を確認し、「クロールが許可されていますか?いいえ:robots.txtによってブロックされています」というエラーが表示されるか見てください。
このエラーが出た場合、該当ページがrobots.txtでブロックされていることがわかります。
そのような事態になった場合、あなたのrobots.txtファイルを再確認し、そのページや関連するセクションが「disallow(不許可)」のルールによりブロックされていないか確認してください。
2) 不正なnoindexタグを削除する
Googleは、あなたがインデックスしないようにお願いしたページをインデックスしません。これは、特定のウェブページを非公開にしたいときにとても便利です。
これを行う方法は2つあります。
方法1:メタタグ
これらのメタタグのいずれかを<head>セクションに持つページは、Googleにインデックスされません。
<meta name=”robots” content=”noindex”>となります。
<meta name=“googlebot” content=“noindex”>となります。
これはmeta robotsタグで、検索エンジンにそのページをインデックスできるのかできないのかを伝えるものです。
注:肝心な部分は「noindex」の値です。これが表示されていれば、そのページはnoindexに設定されていることになります。
サイト内のnoindexメタタグを持つすべてのページを見つけるには、Ahrefsのサイト監査使ってクロールを実行します。インデクサビリティレポートに移動し、「Noindex page」警告を探します。
クリックすると、影響を受けるすべてのページが表示されます。noindexメタタグが存在しないページから削除してください。
方法2:X-Robots-Tag
検索エンジンのクローラーは、「X-Robots-Tag HTTPレスポンスヘッダ」を遵守します。このヘッダーを設定することで、ページが検索エンジンによってインデックスされないようにすることができます。このヘッダーは、PHPなどのサーバーサイドのプログラミング言語や.htaccessファイル、またはサーバーの設定を調整することで適用することができます。
GoogleのSearch ConsoleのURL検査ツールは、このX-Robots-Tag HTTPレスポンスヘッダーがGoogleのクローラーがページをクロールするのを防いでいるかどうかを確認するのに役立ちます。URLを検査ツールに入力し、その結果で「インデックスが許可されているか」を探します。
もし「いいえ:「X-Robots-Tag」httpヘッダーで「noindex」が検出されました」と表示された場合、それはそのページがX-Robots-Tag HTTPレスポンスヘッダーによりインデックスから除外されていることを意味します。
サイト全体でこの問題を確認したい場合は、Ahrefsのサイト監査でクロールを実行し、ページエクスプローラーの「HTTPヘッダーのロボット情報」フィルターを使用します
インデックスさせたいページがこのヘッダーを返さないようにするよう、開発者に伝えてください。
おすすめの記事: RobotsメタタグとX-Robots-Tag HTTPヘッダの仕様について
3) サイトマップにページを含める
サイトマップは、あなたのサイトのどのページが重要で、どのページが重要でないかをGoogleに伝えるものです。また、どの頻度で再クロールさせるべきかという指針も与えてくれます。
サイトマップの有無にかかわらず、Googleはあなたのウェブサイトのページを見つけることができるはずですが、それでもサイトマップを作成することは良い習慣です。
ページがサイトマップに登録されているかどうかを確認するには、Search ConsoleのURL検査ツールを使用します。「URLがGoogleにない」というエラーや「サイトマップ:N/A」と表示された場合は、サイトマップに登録されていないか、インデックスされていないことになります。
Search Consoleを使用していない場合サイトマップのURL(通常はyourdomain.com(あなたのドメイン)/sitemap.xml)にアクセスし、ページを検索してください。
また、サイトマップにないクロール可能なページやインデックス可能なページをすべて見つけたい場合は、Ahrefsのサイト監査でクロールを実行します。ページエクスプローラーに移動し、これらのフィルターを適用します。
これらのページはサイトマップに含まれているはずなので、追加してください。サイトマップを更新したら、このURLにpingを打って、サイトマップを更新したことをGoogleに知らせましょう。
最後の部分(http://yourwebsite.com/sitemap_url.xml)をあなたのサイトマップのURLに置き換えてください。すると、このように表示されるはずです:
そうすることで、Googleのページへのインデックスが早くなるはずです。
4) 不正なcanonicalタグを削除する
「canonicalタグ」とは、あるウェブページが他の類似ページと比べて最優先されるべきバージョンであることをGoogleに伝えるためのものです。このタグは以下のように表現されます
<link rel=”canonical” href=”/page.html/”>
多くのウェブページは、このタグを持たないか、もしくは「自己参照型canonicalタグ」を持っています。この自己参照型canonicalタグは、そのページ自体がGoogleにとって最優先されるべきバージョンであると伝えるものです。つまり、サイトの作成者はそのページがインデックス(Googleの検索結果に表示)されることを望んでいます。
しかし、ページに誤ったcanonicalタグが設定されていると、Googleに対して存在しない、あるいは非優先のバージョンのページが優先すべきであると誤って伝えてしまう可能性があります。その結果、該当のページがGoogleにインデックスされない可能性があります。
ページがcanonicalタグを持っているかどうか、そしてそのタグがどのページを指しているかを確認するには、GoogleのURL検査ツールを使用します。canonicalタグが他のページを指している場合、ツール内で「canonicalタグを持つ代替ページ」の警告が表示されます。
もしこれが必要なもので、ページをインデックスさせたい場合は、canonicalタグを削除してください。
重要
Canonicalタグ自体は悪いものではありません。多くのページがこれを持つ理由があり、それはウェブサイトの管理者が意図的に設定したものでしょう。もし、あなたのページにcanonicalタグがあることがわかった場合、そのページが本当にGoogleに推奨するバージョンであるか確認してみてください。そのページが適切で、問題のページをGoogleがインデックスする必要がないのであれば、canonicalタグをそのままにしておくべきです。
全サイトを対象に不適切なcanonicalタグを速やかに探し出すためには、Ahrefsのサイト監査ツールを使用してサイトをクロールします。その後、ページエクスプローラーへと進み、以下の設定を適用します。
このフィルターは、サイトマップ内で自分自身を指さないcanonicalタグを持つページを探し出します。通常、サイトマップに掲載されているページはGoogleにインデックスしてほしいという意図があるはずです。なので、もしこのフィルターが何かしらの結果を返したら、それはさらなる調査が必要なサインです。
ここで挙げられたページには、おそらく不適切なcanonicalタグがあるか、あるいは本来サイトマップに含まれるべきでないページかもしれません。
5) ページがオーファンになっていないことを確認する
オーファンページとは、他のページから内部リンクで参照されていないページを、つまり「みなしごのように孤立したページ」を指します。
Googleはウェブサイトをクロールし、新しいコンテンツを探し出しますが、内部リンクがないオーファンページは発見されにくいです。また、ウェブサイトの訪問者もこのページを見つけることは難しいでしょう。
オーファンページの有無を確認するには、Ahrefsのサイト監査を使ってサイトをクロールします。次に、リンクのレポートに「Orphan page (has no incoming internal links)」というエラーがないかチェックします。
重要
この手順は次の2つが満たされているときにしか機能しません:
- インデックスさせたいページがすべてサイトマップに登録されている
- Ahrefsのサイト監査でプロジェクトを設定する際に、サイトマップのページをクロールの開始点として使用するチェックボックスをオンにしている。
全てのインデックス対象のページがサイトマップに含まれているか不安なら、次のステップを試してみてください:
- サイト内の全ページのリストをダウンロードする(CMS経由)
- ウェブサイトをクロールする(AhrefsのSite Auditのようなツールを使用する)
- これら2つのURLリストを比較し、クロールで見つからなかったURLを探す
これらの見つからなかったURLが、オーファンページとなります。
オーファンページを修正するには、2つの方法があります:
- 重要でないページであれば、削除し、サイトマップからも除去します。
- 重要なページであれば、他のウェブサイトのページから内部リンクを張り、サイトの構造の一部にすることでアクセスできるようにします。
6) nofollowの内部リンクを修正する
nofollowリンクとは、rel=”nofollow “タグの付いたリンクのことです。リンク先のURLへのPageRankの転送を防ぎます。また、Googleはnofollowリンクをクロールしません。
以下は、この件に関するGoogleの見解です:
ただし、nofollowを使用せずに他のサイトからリンクされている場合や、サイトマップでGoogleにURLが送信されている場合は、インデックスに表示される可能性があります。
要するに、インデックス可能なページへの内部リンクがすべて守られていることを確認する必要があります。
これを行うには、Ahrefsのサイト監査を使ってサイトをクロールします。「リンク」 レポートで、「Page has nofollow incoming internal links only」エラーのあるインデックス可能なページがないか確認してください:
Googleにページをインデックスさせたい場合は、これらの内部リンクからnofollowタグを削除してください。そうでない場合は、ページを削除するか、noindexにしてください。
おすすめの記事: Nofollowリンクとは何ですか?知っておくべきことすべて(専門用語は一切なし!)
7) 「強力な」内部リンクを追加する
Googleは、あなたのウェブサイトをクロールすることで新しいコンテンツを発見します。もし、あなたが問題のページへの内部リンクを怠っていたら、彼らは見つけることができないかもしれません。
この問題の簡単な解決策は、ページにいくつかの内部リンクを追加することです。これは、Googleがクロールしてインデックスできる他のウェブページから行うことができます。しかし、Googleにできるだけ早くインデックスさせたいのであれば、より「強力な」ページの1つを設定するのが理にかなっています。
なぜか?なぜなら、Googleはそのようなページを、重要度の低いページよりも早く再クロールする可能性が高いからです。
重要なページを確認するには、Ahrefsのサイトエクスプローラーにアクセスしてドメインを入力し、Best by linksレポートにアクセスしてください。
これは、あなたのウェブサイト上のすべてのページをURLレーティング(UR)でソートして表示します。つまり、最も権威のあるページが最初に表示されます。
このリストに目を通し、関連するページを探し、そこから当該ページへの内部リンクを追加します。
例えば、ゲスト投稿ガイドに内部リンクを追加する場合、リンク構築ガイドが適切な場所となるでしょう。そのページは、偶然にも私たちのブログで11番目に権威のあるページなのです:
そうすると、Googleは次にページを再クロールするときにそのリンクを見て、発見することになります。
ヒント
内部リンクを追加したページをGoogleのURL検査ツールに貼り付けます。
「Requestindexing」ボタンを押して、ページの何かが変更されたこと、できるだけ早く再クロールすることをGoogleに知らせます。こうすることで、内部リンクが発見され、結果的にインデックスさせたいページが発見されるまでのプロセスが早くなる可能性があります。
8) 価値のあるユニークなページであることを確認する
Googleが低品質なページをインデックスする可能性は低いです。なぜならユーザーにとって何の価値も持たないからです。2018年のインデックスについて、Googleのジョン・ミューラーが語った内容は以下の通りです:
We never index all known URLs, that’s pretty normal. I’d focus on making the site awesome and inspiring, then things usually work out better.
— John Mueller (official) — #StaplerLife · #Is (@JohnMu) January 3, 2018
彼は、Googleに自分のウェブサイトやウェブページをインデックスさせたいなら、”すごい、感動的 “である必要があるとほのめかしています。
インデックスされない原因として、技術的な問題を除外した場合、価値の欠如が原因である可能性があります。そのため、新鮮な目でページを見直し、自問自答してみてください。
このページは本当に価値があるのだろうか?検索結果からこのページをクリックした場合、ユーザーはこのページに価値を見出すだろうか?
もし答えがNOであれば、コンテンツを改善する必要があります。
Ahrefsのサイト監査と URLプロファイラーを使えば、インデックスされていない低品質なページの可能性をもっと見つけることができます。そのためには、Ahrefsのサイト監査のPage Explorerに行き、以下の設定をします。
これは、インデックス可能で、現在オーガニックトラフィックを得ていない「薄っぺらい」ページを返します。つまり、インデックスされていない可能性が高いのです。
レポートをエクスポートし、すべてのURLをURLプロファイラーに貼り付け、Googleインデックスチェックを実行します。
重要
多くのページ(つまり100ページ以上)に対してこれを行う場合は、プロキシを使用することが推奨されます。そうしないと、あなたのIPがGoogleに禁止される危険性があります。もしそれができないのであれば、別の選択肢として、”無料一括Googleインデックスチェッカー “をGoogleで検索してみてはいかがでしょうか。このようなツールはいくつかありますが、そのほとんどは一回につき25ページ未満に制限されています。
インデックスされていないページがあれば、品質に問題がないか確認します。必要に応じて改善し、Google Search Consoleで再インデックス化をリクエストします。
また、重複するコンテンツの問題を解決することを目指すべきです。Googleは、重複したページやそれに近いページをインデックスすることはまずありません。「サイト監査」の「重複コンテンツ」レポートを使って、このような問題がないかどうかをチェックしましょう。
9) 低品質なページを削除する(「クロールバジェット」の最適化)
低品質なページが多すぎることは、クロールバジェット(予算)を浪費するだけです。
以下は、この件に関するGoogleの見解です:
付加価値の低いページにサーバーリソースを浪費することは、実際に価値のあるページからクロール活動を奪うことになり、サイト内の優れたコンテンツの発見が大幅に遅れる可能性があります。
例えば、先生が小論文を採点していて、そのうちの1つがあなたの小論文だと考えてみてください。もし、先生が10枚のエッセイを採点していたら、あなたのエッセイにはすぐに取り掛かるでしょう。100枚あれば、もう少し時間がかかるでしょう。何千通もあれば、仕事量が多すぎて、あなたのエッセイの採点に手が回らないかもしれません。
Googleは、”クロールバジェットは、ほとんどのパブリッシャーが心配する必要はない “とし、”サイトのURL数が数千未満であれば、ほとんどの場合、効率的にクロールされる “としています。
それでも、ウェブサイトから低品質なページを削除することは、決して悪いことではありません。クロール予算にプラスの効果をもたらすだけなのです。
コンテンツ監査テンプレートを使用して、削除可能な低品質で無関係なページを見つけることができます。
10) 高品質な被リンクの構築
被リンクは、Googleにそのウェブページが重要であることを伝えるものです。結局のところ、誰かがリンクしているのであれば、それは何らかの価値があるに違いありません。このようなページは、Googleがインデックスしたいと考えるページです。
完全な透明性を保つために、Googleは被リンクのあるウェブページだけをインデックスしているわけではありません。被リンクのないページもたくさん(数十億)インデックスされています。しかし、Googleは質の高いリンクを持つページをより重要視するため、リンクのないページよりも速くクロールし、再クロールする可能性があります。これが、より速いインデックスにつながるのです。
ブログでは、高品質のバックリンクを構築するためのリソースをたくさん紹介しています。
以下、いくつかのガイドをご覧ください。
さらに読む
9つの簡単なリンクビルディング戦略(誰でも使えるもの)
バックリンクを獲得する方法:新しいコンテンツを必要としない7つの戦術
バックリンクの探し方(複製可能なもの)
競合他社のバックリンクを略奪するための7つの実践的な方法
ブロークンリンク構築のためのシンプルな(しかし完全な)ガイド
インデックス作成≠ランキング
ウェブサイトやウェブページがGoogleにインデックスされることは、ランキングやトラフィックとイコールではありません。
この2つは別物です。
インデックスは、Googleがあなたのウェブサイトを「認識していること」を意味します。しかし、関連性のある価値あるクエリに対して順位付けを行うことを意味するものではありません。
そこで、特定のクエリで上位に表示されるようにウェブページを最適化する技術であるSEOの出番です。
要するに、SEOには以下が含まれます。
- お客様が検索しているものを見つけること
- そのトピックを中心にコンテンツを作成する
- そのページをターゲットキーワードで最適化する
- 被リンクの構築
- コンテンツを定期的に再公開し、”エバーグリーン “を維持する
SEOを始めるための動画をご紹介します:
さらに読む
SEOの基本:SEOを成功させるための初心者にも優しい5ステップガイド
SEOのためのキーワード調査の方法
オンページSEO:実践的なガイド
リンク構築のための初心者向けガイド
エバーグリーン・コンテンツ:エバーグリーン・コンテンツとは何か、なぜ必要なのか、どのように作るか。
最終的な感想
Googleがあなたのウェブサイトやウェブページをインデックスしていない理由として考えられるのは、以下の2つだけです。
- 技術的な問題が妨げになっている
- Googleが、あなたのサイトやページを低品質で、ユーザーにとって価値のないものと見なしている。
その両方の問題が存在することは十分にあり得ます。しかし、技術的な問題の方がはるかに一般的だと言えるでしょう。技術的な問題は、インデックス可能な低品質コンテンツ(ファセットナビゲーションの問題など)の自動生成につながることもあります。
上記のチェックリストを実行すれば、十中八九、インデックス化の問題は解決するはずです。
ただ、「インデックス」≠「ランキング」であることを忘れないでください。価値のある検索クエリで上位に表示され、オーガニックなトラフィックの流れを常に引き寄せたいのであれば、SEOは依然として不可欠です。
著者プロフィール
Joshua Hardwick
Ahrefs のコンテンツ責任者(わかりやすく言うと、私たちが公開するすべてのブログ記事が素晴らしいことを保証する責任者です)。