Google、20の正規化シグナルを使用。Canonicalタグだけではない

この記事はAhrefs公式ブログの日本語訳です。
原文：Google Uses 20 Canonicalization Signals. It’s More Than Canonical Tags
（著者：Patrick Stox、Reviewed by Michal Pecánek / 原文の最終更新日：August 20, 2023）
※フルスピード註：この記事は2023年8月20日時点の記載をもとに翻訳しています。Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。

正規化とは、重複がある場合にページのどのバージョンをインデックスに登録してユーザーに表示するかを検索エンジンが決定するプロセスです。選択されたバージョンは正規 URL と呼ばれ、リンクなどのランキングシグナルがそのページに統合されます。このプロセスは、標準化または正規化と呼ばれることもあります。

Google ウェブマスタートレンドアナリストの Gary Illyes 氏によると、インターネットの最大 60% は重複コンテンツです。

Google’s crawling process is highly focused on removing duplication because 60% of the internet is duplicate 🤯 @methode #seodaydk pic.twitter.com/OJ9OkP74DU
— Lily Ray 😏 (@lilyraynyc) March 30, 2022

正規化は複雑であり、誤解されることがよくあります。複製のほとんどは悪質なものではないと思います。それらの原因となるのは主に技術的な問題です。これについては後ほど詳しく見ていきます。正規化プロセスがどのように機能するか、また次の点について説明します。

正規化シグナル
正規版を確認する方法
よくある間違い
まとめ

正規化シグナル

正規化プロセスにはさまざまなシグナルが入力されます。Google の Gary Illyes 氏によると、20 種類の異なるシグナルがあるそうです。これらには次のものが含まれます。

重複
正規リンク要素
サイトマップの URL
内部リンク
外部リンク
リダイレクト
フレフラン
ページランク
HTTP 経由の HTTPS ページ
長い URL よりも短い URL
コンテンツが最初に公開/閲覧された場所
スクレイピングされたコンテンツの履歴などのサイトレベルのシグナル
PDF 上のページ

Google はさまざまなシグナルをすべて調べ、それらを比較検討して、正規バージョンを決定します。それがインデックスを作成するページのバージョンであり、通常ユーザーに表示されるものです。このプロセスは機械学習システムによって処理されます。

Google が内部リンクと正規 URL に基づいて正規を決定する場合の潜在的なシナリオ。

重複

コンテンツが重複している場合、Google はインデックスに登録する正規バージョンを選択します。すべての適格なページはページのクラスターを形成し、そのクラスター内のページに送られるシグナルは選択された正規に統合されます。その正規版は時間の経過とともに変更される可能性もあります。

SEO 担当者の中には、重複コンテンツのペナルティがあると信じている人もいますが、それは真実ではありません。通常、1 つのバージョンまたは別のバージョンにインデックスを付けることになります。インデックスを作成したいバージョンではないかもしれませんが、同じページの他のバージョンと同様にインデックスが作成され、ランク付けされます。
※フルスピード注：日本語翻訳版「あなたが無視すべき10のSEO神話」もお読みください

ページの重複や、場合によっては正規化の問題が発生する原因の例をいくつか示します。

HTTP およびHTTPS のバリアント – 例: http://www.example.com および https://www.example.com
※フルスピード注：日本語翻訳版「HTTPSとは？知っておくべきこと」もあります。
非 www および www のバリアント – 例: http://example.com および http://www.example.com
URL の末尾にスラッシュが ある場合とない場合 – 例: https://example.com/page/ および https://example.com/page
※フルスピード注：日本語翻訳版「URLの最後にトレーリングスラッシュ（/）はあるべきなのか?」もあります。
大文字を含む URL と大文字を含まない URL – 例: https://example.com/page/ および https://example.com/Page/
ページのデフォルトバージョン (インデックスページなど) – 例: https://www.example.com/ , 　https://www.example.com/index.htm , https://www.example.com/index.html , https://www.example.com/index.php , https://www.example.com/default.htm など。
ページの代替バージョン – これには、モバイルバージョン (example.com や m.example.com など)、AMP バージョン (example.com/page や amp.example.com/page など)、印刷版 (example.com など) が含まれる可能性があります。 .com/page および example.com/page/print)、他の国向けだが同じ内容を含む代替バージョン (例: example.com/en-us/、example.com/en-gb/、example.com/) en-au/)、または開発サイトまたはステージングサイト (dev.example.com など) のバージョン。
URL パラメーター – 例: example.com?parameter=whatever。これらは、トラッキングコード、ファセットナビゲーション、コンテンツの並べ替え、セッション ID などのために存在する可能性があります。パラメーターがページのコンテンツを変更して、重複しないようにする場合があります。
※フルスピード注：日本語翻訳版「URLパラメータ：SEOのための完全ガイド」もあります。
完全なコンテンツを表示する他のページ–別のページに完全なコンテンツが表示される場合、Google は間違った正規版を選択する可能性があります。これには、メインのブログページ、ページ分割されたページ、タグページ、カテゴリページ、フィードページが含まれる場合があります。
スクレイピングまたはシンジケートされたコンテンツ– コンテンツシンジケーションのベストプラクティスでは、通常、元のコンテンツに正規のタグを付けるか、少なくとも元のコンテンツへのリンクを付けることが推奨されます。それは、選択される正規がまったく異なるドメインである可能性があるためです。オリジナルのソースを正規版として選択しようとしますが、場合によっては、間違ったページを選択してしまうことがあります。
※フルスピード注：日本語翻訳版「コンテンツシンジケーションとは何か?」もあります。

通常、これらのほとんどは問題になりません。前述したように、Google は通常、いずれかのバージョンを正規版として選択します。これにはいくつかの例外があります。

コンテンツシンジケーションでは、オリジナルのソースが正規として選択されない場合があります。これは本当に問題です。あなたが書いた記事が他の人にランキングされ始めたらどう思いますか?
Hreflangは海外サイトでの重複を解決しません。Google は通常、正しいバージョンを表示するために交換を試みます。しかし、それは保証されておらず、この設定は頻繁に壊れます。この問題が発生すると、ユーザーには間違った国のページが表示されてしまいます。海外の Web サイトでは、複数のページに同じコンテンツを配置しないことが最善です。
※フルスピード注：日本語翻訳版「Hreflang：初心者向けの簡単なガイド」もあります。
一部の JavaScript サイト (通常はアプリシェルモデル) では、ページの初期コードが他のページ、または他の Web サイトのコードのように見える場合があります。場合によっては、これらのページが同じ Web サイトまたは異なる Web サイトの他のページに正規化されることがあります。

hreflang と JavaScript コンテンツの両方の問題の一部は、Google が重複パターンを検出するクロールアルゴリズムを介して重複検出を実行している可能性があることだと思います。コードを確認した直後と、ページのレンダリング後に再度実行されます。

Google のレンダリングパスは、重複検出システムが実行されていると思われる場所でマークアップされています。

hreflangを使用したページでは、クロールせずにページが重複していると判断した場合、正常にページを入れ替えることができない場合があります。

ページはレンダリングされる前でも、HTML コンテンツに基づいて別のページのように「見える」場合があります。Google は、この初期バージョンに基づいて正規版を選択する場合がありますが、既に重複ページとみなされているため、レンダリングに優先順位を付けない場合があります。通常、この問題はレンダリング後に自動的に解決されますが、解決するまでに時間がかかる場合があります。

Google には、重複の正規化に関して通常従うルールが 2 つあります。

1. HTTP ページよりも HTTPS ページを優先します。

Google は通常、HTTPS バージョンをインデックスに登録しますが、次のようないくつかの問題や競合するシグナルにより、代わりに HTTP バージョンが選択される可能性があります。

無効なセキュリティ証明書を持っています。
HTTPS ページは、ページ上の HTTP リソースにリンクします (画像を除く)。
HTTPS が HTTP にリダイレクトされます。
HTTP ページを指す rel=“canonical” リンク要素を持つ HTTPS ページ。

2. 長い URL よりも短い URL が優先されます。

これは、すべての URL は短くする必要があるということで、SEO によって長年誤解されてきました。しかし、それは元の声明が意味したことではありません。Google が言ったのは、たとえば、URL が短いバージョンとパラメータが付加された長いバージョンがある場合、通常はパラメータがない短いバージョンの URL が正規バージョンとして選択されるということです。

正規リンク要素

これは一般に、正規タグとも呼ばれます。次のようになります。
※フルスピード注：日本語翻訳版「canonicalタグ：初心者のための簡単ガイド」もあります。

<link rel="canonical" href="https://www.example.com" />

正規化タグは、正規化シグナルの 1 つにすぎないため、ヒントと呼ばれることもあります。他のシグナルが強い場合、Google はそれを無視します。

canonical タグが尊重される場合、リンクなどのすべてのシグナルが通過します。ただし、正規が無視された場合、値は渡されません。価値は失われません。元のページに留まるか、Google が正規として選択したページに移動します。

正規リンク要素は 2 つの異なる方法で実装できます。<head> セクションまたは HTTP ヘッダーに含めることができます。

楽しい逸話。Google の SEO スターターガイドは以前は PDF でした。HTTP ヘッダーには正規タグが設定されておらず、人々は自分の複製バージョンを使用してリストを「盗む」ことがよくありました。

ページの <head> セクションが終了する前に終了することがあります。これは通常、<head> 内のタグが適切に閉じられていないことが原因で発生します。その場合、代わりに正規タグが <body> セクションに挿入されることがあります。そうなると、正規タグは尊重されなくなります。

<body> セクションに無効な正規タグがあります。

サイトマップの URL

サイトマップに含める URL も正規化シグナルです。ほとんどの場合、インデックスを作成するページの URL のみを含める必要があります。

サイトマップ URL はクロールにも役立つため、これにはいくつかの例外があります。Web サイトの移行後は、正規ではない場合でも、古いページを引き続きリストするサイトマップを作成する必要があります。これにより、リダイレクトの処理が高速化されます。ほとんどのリダイレクトが取得されて処理された後、このサイトマップを削除することをお勧めします。
※フルスピード注：日本語翻訳版「SEO的にWebサイトの移行を成功させるにはチェックリスト以上の作業が必要です。」もあります。

内部リンク

ページにどのようにリンクするかが重要です。内部リンクは、もう 1 つの正規化シグナルです。
※フルスピード注：日本語翻訳版「SEOのための内部リンク:アクション可能なガイド」もあります。

一般に、正規化したいページのバージョンにリンクし、変更された可能性のある URL へのリンクを更新する必要があります。ただし、ファセットナビゲーションなどの例外もあります。このようなケースでは、ユーザーにとっての最善が SEO にとっての最善よりも優先される可能性があります。

外部リンク

他の人があなたのページにどのようにリンクするかが重要です。ページの最新バージョンを指すように外部リンクを更新できる場合は、ページの最新バージョンをインデックスに登録する必要があることを示すのに役立ちます。

リダイレクト

リダイレクトにはいくつかの異なるタイプがあり、それらはすべて正規化シグナルです。リダイレクトは通常、非常に強力な正規化シグナルです。これらはPageRankを渡し、どの URL が Google のインデックスに表示されるかを決定するのに役立ちます。
※フルスピード注：日本語翻訳版「ページランクはまだ終わっていない？ページランクの重要性とは」もあります。

301 などの永続的なリダイレクトは、新しい URL に信号を転送します。302 や一部の 307 などの一時的なリダイレクトは、リダイレクトされた URL に逆方向に信号を送信します。一時的なリダイレクトが十分な期間放置されている場合、またはリダイレクト先の URL がすでに存在している場合、それは永続的なリダイレクトとして扱われ、代わりにシグナルが送信されることがあります。正規化信号について前に見たスケールを反転するには、十分な信号が必要です。リンクが蓄積し、内部リンクが変更され、サイトマップ URL が更新されると、古い URL よりも新しい URL を指すシグナルが多くなり、反転が発生します。

ある時点で、302 のような一時的なリダイレクトのスケールが反転します。

A 307 には 2 つの異なるケースがあります。一時的なリダイレクトの場合は、302 と同じように扱われ、後方への統合が試行されます。Web サーバーがクライアントに HTTPS 接続のみを使用することを要求する場合 (HSTS ポリシー)、307 はブラウザにキャッシュされるため、Google はその 307 を認識しません。最初のヒット (キャッシュなし) には、サーバー応答コードが 301 または 302 である可能性があります。ただし、それ以降のリクエストでは、ブラウザーには 307 が表示されます。

永続的なリダイレクトの種類

HTTP 301
HTTP308
メタリフレッシュ0
HTTP リフレッシュ 0
JavaScriptの場所
暗号リダイレクト

一時リダイレクトの種類

HTTP 302
HTTP 303
HTTP 307 (ブラウザのキャッシュではなくサーバー側)
メタリフレッシュ >0
HTTP 更新 >0

信号の統合

通常、シグナルは 1 年後に永久に統合されます。その期間後にリダイレクトが削除された場合、シグナルはリダイレクト先のページに残ります。元のページが復元されると、新しいシグナルはすべて復元されたページに送信されますが、古いシグナルはリダイレクト先のページに統合されます。

フレフラン

Hreflang は、正規化のもう 1 つのシグナルです。hreflang タグに含まれるページは正規として選択される可能性が高くなります。

これは、重複ページの場合にも複雑になります。一般に 1 つのページがインデックス付けされ、シグナルがそこに統合される可能性があるためです。ただし、検索結果で表示されるページをユーザーにとってより適切なページに切り替えることができます。

この部分は複雑なので、詳細については「Hreflang: The Easy Guide for Beginners」を読むことをお勧めします。
※フルスピード注：日本語翻訳版「Hreflang：初心者向けの簡単なガイド」もあります。

ページランク

PageRankも正規化シグナルとして確認されています。PageRank が高いページは重みが高く、正規である可能性が高くなります。
※フルスピード注：日本語翻訳版「ページランクはまだ終わっていない？ページランクの重要性とは」もあります。

正規版を確認する方法

Google が正規として選択したものに関する主な情報源は、Google Search Console の URL 検査ツールです。URL を入力すると、宣言された正規とは何か、Google が正規として選択したものが表示されます。

Google Search Console にアクセスできない場合、Google がインデックスに登録したページのバージョンを確認するには、URL を Google に貼り付けることをお勧めします。通常、一番上の結果は正規のものです。

同様に、Google でページのキャッシュされたバージョンを確認し、別のページが表示された場合、Google はページの別のバージョンを選択しています。

警告:正規版を確認するために site: 検索を使用しないでください。これは Google が知っていることを示しますが、必ずしもインデックスに登録されているものや選択された正規のものを示すものではありません。

Ahrefs のSite Auditでは、正規化に関連する多くの問題を示します。ほとんどの場合、ベストプラクティスにフラグを立てていることに注意してください。正規版はヒントであるため、Google やその他の検索エンジンは、ページのどのバージョンをインデックスに登録するかを選択する必要があります。

Web サイトに正規化に関連する問題がたくさんある場合でも、検索エンジンはどのバージョンをインデックスに登録する必要があるか、シグナルをどこに統合する必要があるかを判断できる可能性があります。それは彼らにとって実際の問題を引き起こさないかもしれません。

楽しい事実。サイト監査を実行する場合、ページの正規バージョンのみをクロールクレジットとしてカウントします。他のツールでは、ページのすべてのバージョンがクレジットとしてカウントされます。多くのサイトでは、これによりページごとに複数のクレジットが消費される可能性があります。

よくある間違い

正規化では問題が発生する可能性がたくさんあります。よくある間違いをいくつか見てみましょう。

間違いその1。robots.txt による正規化された URL のブロック

robots.txt内の URL をブロックすると、Google がその URL をクロールできなくなります。つまり、そのページ上の正規タグを確認できなくなります。これにより、非正規から正規に「リンクエクイティ」を移転することができなくなります。
※フルスピード注：日本語翻訳版「Robots.txtとSEO: 知っておくべきことすべて」もあります。

クロールバジェットの問題がない限り、すべてのシグナルを統合する方がよいでしょう。一部のバージョンをブロックまたはインデックスなしにする場合でも、代わりに正規化する必要があるリンクを含むバージョンを確認する必要がある場合があります。ただし、Google は時間の経過とともに非正規ページのクロールを減らす傾向があるため、待ったほうがよい場合もあります。
※フルスピード注：日本語翻訳版「クロールバジェットとは何か＆ほとんどのSEO担当者が心配しない理由」もあります。

間違いその2。正規化された URL を「noindex」に設定する

noindex と rel=canonical を決して混合しないでください。矛盾した指示ですね。

John Mueller が述べているように、Google は通常、「noindex」タグよりも canonical タグを優先します。

間違いその3。正規化された URL に 4XX HTTP ステータスコードを設定する

正規化された URL に 4XX HTTP ステータスコードを設定すると、「noindex」タグを使用したのと同じ効果が得られます。Google は正規タグを認識できなくなり、「リンクの資産」を正規バージョンに転送できなくなります。

間違いその4。ページ分割されたすべてのページをルートページに正規化する

ページ分割されたページは、シリーズの最初のページ分割されたページに正規化しないでください。代わりに、すべてのページ分割されたページで自己参照正規を使用する必要があります。

なぜ？John がReddit で述べたように、これは rel=canonical の不適切な使用です。

この投稿は正規化に関するものなので、主に避けるべきことは、ページ 2 でページ 1 を指す rel=canonical を使用することです。ページ 2 はページ 1 と同等ではないため、そのような rel=canonical は正しくありません。

ジョン・ミューラー ウェブマスタートレンドアナリストGoogle

ご興味がございましたら、SEO のためのページネーションとベストプラクティスに関するガイドをご用意しています。
※フルスピード注：日本語翻訳版「Google が Rel=Prev/Next を変更して以降、SEO 担当者が誤った設定でページネーションを壊してしまう – 正しく設定する方法を紹介」もあります。

間違いその5。Google Search Console の URL 削除ツールを使用して正規化する

これにより、URL のすべてのバージョンが削除され、ページのインデックスが検索から効果的に削除されます。

間違いその6。正規化シグナルの一貫性が保たれていない

先ほど説明したように、さまざまな正規化シグナルがあります。

異なるシグナルが異なる正規を示唆するということは、正規の選択を Google に依存することを意味します。優先バージョンで Google に表示するシグナルの一貫性が高ければ高いほど、そのバージョンが選択された正規バージョンとなる可能性が高くなります。

間違いその7。hreflang で正規タグを使用しない

Hreflang タグは、 Web ページの言語と地理的ターゲットを指定します。
※フルスピード注：日本語翻訳版「Hreflang：初心者向けの簡単なガイド」もあります。

Google は、 hreflang を使用する場合、「同じ言語の正規ページを指定するか、同じ言語に正規ページが存在しない場合は可能な限り最適な代替言語を指定する」必要があると述べています。

間違いその8。複数の rel=canonical タグがある

複数の rel=canonical タグがあると、通常、Google はそれらを無視します。多くの場合、これは、CMS、テーマ、プラグインなど、さまざまな時点でタグがシステムに挿入されるために発生します。このため、多くのプラグインには、それらが正規タグの唯一のソースであることを保証するための上書きオプションが用意されています。

これが問題となる可能性があるもう 1 つの領域は、JavaScript で追加された正規化です。HTML 応答で正規 URL が指定されていない場合、JavaScript で rel=canonical タグを追加すると、Google がページをレンダリングするときにその URL が尊重される必要があります。ただし、HTML で正規版を指定し、優先バージョンを JavaScript で交換すると、混合シグナルが Google に送信されることになります。

間違いその9。<body> 内の Rel=canonical

Rel=canonical はドキュメントの <head> にのみ出現する必要があります。ページの <body> セクション内の正規タグは無視されます。

これが問題になる可能性があるのは、ドキュメントの解析です。ページのソースコードの正しい場所に rel=canonical タグがある場合でも、閉じられていないタグ、JavaScript の挿入、<head> セクション内の <iframes> など、さまざまな要因により、<head> が途中で終了する可能性があります。レンダリング。このような場合、正規タグがレンダリングされたページの <body> に誤ってスローされ、尊重されない可能性があります。

まとめ

URL パラメータツールや Google Search Console の優先ドメイン設定など、SEO が正規化を処理するために持っていたツールの多くは廃止されました。ただし、Google が正規版を選択するのに役立つシグナルは他にもたくさんあります。

質問がある場合は、Twitter でメッセージを送ってください。

著者プロフィール

Patrick Stox
Patrick Stoxは、Ahrefsのプロダクトアドバイザー、テクニカルSEO、およびブランドアンバサダーです。彼は、Raleigh SEO Meetup、Raleigh SEO Conference、Beer & SEO Meetup、Findability Conference の主催者であり、/r/TechSEO のモデレーターでもあります。