この記事はAhrefs公式ブログの日本語訳です。
原文:Duplicate Content: Why It Happens and How to Fix It
(著者:Joshua Hardwick / 原文の最終更新日:January 29, 2021)
※フルスピード註:この記事は2021年1月29日時点の記載をもとに翻訳しています。Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。
重複コンテンツとは何か、またそれが SEO にどのような悪影響を及ぼす可能性があるかを知りたいですか?
重複コンテンツは、多くのサイト所有者にとって常に不安の種です。
それに関するほぼすべての記事を読めば、自分のサイトが重複コンテンツ問題の時限爆弾であると信じてしまうでしょう。Google へのペナルティはあと数日で決まります。
ありがたいことに、これは真実ではありませんが、重複したコンテンツは依然として SEO の問題を引き起こす可能性があります。また、 Web の25 ~ 30%は重複コンテンツであるため、そのような問題を回避および修正する方法を知っておくと役立ちます。
テクニカル SEO は初めてですか? 私たちをチェックしてください
テクニカル SEO の初心者ガイド
重複コンテンツとは何ですか?
重複コンテンツとは、Web 上の複数の場所に表示される、まったく同じ、またはほぼ重複したコンテンツです。単一の Web サイトまたはクロスドメインで発生する可能性があります。
たとえば、この投稿を に再公開すると、それは重複したコンテンツになります。他のウェブサイトに再公開する場合も同様です。ahrefs.com/blog/duplicate-content-copy/
Google は 、ほとんどの重複コンテンツは出所を偽るものではないと述べています。
重複コンテンツが SEO に悪いのはなぜですか?
重複したコンテンツは、いくつかの理由から SEO のパフォーマンスに悪影響を与える可能性があります。
- 検索結果に望ましくない URL または不快な URL が表示される。
- バックリンクの希釈化。
- クロール バジェットを消費します。
- スクレイピングまたはシンジケートされたコンテンツがあなたを上回ります。
これらをさらに詳しく見てみましょう。
1. 検索結果に望ましくない URL または不快な URL が表示される
同じページが 3 つの異なる URL で利用できると想像してください。
- ドメイン.com/ページ/
- Domain.com/page/?utm_content=buffer&utm_medium=social
- ドメイン.com/カテゴリー/ページ/
最初のものが検索結果に表示されるはずですが、Google がこれを間違える可能性があります。その場合、望ましくない URL が代わりに使用される可能性があります。
人々は不親切な URL をクリックする傾向が低いため、オーガニック トラフィックが減少する可能性があります。
2. バックリンクの希釈化
同じコンテンツが多くの URL で利用できる場合、それらの URL のそれぞれがバックリンクを引き寄せる可能性があります。その結果、URL 間の「リンク エクイティ」が分割されます。
実際の例を示すには、buffer.comの次の 2 つのページをご覧ください。
https://buffer.com/ライブラリ/social-media-manager-checklisthttps://buffer.com/リソース/social-media-manager-checklist
これらのページはほぼ正確な複製です。そして、それぞれ 106 と 144 の参照ドメイン (独自の Web サイトからのリンク) を持っています。
パニックになる前に、Google の重複コンテンツの処理方法により、これが必ずしも問題になるわけではないことを知ってください。
簡単に言うと、重複コンテンツが検出されると、URL が 1 つのクラスターにグループ化されます。次に、「検索結果でクラスターを表すのに『最適な』 URL であると考えられるものを選択」し、「リンクの人気度など、クラスター内の URL のプロパティを代表的な URL に統合します」。このプロセスは、正規化として知られています。
したがって、上記の場合、Google は オーガニック検索で URL を 1 つだけ表示し、クラスター内のすべての参照ドメイン (106+144) をその URL に帰属させる必要があります。
しかし、Google では両方の URL が同様のキーワードでランク付けされているため、実際はそうではありません。
この例では、Google はおそらく「リンクの資産」を 1 つの URL に統合していません。
免責事項
Buffer の Google Search Console アカウントにアクセスできないため、Google がこれら 2 つの URL をどのように認識しているかはわかりません。おそらく、これらの URL が両方とも重複していると考えられており、そのうちの 1 つがまもなくオーガニック検索から消えることになります。
3. クロールバジェットを消費する
Google はクロールによってウェブサイト上の新しいコンテンツを見つけます。つまり、既存のページから新しいページへのリンクをたどります。また、知っているページを時々再クロールして、何か変更がないかどうかを確認します。
コンテンツが重複していると、作業が増えるだけです。これは、新しいページまたは更新されたページをクロールする速度と頻度に影響を与える可能性があります。
これは、新しいページのインデックス作成や更新されたページの再インデックス作成の遅延につながる可能性があるため、問題です。サイドノート。
Google の「クロール レート制限」は応答性の高い Web サイトほど高くなる ため、帯域幅の許容量が小さい低速な Web サイトではより問題が大きくなります。また、システムが
4. スクレイピングされたコンテンツがあなたを上回ります
場合によっては、別の Web サイトがコンテンツを再公開することを許可することがあります。それはシンジケーションとして知られています。また、サイトがあなたのコンテンツをスクレイピングし、許可なく再公開する場合もあります。
これらのシナリオはどちらも、複数のドメイン間でコンテンツの重複が発生しますが、通常は問題を引き起こしません。問題が発生するのは、スクレイピングまたは再公開されたコンテンツがサイト上でオリジナルのコンテンツを上回り始めた場合です。
良いニュースは、これはまれな出来事ですが、起こる可能性があるということです。
Googleには重複コンテンツのペナルティがありますか?
Googleは、重複コンテンツに対するペナルティはないと何度も述べている。
重複コンテンツのペナルティはありません。重複コンテンツが多いという理由でサイトを降格するというわけではありません。
ジョン・ミューラー ウェブマスター トレンド アナリストGoogle
皆さん、これはきっぱりと寝かせましょう。重複コンテンツのペナルティなどというものは存在しません。
スーザン・モスクワ 元ウェブマスター トレンド アナリストGoogle
DYK Google には重複コンテンツのペナルティがありません。
ゲイリー・イリーズ ウェブマスター トレンド アナリストGoogle
しかし、これは完全に真実ではありません。コンテンツの重複が偶然であり、検索結果の意図的な操作やスパム行為の結果ではない場合、ペナルティを受けることはありません。もしそうなら、そうするかもしれません。
Google は以下のことを確認しています。
まれに、ランキングを操作してユーザーを欺く目的で重複コンテンツが表示されている可能性があると Google が認識した場合、関連するサイトのインデックス作成とランキングを適切に調整します。その結果、サイトのランキングが低下したり、Google インデックスからサイトが完全に削除されたりする可能性があり、その場合、そのサイトは検索結果に表示されなくなります。
問題は、何が「ランキングを操作してユーザーを欺く意図」とみなされるのかということです。
Google には、それに関する多くの情報がここにあります。しかし、基本的には次のようなものです。
- 多数の重複コンテンツを含む複数のページ、サブドメイン、またはドメインを意図的に作成する。
- スクレイピングしたコンテンツを多数公開する
- Amazon または他のサイトから収集したアフィリエイト コンテンツを公開します (追加の価値はありません)
ただし、上で説明したように、ペナルティがなくても、重複コンテンツは SEO に悪影響を与える可能性があります。
重複コンテンツの一般的な原因
コンテンツが重複する原因は 1 つだけではありません。沢山あります。
ファセット/フィルタリングされたナビゲーション
ファセット ナビゲーションでは、ユーザーがページ上のアイテムをフィルタリングおよび並べ替えることができます。eコマースウェブサイトではよく使われています。
この種のナビゲーションでは、URL の末尾にパラメータが追加されます。
通常、これらのフィルターの組み合わせは多数あるため、ファセット ナビゲーションでは多くの場合、重複または重複に近いコンテンツが多数生成されます。
たとえば、次の 2 つのページを見てください。
bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=チェックあり bbclothing.co.uk/en-gb/clothing/shirts.html?Size=S&new_style=チェックあり
URL は異なりますが、内容はほぼ同じです。
さらに、パラメーターの順序は多くの場合重要ではありません。たとえば、次の両方の URL から同じページにアクセスできます。
bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=チェック&サイズ=XL bbclothing.co.uk/en-gb/clothing/shirts.html?サイズ=XL&new_style=チェック
この問題を解決する方法
ファセット ナビゲーションは複雑な獣です。これが重複コンテンツの問題の原因であると思われる場合は、この記事をお読みください。
追跡パラメータ
パラメータ化された URL は追跡目的にも使用されます。たとえば、UTM パラメータを使用して、Google Analytics のニュースレター キャンペーンからの訪問を追跡できます。
例: example.com/page?utm_source=ニュースレター
この問題を解決する方法
パラメータを追跡せずに、パラメータ化された URL を SEO 対応バージョンに正規化します。
セッションID
セッション ID には、訪問者に関する情報が保存されます。通常、次のように長い文字列を URL に追加します。
例: example.com?sessionId=jow8082345hnfn9234
この問題を解決する方法
URL を SEO 対応バージョンに正規化します。
HTTPS と HTTP、および非 www と www
ほとんどの Web サイトには、次の 4 つのバリエーションのいずれかでアクセスできます。
- https://www. example.com (HTTPS、www)
- https://example.com (HTTPS、非www)
- http://www. example.com (HTTP、www)
- http:// example.com (HTTP、www 以外)
HTTPS を使用している場合は、最初の 2 つのうちの 1 つになります。www バージョンか非 www バージョンかはあなたの選択です。
ただし、サーバーを正しく構成しないと、これらのバリエーションの 2 つ以上でサイトにアクセスできます。これは良くなく、重複コンテンツの問題が発生する可能性があります。
この問題を解決する方
リダイレクトを使用して、 Web サイトに 1 つの場所からのみアクセスできるようにします。
大文字と小文字を区別する URL
Google は URL の大文字と小文字を区別します。
サイドノート。 これは 、すべての URL を小文字として扱う Bing には当てはまらないようです。
つまり、これら 3 つの URL はすべて異なるということです。
- example.com/ページ
- example.com/ページ
- example.com/pAgE
この問題を解決する方法
内部リンクと一貫性を保ちます (つまり、複数のバージョンの URL に内部リンクしないでください)。それでも問題が解決しない場合は、いつでも正規化またはリダイレクトできます。
末尾のスラッシュと末尾以外のスラッシュ
Google は、URL の末尾にスラッシュがある場合とない場合を一意のものとして扱います。つまり、これら 2 つの URL は Google の目には一意であるということになります。
- example.com/ページ/
- example.com/ページ
両方の URL からコンテンツにアクセスできる場合、コンテンツの重複の問題が発生する可能性があります。
これが問題かどうかを確認するには、末尾のスラッシュがある場合とない場合のページをロードしてみてください。理想的には、1 つのバージョンのみがロードされます。もう一方はリダイレクトします。
たとえば、末尾にスラッシュを付けずにこの投稿を読み込もうとすると、末尾にスラッシュが付いている URL にリダイレクトされます。
Google は、この動作が理想的であると述べています。
1 つのバージョンのみを返すことができる (つまり、他のバージョンがそのバージョンにリダイレクトする) 場合、それは素晴らしいことです。この動作は重複コンテンツを減らすため有益です。
この問題を解決する方法
望ましくないバージョン(たとえば、末尾のスラッシュなし)を望ましいバージョン(たとえば、末尾のスラッシュあり)にリダイレクトします。また、内部リンクとの一貫性を保つようにする必要もあります。末尾にスラッシュを含むバージョンにリンクしない場合と、そうでないバージョンにリンクしないでください。どれか 1 つを選択して、それを使い続けてください。
印刷に適した URL
印刷用バージョンには、オリジナルと同じ内容が含まれています。違うのはURLだけです。
- example.com/ページ
- example.com/print/page _ _
この問題を解決する方法
印刷用バージョンをオリジナルに正規化します。
モバイルフレンドリーな URL
モバイル フレンドリーな URL は、印刷用 URL と同様に重複します。
- example.com/ページ
- メートル。example.com/ページ
この問題を解決する方法
モバイル対応バージョンをオリジナルに正規化します。rel=“alternate” を使用して、モバイル フレンドリー URL がデスクトップ コンテンツの代替バージョンであることを Google に伝えます。
推奨読書: デスクトップおよびモバイル URL の注釈
AMP URL
Accelerated Mobile Pages (AMP) は重複しています。
- example.com/ページ
- example.com/ amp /page
この問題を解決する方法
AMP バージョンを非 AMP バージョンに正規化します。rel="amphtml"
AMP URL が非 AMP コンテンツの代替バージョンであることを Google に伝えるために使用します。
AMP コンテンツのみがある場合は、自己参照の正規タグを使用します。
推奨読書: ページを見つけやすくする – amp.dev
タグページとカテゴリーページ
ほとんどの CMS は、タグを使用するときに専用のタグ ページを作成します。
たとえば、オーガニック ホエイ プロテインに関する記事があり、「プロテイン パウダー」と「ホエイ」の両方をタグとして使用すると、次のような 2 つのタグ ページが作成されます。
Calton Nutrition | The Best in Micronutrient Information and ProductsThe Best In Micronutrient Information and Products
それ自体が常に重複コンテンツを引き起こすわけではありませんが、重複コンテンツが発生する可能性があります。
この場合は、サイト上にこれら 2 つのタグを持つページが 1 つだけあるため、各タグ ページは同一になります。
この問題を解決する方法
2 つのオプション:
- タグは使用しないでください。 ほとんどの場合、それらにはほとんど価値がありません。
- タグページのインデックスを作成しません。Google は依然としてこれらのページのクロールに時間を無駄にするため、これではクロール予算の問題は解決されません。
カテゴリ ページでは、タグ ページと同様の問題が発生する可能性があることに注意してください。適例:
https://www.xs-stock.co.uk/アディダス/ https://www.xs-stock.co.uk/brands/Chelsea-FC.html
どちらのカテゴリにも製品がリストされていないため、これらのページは両方ともほぼ同じです。したがって、残っているのは定型テンプレートのコピーだけです。
この問題は、サイト上で適切な数のカテゴリを使用するか、 カテゴリ ページのインデックスを作成しないことで解決します。
添付画像のURL
多くの CMS は、画像添付用の専用ページを作成します。これらのページには通常、画像と定型文のコピーのみが表示されます。
このコピーはすべての自動生成ページで同じであるため、コンテンツの重複が発生します。この問題を解決する方法
CMS の画像専用ページを無効にします。WordPress では、Yoast などのプラグインを使用してこれを行うことができます 。
ページ分割されたコメント
WordPress やその他の CMS では、ページ分割されたコメントが可能です。これにより、同じ URL の複数のバージョンが事実上作成されるため、コンテンツの重複が発生します。
- example.com/post/
- example.com/post/comment-page-2
- example.com/post/comment-page-3
この問題を解決する方法
コメントのページ分割をオフにするか、 Yoast などのプラグインを使用してページ分割されたページのインデックスを付けません。
ローカリゼーション
同じ言語を話す異なるロケールの人々に同様のコンテンツを提供すると、コンテンツの重複が発生する可能性があります。
たとえば、米国、英国、オーストラリアの人々向けにサイトの異なるバージョンを用意するとします。各ロケールに提供されるコンテンツ間にはおそらくわずかな違いしかないため (たとえば、ドルでの価格と英ポンドでの価格など)、バージョンはほぼ重複します。サイドノート。 John Mueller 氏によると、
この問題を解決する方法
hreflang タグを使用して 、バリエーション間の関係を検索エンジンに伝えます。
検索結果ページ
多くの Web サイトには検索ボックスがあります。これらを使用すると、通常、パラメータ化された検索 URL が表示されます。
例: example.com?q=検索用語
Google の元ウェブスパム責任者マット・カッツ氏は次のように述べています 。
通常、Web 検索結果はユーザーに価値を付加しません。私たちの主な目標は可能な限り最高の検索結果を提供することであるため、通常、Web 検索インデックスから検索結果を除外します。(もちろん、「/results」や「/search」などを含むすべての URL が検索結果になるわけではありません。)
マット・カッツ Googleの元ウェブスパム責任者
この問題を解決する方法
robots メタ タグを使用して、Google のインデックスから検索ページを削除したり、 robots.txt内の検索結果ページへのアクセスをブロックしたりできます。検索結果ページへの内部リンクは控えてください。
ステージング環境
ステージング環境は、テスト目的で使用されるサイトの複製または複製に近いバージョンです。
たとえば、新しいプラグインをインストールするか、Web サイト上のコードを変更するとします。毎日何十万人もの訪問者がいるライブ サイトにそれを直接プッシュしたくないかもしれません。大惨事のリスクが高すぎます。解決策は、最初にステージング環境で変更をテストすることです。
ステージング環境は、コンテンツが重複するため、Google がインデックスに登録すると SEO の問題になります。この問題を解決する方法
HTTP 認証、IP ホワイトリスト、または VPN アクセスを使用してステージング環境を保護します。すでにインデックスが作成されている場合は、robots noindex ディレクティブを使用して削除します。
サイト上の重複コンテンツを確認する方法
Ahrefs の Site Auditに移動し 、クロールを開始します。
完了したら、コンテンツ品質 レポートに進みます。
正規化されていない重複および重複に近いクラスターを探します。これらはオレンジ色で強調表示されます。
これらのクラスターのいずれかをクリックすると、影響を受けるページが表示されます。
コンテンツが重複している理由を調査し、適切な措置を講じてください。
これらは、特にほぼ重複している場合には、常に修正が必要な問題ではないことに注意してください。
AHREFS ユーザーではありませんか?
Google Search Console で次の重複コンテンツ関連の警告を探してください。
- ユーザーが選択した正規を使用せずに複製する
- 重複しています。Google はユーザーとは異なる正規を選択しました
- 重複して送信された URL が正規として選択されませんでした
これらの警告に対処する方法の詳細については、こちらをご覧ください。
Google が特定の URL をどのように扱うかを確認するには、URL 検査ツール を使用します。
HTML タグレポートで重複したタイトル タグ、メタ ディスクリプション、および H1をチェックすることもできます。
探しているのは不正な重複です。これらは重複したメタタグを持つページですが、正規性は異なります。
HTML タグとコンテンツの下にある [不正な重複] トグルをクリックして、これらを選択します。
黄色のバーのいずれかをクリックすると、影響を受けるページが表示されます。
重複したタイトル、メタディスクリプション、または H1 を持つページは、多くの場合、非常に似ています。
例えばこの2つはタイトルタグも同じですし、商品も同じなので内容もほぼ同じです。唯一の違いは、ページの 1 つはインスタント ライティング ファイアログ 3 パック用で、もう 1 つは 1 つだけ用であることです。
https://www.xs-stock.co.uk/big-k-instant-light-the-wrapper-firelog-3-pack-camp-fire-fuel/https://www.xs-stock.co. uk/big-k-instant-light-the-wrapper-firelog-camp-fire-chiminea/
Google は、 次のように同様のコンテンツを最小限に抑える必要があると述べています。
類似したページが多数ある場合は、各ページを拡張するか、ページを 1 つに統合することを検討してください。
ただし、類似したページが少数であっても、それほど問題になる可能性は高くありません。
Web 全体で重複コンテンツの問題を確認する方法
コンテンツのスクレイピングとシンジケーションによっても、コンテンツの重複の問題が発生する可能性があります。ただし、通常、それが問題になるのは、コンテンツのスクレイピング バージョンが上位に表示された場合のみです。
そんなことありますか?はい、しかし、多くの場合、新しい Web サイトや弱い Web サイトではより問題が大きくなります。なぜ?コンテンツをスクレイピングしているサイトのほうが権威があることが多いからです。これにより、Google が自分のものがオリジナルであると「騙されて」しまうことがあります。
小規模な Web サイトの場合は、引用符で囲まれたページのテキストのスニペットを Google で検索すると、スクレイピングされたコンテンツを見つけることができます。
大規模なサイトの場合は、 Copyscapeなどの自動ツールを使用する必要があります。これにより、Web 上でページ上の他のコンテンツが検索されます。
どちらの方法を使用しても、ほとんどの結果はスパムのような低品質のサイトからのものになります。
一般的に言って、これらは心配する必要はありません。ただし、正規の Web サイトがコンテンツをスクレイピングしたことがわかり、トラフィックが盗まれているのではないかと懸念する場合は、その URL をAhrefs のサイト エクスプローラーにスローして 、オーガニック トラフィックの推定値を確認してください。
ページよりもトラフィックが多い場合は、問題がある可能性があります。
この場合、次の 3 つのオプションがあります。
- 連絡してコンテンツを削除するようリクエストしてください。
- 連絡して、あなたのサイト上のオリジナルへの正規リンクを追加するようリクエストしてください。
- Google 経由でDMCA 削除 リクエストを送信します。
意図的に他の Web サイトにコンテンツを配信する場合は、元の Web サイトに正規リンクを追加するよう依頼する価値があります。これにより、重複コンテンツの問題のリスクが排除されます。
自分のサイトでコンテンツを再公開しますか?
サイト上で他のユーザーのコンテンツを再公開する場合、重複コンテンツの問題を防ぐには 2 つの方法があります。
- 正規化してオリジナルに戻します。
- ページのインデックスを付けません。
まとめ
重複したコンテンツについてあまりストレスを感じないでください。通常、それは考えられているほど問題ではありません。
重複するページ、または重複に近いページが少数ある場合は、大きな問題が発生する可能性は高くありません。別の Web サイトまたはサイト上の他のページからコンテンツを引用する場合も同様です。少量の重複コンテンツや定型コンテンツは問題ありません。Google にはそのような問題に対処するためのシステムが用意されています。
気をつけなければならないのは、e コマース サイトでのファセット ナビゲーションの不適切な実装など、数百ページまたは数千ページの重複コンテンツの生成につながる技術的な SEO の事故です。
これらは、とりわけクロール バジェットに大打撃を与える可能性があります。
著者プロフィール
重複したコンテンツに問題がある場合は、コメントまたはTwitterでお知らせください。
Joshua Hardwick
コンテンツ責任者 @ Ahrefs (平たく言えば、私は私たちが公開するすべてのブログ投稿が EPIC であることを保証する責任を負っています)。
コメント