robotsメタタグとx-robotsタグ: 知っておくべきこと

テクニカルSEO

この記事はAhrefs公式ブログの日本語訳です。
原文:<Robots Meta Tag & X-Robots-Tag: Everything You Need to Know
(著者:<Michal Pecánek>/ 原文の最終更新日:<November 25, 2022>)
※フルスピード註:この記事は2022年11月25日時点の記載をもとに翻訳しています。Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。

検索エンジンが希望どおりに Web サイトをクロールしてインデックスを作成できるようにするのは、困難な作業となる場合があります。robots.txt は、クローラーに対するコンテンツのアクセシビリティを管理しますが、コンテンツのインデックスを作成する必要があるかどうかはクローラーに指示しません。

これが robots メタ タグと x-robotsタグ HTTP ヘッダーの目的です。

最初から一つだけはっきりさせておきましょう。robots.txt ではインデックス作成を制御できません。それはよくある誤解です。

robots.txt の noindex ルールは、Google によって正式にサポートされたことはありません。そして 2019 年 7 月に、これは正式に非推奨になりました。

テクニカル SEO は初めてですか? 私たちをチェックしてください
テクニカル SEO の初心者ガイド

robotsメタタグとは何ですか?

robots メタ タグは、検索エンジン ロボットに特定のページで何ができるか、何ができないかを伝える HTML スニペットです。これにより、クロール、インデックス作成、およびそのページの情報が検索結果にどのように表示されるかを制御できます。Web ページの <head> セクションに配置されます。

<meta name="robots" content="noindex, nofollow">

robots メタタグが SEO にとって重要なのはなぜですか?

メタ robots タグは、検索結果にページが表示されないようにするためによく使用されますが、他の用途もあります (詳細は後ほど)。

検索エンジンによるインデックス作成を禁止したいコンテンツにはさまざまな種類があります。

  • ユーザーにとって価値がほとんどまたはまったくない薄いページ。
  • ステージング環境のページ。
  • 管理者ページとサンキューページ。
  • 内部検索結果。
  • PPC ランディング ページ。
  • 今後のプロモーション、コンテスト、製品の発売に関するページ。
  • 重複したコンテンツ (正規のタグを使用して 、インデックス作成に最適なバージョンを提案します)。

一般に、Web サイトが大規模になればなるほど、クロール可能性とインデックス付けの管理に取り組むことも多くなります。また、Google やその他の検索エンジンがページをできるだけ効率的にクロールしてインデックスに登録できるようにしたいと考えています。ページレベルのディレクティブをrobots.txtおよびサイトマップと正しく組み合わせることが SEO にとって重要です。

robots メタタグの値と属性は何ですか?

robotsメタ タグは、 name とcontentの 2 つの属性で構成されます。

 これらの各属性の値を指定する必要があります。これらが何であるかを調べてみましょう。

name属性 とユーザーエージェントの値

name属性は どのクローラーがこれらの指示に従うべきかを指定します。ページを要求するにはクローラーを UA で識別する必要があるため、この値はユーザー エージェント (UA) とも呼ばれます。UA は使用しているブラウザを反映しますが、Google のユーザー エージェントは、たとえばGooglebotや Googlebot-image です。

UA 値「ロボット」はすべてのクローラーに適用されます。必要な数のロボット メタ タグを <head> セクションに追加することもできます。たとえば、Google または Bing の画像検索で画像が表示されないようにするには、次のメタ タグを追加します。

<meta name="googlebot-image" content="noindex">

<meta name="MSNBot-Media" content="noindex">

サイドノート。name 属性と content 属性はどちらも大文字と小文字が区別されません。「Googlebot-Image」、「msnbot-media」、および「Noindex」属性も上記の例で機能します。 

content属性とクロール/インデックス作成ディレクティブ

content属性は ページ上の情報をクロールしてインデックスを作成する方法についての指示を提供します。利用可能なロボット メタ タグがない場合、クローラーはそれをインデックスとして解釈し、追跡します。これにより、検索結果にページを表示し、ページ上のすべてのリンクをクロールする権限が付与されます ( rel=”nofollow” タグで特に指定されていない限り)。

 Google がサポートするcontent属性の値は次のとおりです。

all

デフォルト値の「index, follow」なので、このディレクティブを使用する必要はありません。

<meta name="robots" content="all">

noindex

検索エンジンにページのインデックスを作成しないよう指示します。これにより、検索結果に表示されなくなります。

<meta name="robots" content="noindex">

nofollow

ロボットがページ上のすべてのリンクをクロールするのを停止します。これらの URL は、特にそれらを指すバックリンクがある場合、インデックス可能な可能性があることに注意してください。

<meta name="robots" content="nofollow">

none

noindex と nofollowの組み合わせ。他の検索エンジン ( Bingなど) はこれをサポートしていないため、これを使用しないでください。

<meta name="robots" content="none">

noarchive

Google がページのキャッシュされたコピーを SERP に表示しないようにします。

<meta name="robots" content="noarchive">

notranslate

Google が SERP 内のページの翻訳を提供できないようにします。

<meta name="robots" content="notranslate">

noimageindex

Google がページに埋め込まれた画像をインデックスに登録しないようにします。

<meta name="robots" content="noimageindex">

unavailable_after:

指定された日付/時刻以降は検索結果にページを表示しないように Google に指示します。基本的に はタイマーを備えたnoindexディレクティブです。日付/時刻はRFC 850 形式を使用して指定する必要があります。

<meta name="robots" content="unavailable_after: Sunday, 01-Sep-19 12:34:56 GMT">

nosnippet

SERP内のすべてのテキストとビデオのスニペットをオプトアウトします。 同時にnoarchiveとしても機能します。

<meta name="robots" content="nosnippet">

重要な注意点

2019 年 10 月以降、Google は 検索結果にスニペットを表示するかどうか、またその方法を制御するためのより詳細なオプションを提供しています。これは部分的には、フランスが新しい著作権法で最初に施行した欧州著作権指令によるものです。

重要なことは、この法律はすでにすべての Web サイト所有者に影響を及ぼしているということです。どうやって?新しいロボット メタ タグを使用してオプトインしない限り、Google はフランスのユーザーにサイトのスニペット (テキスト、画像、ビデオ) を表示しなくなるためです。

これらの新しいタグがそれぞれどのように機能するかについては、以下で説明します。ただし、これがあなたのビジネスに関係しており、迅速な解決策を探している場合は、次の HTML スニペットをサイトのすべてのページに追加して、スニペットに制限を設けないことを Google に伝えます。

<meta name="robots" content=”max-snippet:-1, max-image-preview:large, max-video-preview:-1">

Yoast SEO を使用している場合、noindex またはnosnippetディレクティブ を追加しない限り、このコード部分はすべてのページに自動的に追加されることに注意してください。

max-snippet:

Google がテキスト スニペットに表示できる最大文字数を指定します。0 を使用するとテキスト スニペットがオプトアウトされ、-1 を使用するとテキスト プレビューに制限がないことが宣言されます。

次のタグは、制限を 160 文字に設定します (標準のメタディスクリプションの長さと同様)。

<meta name="robots" content="max-snippet:160">

max-image-preview:

画像スニペットに使用できる画像のサイズとサイズを Google に通知します。このディレクティブには、次の 3 つの値が可能です。

  • none 画像スニペットは表示されません
  • 標準 – デフォルトの画像プレビューが表示される場合があります
  • 大 – 可能な限り最大の画像プレビューが表示されます。

<meta name="robots" content="max-image-preview:large">

Google Discoverで紹介される可能性が高まるため、幅 1200 ピクセル以上の画像とともに大きな値を使用することをお勧めします。

max-video-preview:

ビデオ スニペットの最大秒数を設定します。テキスト スニペットと同様に、0 は完全にオプトアウトし、-1 は制限を設けません。

次のタグを使用すると、Google は最大 15 秒を表示できます。

<meta name="robots" content="max-video-preview:15">

DATA-NOSNIPPET HTML 属性の使用に関する簡単なメモ

2019 年 10 月に導入された新しいロボット ディレクティブに加えて、Google は data-nosnippet HTML 属性も導入しました。これを使用して、Google にスニペットとして使用されたくないテキストの部分にタグを付けることができます。

これは、HTML の div、span、section 要素で実行できます。data-nosnippet はブール属性とみなされ、値の有無にかかわらず有効であることを意味します。

<p>これは、スニペットとして表示できる段落内の一部のテキストです<span data-nosnippet>この部分を除く</span></p>
<div data-nosnippet>これはスニペットには表示されません</div><div data-nosnippet="true">これも表示されません</div>

nositelinkssearchbox

Google がサイトリンクの一部として検索ボックスを表示しないようにします。

<meta name="robots" content="nositelinkssearchbox">

indexifembedded

Google が、noindex ディレクティブを使用して、ページ上の iframe または同様の HTML タグを通じて埋め込まれたコンテンツをインデックスに登録できるようにします。次のように、両方のディレクティブが存在する場合にのみ機能します。

<meta name="robots" content="noindex, indexifembedded">

Google のドキュメントでは、ここでの使用例がわかりやすく説明されています。

これらのディレクティブの使用

ほとんどの SEO は noindex および nofollow ディレクティブを超える必要はありませんが、他のオプションがあることを知っておくと良いでしょう。ここで説明するすべてのディレクティブは、Google がサポートしている内容に基づいていることに注意してください。他の検索エンジンに固有のディレクティブがいくつかありますが、詳しく調べる価値はありません。

Bing との比較を確認してみましょう。

複数のディレクティブを一度に使用したり、組み合わせたりできます。ただし、それらが競合する場合(例:「noindex、index」)、または一方が他方のサブセットである場合(例:「noindex、noarchive」)、Google は最も制限の厳しい方を使用します。このような場合は、単に「noindex」になります。

サイドノート。 スニペット ディレクティブは、 Google がアノテーション内のあらゆる情報を使用できるようにする構造化データによってオーバーライドされる場合があります。Google がスニペットを表示しないようにするには、それに応じて注釈を調整し、Google とライセンス契約を結んでいないことを確認してください。

robotsメタタグの設定方法

これらすべてのディレクティブの機能と外観がわかったので、次は Web サイトに実際に実装してみましょう。

robotsメタ タグは、<head>  ページのセクションに属します。Notepad++ や Brackets などの HTML エディタを使用してコードを編集する場合は、非常に簡単です。しかし、SEO プラグインを備えた CMS を使用している場合はどうなるでしょうか?

最も人気のあるオプションに焦点を当てましょう。

Yoast SEOを使用してWordPressにrobotsメタタグを実装する

各投稿またはページの編集ブロックの下にある「詳細」セクションに移動します。必要に応じてrobotsメタタグを設定します。次の設定では、「noindex、nofollow」ディレクティブが実装されます。

「Meta robots Advanced」行では、 noindex とnofollow以外のディレクティブ ( noimageindexなど)を実装するオプションが提供されます。

これらのディレクティブをサイト全体に適用するオプションもあります。Yoastメニューの「外観の検索」に移動します。そこでは、すべての投稿、ページ、または特定の分類法やアーカイブのみにメタrobots タグを設定できます。

サイドノート。Yoast は、WordPress でメタロボットタグを制御する唯一の方法ではありません。同様の機能を備えたWordPress SEO プラグインは他にもたくさんあります 。 

X-Robotsタグ とは何ですか?

robots メタ タグは、 あちこちの HTML ページにnoindexディレクティブを実装するのに適しています。しかし、検索エンジンが画像や PDF などのファイルのインデックスを作成しないようにしたい場合はどうすればよいでしょうか? ここで、x-robotsタグ が活躍します。

X-Robotsタグ は、Web サーバーから送信される HTTP ヘッダーです。メタ ロボット タグとは異なり、ページの HTML には配置されません。これは次のようになります。

HTTP ヘッダーをチェックする最も簡単な方法は、無料のAhrefs SEO ツールバー ブラウザ拡張機能を使用することです。HTTP ヘッダー タブに移動して、X-Robotsタグ が存在するかどうかを確認してください。

X-Robotsタグ の設定方法

構成は、使用している Web サーバーのタイプと、どのページまたはファイルをインデックスから除外するかによって異なります。

コード行は次のようになります。

Header set X-Robots-Tag “noindex, nofollow”

この例では、最も普及しているサーバー タイプである Apache を考慮しています。HTTP ヘッダーを追加する最も現実的な方法は、メインの構成ファイル (通常はhttpd.conf ) または.htaccess ファイルを変更することです。おなじみですね? ここはリダイレクトも発生する場所です 。

x-robotsタグ には、メタ robots タグと同じ値とディレクティブを使用します。とはいえ、これらの変更の実装は経験豊富な人に任せるべきです。小さな構文エラーでも Web サイト全体が破損する可能性があるため、バックアップは非常に役立ちます。

プロのヒント
Edge SEO のサーバーレス アプリケーションをサポートする CDN を使用する場合、基盤となるコードベースを変更せずに、エッジ サーバー上のロボット メタ タグと X-Robotsタグ の両方を変更できます。

robots メタ タグと x-robotsタグ をいつ使用するか?

HTML スニペットを追加するのが最も簡単で簡単なオプションのように見えますが、場合によっては不十分です。

非 HTML ファイル

HTML スニペットを PDF や画像などの非 HTML ファイルに配置することはできません。X-Robotsタグ が唯一の方法です。

次のスニペット (Apache サーバー上) は、 サイト上のすべての PDF ファイルにnoindex HTTP ヘッダーを構成します。

<ファイル ~ "\.pdf$">
ヘッダー セット X-Robots-Tag "noindex"
</ファイル>

ディレクティブを大規模に適用する

(サブ) ドメイン全体、サブディレクトリ、特定のパラメータを含むページ、または一括編集が必要なその他のすべてのインデックスを作成しない必要がある場合は、x-robotsタグ を使用します。簡単です。

HTTP ヘッダーの変更は、正規表現を使用して URL およびファイル名と照合できます。検索および置換機能を使用して HTML で複雑な一括編集を行うには、通常、より多くの時間と計算能力が必要になります。

Google 以外の検索エンジンからのトラフィック

Google はメタ ロボット タグと x-robotsタグ の両方をサポートしていますが、これはすべての検索エンジンに当てはまるわけではありません。

たとえば、チェコの検索エンジンである Seznam は、ロボットのメタ タグのみをサポートしています。この検索エンジンがページをクロールしてインデックスを作成する方法を制御したい場合、x-robotsタグ を使用しても機能しません。HTML スニペットを使用する必要があります。

クロール可能性とインデックス(インデックス解除)の間違いを回避する方法

重要なページをすべて表示し、重複したコンテンツや問題を回避し、特定のページをインデックスから除外したいと考えています。巨大な Web サイトを管理している場合は、クロール予算の 管理にも注意を払う必要があります。

ロボットのディレクティブに関して人々が犯す最も一般的な間違いを見てみましょう。

間違い #1: robots.txt で禁止されているページに noindex ディレクティブを追加する

robots.txt でインデックスを解除しようとしているコンテンツのクロールを絶対に禁止しないでください。そうすることで、検索エンジンがページを再クロールして noindex ディレクティブを検出するのを防ぎます。

過去に同じ間違いを犯したかもしれないと思われる場合は、Ahrefs ウェブマスター ツールを無料で使用してサイトをクロールしてください。「Noindex ページがオーガニック トラフィックを受信します」エラーが発生するページを探します。

オーガニックトラフィックを受信するインデックスが作成されていないページは、明らかに依然としてインデックスが作成されています。noindex タグを最近追加していない場合は、robots.txt ファイル内のクロール ブロックが原因である可能性があります。問題を確認し、必要に応じて修正します。

間違い #2: 不適切なサイトマップ管理

 メタ ロボット タグまたは x-robotsタグ を使用してコンテンツのインデックスを解除しようとしている場合は、インデックスが正常に解除されるまでサイトマップからコンテンツを削除しないでください。そうしないと、Google によるページの再クロールが遅くなる可能性があります。

インデックス解除プロセスをさらに高速化するには、サイトマップの lastmod の日付を noindex タグを追加した日付に設定します。これにより、再クロールと再処理が促進されます。

サイドノート。 Johnはここで 404 ページについて話しています。そうは言っても、これは、noindex ディレクティブを追加または削除するときなど、他の変更にも意味があると想定しています。 

重要な注意点

長期的には、インデックスのないページをサイトマップに含めないでください。コンテンツのインデックスが解除されたら、サイトマップからコンテンツを削除します。

インデックスが正常に解除された古いコンテンツがサイトマップにまだ存在しているのではないかと心配な場合は、Ahrefs ウェブマスター ツールで「サイトマップにインデックス ページがありません」エラーを確認してください。

間違い #3: noindex ディレクティブを実稼働環境から削除していない

ロボットがステージング環境内のあらゆるものをクロールしたりインデックスを作成したりしないようにすることをお勧めします。ただし、場合によっては本番環境にプッシュされ、忘れられ、オーガニック トラフィックが激減することがあります。

さらに悪いことに、301 リダイレクトを使用したサイト移行に関与している場合、オーガニック トラフィックの減少はそれほど目立たない可能性があります。新しい URL に noindex ディレクティブが含まれているか、robots.txt で禁止されている場合でも、しばらくの間は古い URL からオーガニック トラフィックを受信することになります。Google が古い URL のインデックスを解除するには、最大で数週間かかる場合があります。

Web サイトにそのような変更がある場合は、インデックス作成可能性レポートの noindex 警告に注意してください。

今後同様の問題が発生するのを防ぐために、運用環境に移行する前に、robots.txt および noindex ディレクティブから禁止ルールを削除する手順を開発チームのチェックリストに充実させてください。

間違い #4: noindex を作成せずに、robots.txt に「シークレット」URL を追加する

開発者は、サイトの robots.txt ファイルで今後のプロモーション、割引、製品の発売に関するページへのアクセスを禁止することで、それらのページを非表示にしようとすることがよくあります。人間は依然として robots.txt ファイルを閲覧できるため、これは悪い習慣です。そのため、これらのページは簡単に漏洩します。

この問題を修正するには、「秘密」ページを robots.txt から除外し、インデックスを作成しないようにします。

まとめ

Web サイトのクロールとインデックス作成を適切に理解し、管理することが SEO の基礎です。それほど複雑なことは何もありません。そうですね、少なくともテクニカル SEOの分野の他の難しいものと比較すると。

長期的なソリューションのベスト プラクティスを大規模に適用する準備ができたことを願っています。

何か質問はありますか?Twitterでお知らせください。

著者

Michal Pecánek

6年以上の経験を持つSaaS SEOコンサルタント。フリーランスになる前、Michal は Ahrefs で SEO およびマーケティングの教育者としてブログのコンテンツを作成し、ゲスト ライターのチームを管理していました。

ブログ Twitter Linked in

  • ・Google検索で上位表示されたい
  • ・Webサイトへのアクセスを増加させたい
  • ・お問い合わせのCVを向上、改善したい
  • ・自社でSEO施策をしていたが、効果がなかなか現れない

Ahrefsのオフィシャル紹介パートナーであるフルスピードは、上記のようにWebサイト改善をしたいと思っている方に向けて、SEOコンサルティングサービスを提供しています。

数多くのWebサイトの改善に従事しているコンサルタントが、お客様のWebサイトを調査し、改善方法をご提案いたします。

お気軽にご相談ください!

テクニカルSEO
シェアする
AhrefsJapanをフォローする
Ahrefsブログ- 使えるSEO情報をお届け | SEOの被リンク分析・競合調査ツール

コメント

WP Twitter Auto Publish Powered By : XYZScripts.com
タイトルとURLをコピーしました