Ahrefsがリンクとドメインをカウントする方法

データと研究

この記事はAhrefs公式ブログの日本語訳です。
原文:How Ahrefs Counts Links and Domains
(著者:Patrick Stox、Reviewed by Joshua Hardwick / 原文の最終更新日:January 12, 2021)
※フルスピード註:この記事は2021年1月12日時点の記載をもとに翻訳しています。Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。

すべてのバックリンク ツールは異なるリンクを保存します。

Web のインデックスを構築する場合、企業はデータのクロール、解析、インデックス作成に関して多くの選択を行う必要があります。インデックス間には多くの重複が見られますが、各企業の決定によっては多少の違いも出るでしょう。

透明性の名において、私たちは Ahrefs のリンクインデックスについて人々にもっと知ってもらいたいと考えています。

そもそも、リンクとは何か?

リンクを (※)クリックすると、ユーザーはある Web ページから別の Web ページに移動します。リンクの作成方法は多数ありますが、最も一般的な方法は、<a>href 属性を持つ従来の HTML 要素です。

<a href="url">link text</a>

ただし、次のような他の要素とのリンクを作成することは可能です。

  • Onclick
  • Button
  • Ng-click
  • Option/value
  • などなど…

※フルスピード注:日本語翻訳版記事「被リンクとは?被リンクをより多く得る方法を解説」はこちら。

どのリンクがインデックスに登録されるのか?

理想的な世界では、リンクとして機能するものはすべて保存されます。残念ながら、私たちは理想的な世界に住んでいません。各ページをロードして、すべてのリンクをクリックするのは効率的なプロセスではないため、Ahrefs も Google もすべての種類のリンクを保存しているわけではありません。ユーザーにとって機能するすべてのリンクを見つけたい場合は、まさにこの作業を行う必要があります。

代わりにクローラーは通常、ページをフェッチし、場合によってはそれらをレンダリングし、さまざまな種類のリンクを抽出して保存します。クローラーはすべて動作が異なるため、Ahrefsの場合はどのように作業を行っているかについて話しましょう。

Ahrefs社が保管するリンク

Ahrefsのリンクインデックスに保存されるリンクの種類は次のとおりです。

外部リンク

href 属性を持つクラシック HTML <a>要素を使用して作成された、ある Web サイトから別の Web サイトへのリンクです。

内部リンク

Web サイト上のあるページから同じ Web サイトにある別のページへのリンクを、内部リンクと呼びます。私たちのインデックスには 22 兆 2,100 億の内部バックリンクがあります(記事公開時点)。これは、実際の外部リンクの数よりもはるかに広範囲です。Ahrefs社は、カスタムWebサイトクロールなしでこのデータにアクセスできる、唯一の SEO ツールです。Google がPageRank の計算に内部リンク データを使用するの と同様に、URL 評価 (UR)の計算に内部リンクデータを使用します 。

URL を最初にクロールしたときと最後にクロールしたときを確認したい場合は、サイトエクスプローラーの「リンク別ベスト」レポートを確認できます。外部リンクと内部リンクの両方のタブがあります。

Ahrefs社が保管する可能性のあるリンク

状況によってAhrefs社が保存する可能性があるすべてのリンクを以下に紹介します。

JavaScriptで挿入されたリンク

Google はすべてのページをレンダリングするため、JavaScript で挿入されたものの HTML コードには含まれていないリンクをカウントできます。大規模なレンダリングには、ページの HTML をダウンロードするよりもはるかに多くのリソースが必要です。

Ahrefs では、1 日あたり約 8,000 万ページをレンダリングしています。そのため、これらのリンクの一部は JavaScript によって挿入されますが、すべてではありません。現在、Web の定期的なクロール中にレンダリングを行う唯一の SEO ツールであるため、他のツールにはないリンクデータがいくつかあります。

ただし、JavaScript で挿入されたリンクが、 href 属性を持つHTML <a>要素の形式である場合にのみカウントされます。バックリンクレポートでは、次のように、これらのリンクが「JS」としてタグ付けされて表示されます。

URLパラメータを含むページからのリンク

URL パラメータは、 ?tag=something のように URL に追加されます(※)。これらの URL の一部がインデックスに表示される場合がありますが、通常は異なるコンテンツを表示するパラメーターです。多くの場合、パラメーターを含むページには同じコンテンツが表示されます。

Ahrefs社では、URL を正規 バージョンに統合し、無限のクロールパスに対する追加の保護を行うための多くのシステムを導入しています。他のツールでは同じ決定が行われない場合や、同じ保護が導入されていない場合があります。その結果、本質的に同じリンクを何度もカウントする可能性があります。

※フルスピード注:日本語翻訳版記事「URLパラメータ:SEOのための完全ガイド」「canonicalタグ:初心者のための簡単ガイドはこちら。

Ahrefsが保存しないようにしているリンク

以下のリンクは、Ahrefsのインデックスには保存しないように最善を尽くしています。

URLパラメータを含むページからのリンク

上で述べたように、パラメータには良いタイプと悪いタイプがあります。重複したものは保存しないようにしています。

無限のクロールパス内のページからのリンク

これらのパスにより、無限と言える数の可能な URL が作成されます。パラメーターは形成方法の 1 つですが、フィルタ、動的コンテンツ、リンクの壊れた相対パスも同様です。前述したように、この種のページのリンクには多くの保護が設けられており、リンクがレポートに表示される可能性が低くなります。

正規化の尊重とページのクロールの優先順位付けは、これらの保護の 2 つにすぎません。すべてのインデックスはこれらの無限のスペースを処理する必要がありますが、これらのページではリンク数が膨らむ可能性があります。

Ahrefsが保存しないリンク

ここの項目では、私たちが決して保存しないすべてのリンクについて説明しています。

PDF またはその他のドキュメント内リンク

Google は多くのドキュメント形式を HTML に変換し、他のページと同様にインデックスを作成します。これは、これらのドキュメント内のリンクをカウントすることを意味します。現在、これらのリンクをインデックス化している SEO ツールはないと思いますが、おそらくそうすべきでしょう。

いつかそうなると思いますが、それに必要な労力とリソースが無駄になるのではないかとも心配しています。Google ウェブマスター トレンド アナリストのジョン ミューラー氏によると、  PDF 内のリンクはウェブ検索において実質的な効果はありません

iframe内のリンク

iframe を使用すると、ページ内に別のページを表示できます。このため、Ahrefs は iframe 内のリンクをカウントしません。ただし、これらはユーザーに表示されるため、コンテンツが技術的には別のページに属している場合でも、他のツールがそれらをカウントする可能性があります。Google はこれらのリンクをカウントする場合とカウントしない場合があります。

インデックスが作成されていないページからのリンク

これらのリンクは削除します。Google の担当者からは、リンクの計算にこれらを使用するかどうかについてさまざまなメッセージが寄せられています。ツールが異なれば、決定も異なる場合があります。

複数の IP からの同じリンク

Web に関する興味深い事実の 1 つは、サイトが複数の IP アドレスから同じページを提供できることです。この場合、リンクインデックスは同じリンクを複数回カウントする可能性があります。私たちはそんなことはしません。リンクを、そのリンクが置かれているページに関連付けます。

1 つのページから同じページへの複数のリンク

現在、ページ上のリンクのバージョンは 1 つだけ記録されています。メニュー内のページにリンクし、その後本文コンテンツ内に再度リンクした場合、これらのリンクのうち 1 つだけがカウントされます。ユーザーにより多くのデータを提供するために将来これを変更する可能性がありますが、これが現在の状態です。Googleは、PageRankを渡すためにリンクのすべてのバージョンをカウントしますが、使用できるのは 1 つのバージョンのアンカーテキストのみです(※)。

※フルスピード注:日本語翻訳版記事「38万件以上のページを分析!アンカーテキストが検索順位に与える影響とは?」はこちら。

インデックスに影響を与えるその他のリンク関連項目

リンクのカウント方法を理解することは重要ですが、カウントされるものとカウントされないものには他の多くの要素が影響する可能性があります。

ページごとのリンク数

ページごとにカウントするリンクの数に制限はないと思いますが、ページサイズの制限はあり、最終的に表示されるリンクの数に影響を与える可能性があります。Google では、1 ページあたりのリンク数は数千以下にすることを推奨しています。

リダイレクトまたは正規化

Ahrefsでは、すべてのリダイレクトと正規タグを信頼し 、Web サイトから指示されたリンクを統合します(※)。Google の場合、どのページが正規クラスタの先頭であるかを決定する正規化シグナルが多数あるため、これはさらに複雑です。

Google がすべての状況をどのように見ているかを知ることは不可能であり、正規とリダイレクトを毎回異なる方法で扱うとユーザーが混乱する可能性があるため、物事をシンプルにしています。

これらのリンクは、レポート内で次のように「301」、「302」、または「Canonical」でタグ付けされます。

※フルスピード注:日本語翻訳版記事「301リダイレクトの説明:SEOに与える影響」はこちら。

どのドメインがAhrefsのインデックスに登録されるのか?

Ahrefs には、 Web サイトまたは Web ページにリンクしているすべてのドメインを表示する参照ドメインレポートがあります。

しかし、ドメインを正確にカウントするにはどうすればよいでしょうか?

これは簡単に答えられる質問だと思うかもしれません。それはただのdomain.comですよね? 残念ながら、ドメインをカウントする方法は多数あるため、状況は少し複雑になります。1 つのオプションは、登録されているすべてのドメインをドメインとして扱うことです。これは、Google がGoogle Search Consoleで登録したドメインを集約する方法と思われます。

もう 1 つは、すべてのサブドメインを異なるドメインとして扱うことです。サイトの一部のセクションを集約し、他のセクションを集約しない(Google が行っていること)、異なる技術スタックのすべてのセクションを参照するなどの方法もあります。オプションは多数あります。

Ahrefs には、審査後のドメインが約 1 億 7,500 万個あります。精査プロセスには、スパムドメインの削除と、異なるユーザーが異なる領域を制御していると判断されたいくつかのサブドメインの分離が含まれます。これにはカスタム リストを使用しますが、これに似た公開リストがhttps://publicsuffix.org/list/にあります。

ドメイン定義が異なると、参照ドメインに大きなバリエーションが生じる可能性があることに注意することが重要です。以下は、Ahrefsではなく他のサイトが別のドメインとしてカウントする可能性のあるものの例です。

  • モバイル版のサブドメイン(m.domain.com、mobile.domain.com など)
  • 国/言語のサブドメイン(en.domain.com、fr.domain.com、de.domain.com、jp.domain.com など)。wikipedia.org などのインデックスには例外がある場合がありますが、これは標準的な慣行ではありません。
  • ランダムなサブドメイン(support.domain.com、images.domain.com など)

バックリンクツールのプロバイダが決定しなければならないもう 1 つの決定は、一部のサブフォルダを別のドメインとしてカウントするかどうかです。たとえば、ほとんどのリンクインデックスでは、よく知られたプラットフォーム(例: user1.blogspot.com、user2.blogspot.com)上の異なるブログを異なるドメインとしてカウントすると思います。これは、異なるユーザーがブログを制御しているためです。

しかし、medium.com/user1 や github.com/user1 などのサイトに対しても同じことを実行しないのはなぜでしょうか? Ahrefs では、現在これを行っていませんが、サイト上の各サブフォルダを別の人が制御していることが分かっている場合には、将来的に行う可能性があります。

ここで重要なのは、ドメインをカウントする方法はたくさんあるということです。それは、インターネット上のサイトをカウントする企業のさまざまな数字を見れば明らかです。Verisign によると、2020 年第 3 四半期にはすべての TLD で 3 億 7,070 万の登録ドメインがあります。Netcraft によると、2020 年 11 月時点で、2 億 6,378 万 7,870 の固有ドメインに 1,2 億 2,994 万 8,224 のサイトがあり、1 億 9,380 万のアクティブなサイトがあります。Internet Live Stats によると、約 18 億の Web サイトがあり、現在アクティブな Web サイトは 2 億未満です。各企業は明らかに、ドメインのカウント方法が異なります。

要約すると、Ahrefs で行っていることは、私たちが知っているすべてのサイトを取得し、多くのスパム ドメインや非アクティブなドメインを削除し、blogspot.com などのサイトのサブドメインにいくつか追加することです。これにより、ドメインの総数は約 1 億 7,500 万に達しました。他のインデックスではこれが異なる方法で行われ、異なるカウントが得られる場合があります。

すべてのリンクが表示されない理由

バックリンクはウェブをクロールして見つけるため、クロールが許可されているサイトでのみバックリンクを見つけることができます。サイト所有者がrobots.txt ファイルで AhrefsBot をブロックすると、サイトをクロールできなくなります。

たとえば、website.com からバックリンクを取得し、website.com が AhrefsBot をブロックした場合、当社はそのサイトをクロールできず、バックリンクは Ahrefs に表示されません。IP ブロック、サーバーからのユーザーエージェントをブロック(robots.txt とは異なります)、サーバーのタイムアウト、ボット保護、その他多くの要因も、一部の Web サイトをクロールする能力に影響を与える可能性があります。Web を大規模にクロールするのは簡単ではありません。

Ahrefsには複数のリンクインデックスがあります

各ツールはデータの保存と取得について決定を下す必要があります。Ahrefs では、データを複数のインデックスに分割します。

  • ライブ(アクティブ) – Web 上でまだアクティブなリンクが表示されます。これは Web の現在の状態を最もよく表しており、多くのユーザーにとって最も役立つものです。
  • 最近 – 過去 3 ~ 4 か月間に Web 上でアクティブであることが確認されたリンクです。
  • 履歴 – Ahrefsがこれまでに確認できたすべてのリンクです。これは最も包括的なリストになりますが、既に存在しないリンクが多数含まれています。

バックリンクと参照ドメインレポートで、これらのインデックスを切り替えることができます。

他のインデックスは、これまでに見たすべてのデータを表示することを選択する場合があります。これは、多くのリンクを表示する可能性があることを意味しますが、それらのリンクの多くはもう存在しない可能性があります。

まとめ

ユーザーの皆様が情報に基づいた意思決定を行えるよう、Ahrefsのリンクインデックスに関するより多くの情報を入手していただきたいと考えました。また、変更する必要があると思われる場合は、その理由もお知らせください。

現在リンクインデックスを比較している場合、または当社のデータについてご質問がある場合は、お気軽にお問い合わせください。

著者プロフィール

Patrick Stox
Patrick Stoxは、Ahrefsのプロダクトアドバイザー、テクニカルSEO、およびブランドアンバサダーです。彼は、Raleigh SEO Meetup、Raleigh SEO Conference、Beer & SEO Meetup、Findability Conference の主催者であり、/r/TechSEO のモデレーターでもあります。

  • ・Google検索で上位表示されたい
  • ・Webサイトへのアクセスを増加させたい
  • ・お問い合わせのCVを向上、改善したい
  • ・自社でSEO施策をしていたが、効果がなかなか現れない

Ahrefsのオフィシャル紹介パートナーであるフルスピードは、上記のようにWebサイト改善をしたいと思っている方に向けて、SEOコンサルティングサービスを提供しています。

数多くのWebサイトの改善に従事しているコンサルタントが、お客様のWebサイトを調査し、改善方法をご提案いたします。

お気軽にご相談ください!

データと研究
シェアする
AhrefsJapanをフォローする
Ahrefsブログ- 使えるSEO情報をお届け | SEOの被リンク分析・競合調査ツール

コメント

WP Twitter Auto Publish Powered By : XYZScripts.com
タイトルとURLをコピーしました