SEOツールでバックリンク数を比較できない: その理由

logo データと研究

この記事はAhrefs公式ブログの日本語訳です。
原文:You Can’t Compare Backlink Counts in SEO Tools: Here’s Why
(著者:Patrick Stox/ 原文の最終更新日:March 13, 2024)
※フルスピード註:この記事は2024年3月13日時点の記載をもとに翻訳しています。Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。

Google はWeb上の 300T ページについて把握しています。彼らがこれらすべてをクロールしているかどうかは疑わしいが、少なくとも独禁法裁判の一部の文書によると、彼らが索引付けしたのは 400B のみであることがわかった。これは、彼らが知っているページの約 0.133% に相当し、およそ 752 ページに 1 つになります。

Ahrefs では、2023 年 12 月の時点で約 3,400 億ページをインデックスに保存することにしました。

ある時点から、Web の品質が低下します。インデックスに値を追加せずに、データにノイズを追加するだけのスパム ページやジャンク ページがたくさんあります。

Google の Gary Illyes によると、Webの大部分も重複コンテンツであり、最大 60% です。そのほとんどは、異なるシステムによって引き起こされる技術的な重複です。ただし、この重複を考慮しないと、より多くのリソースが無駄になり、データにさらに多くのノイズが発生する可能性があります。

Web のインデックスを構築する場合、企業はデータのクロール、解析、インデックス作成に関して多くの選択を行う必要があります。インデックス間には多くの重複が見られますが、各企業の決定によっては多少の違いも出るでしょう。

さまざまなツールがさまざまな選択を行っているため、リンク インデックスを比較するのは困難です。私はいくつかの比較をより公平にするために最善を尽くしていますが、たとえ少数のサイトであっても、正確な比較を行うために必要なすべての作業を行いたくない、ましてや研究全体に対して行う必要はありません。 。私がこのように言った理由は、後でデータを正確に比較するために何が必要かを読んだときにわかるでしょう。

ただし、サイトのサンプルでいくつかのテストを実行しました。データを自分で確認する方法を説明します。追加の検証のために、かなり大規模なサードパーティ データ サンプルもいくつか抽出しました。

飛び込んでみましょう。

数値には異なるデータが含まれることがよくある

さまざまなツールのリンクと RD のダッシュボード番号だけを確認すると、まったく異なることがわかるかもしれません。

たとえば、Ahrefs でカウントするものは次のとおりです。

  • ライブリンク
  • ライブRD
  • 6か月分のデータ

Semrush では、次のことがカウントされます。

  • ライブリンクとデッドリンク
  • ライブRD + デッドRD
  • 6 か月分のデータ + もう少し*

*もう少しというのは、彼らのデータは 6 か月前の月初まで遡るということです。つまり、たとえば、その月の 15 日であれば、実際には 6 か月分ではなく、約 6.5 か月分のデータがあることになります。その月の最後の週であれば、6 か月分ではなく、約 7 か月分のデータがあるかもしれません。

これはそれほど多くないように思えるかもしれませんが、特にデッドリンクやデッド RD をカウントしている場合には、表示される数値が大幅に増加する可能性があります。

SEO 担当者はデッドリンクを含む数値を見たくないと思います。数字が大きくなり、誤解を招く可能性があるという理由以外に、それらを数える正当な理由も見当たりません。

私がこのようなことを言うのは、私が以前 Twitter でこの種の偏った比較をすることについてSemrushを非難したからです。しかし、彼らが本当に公平な比較を望んでいないことに気づいたので、私は議論をやめました。彼らはただ比較に勝ちたかっただけです。

より正確な、しかしまだ正確ではないリンクの比較方法

データを比較して、ある程度類似した期間を取得し、アクティブなリンクのみを確認する方法がいくつかあります。

Semrush バックリンク レポートで「アクティブ」リンクをフィルタリングすると、Ahrefs ダッシュボードの数値と比較するための、より正確な数値が得られます。

あるいは、Ahrefs バックリンク レポートで [履歴を表示: 過去 6 か月] オプションを使用すると、失われたリンクが含まれ、Semrush のダッシュボード番号とより公平に比較​​できます。

より類似したデータを取得する方法の例を次に示します。

  • Semrush ダッシュボード: 5.1K = Ahrefs (6 か月の日付比較): 5.6K
  • Semrush すべてのリンク: 5.1K = Ahrefs (6 か月の日付比較): 5.6K
  • Semrush アクティブ リンク: 2.9K = Ahrefs ダッシュボード: 3.5K = Ahrefs (日付比較なし): 3.5K

比較してはいけないのは、Semrush ダッシュボードと Ahrefs ダッシュボードの数値です。 Semrush の数 (5.1K) にはデッドリンクが含まれています。 Ahrefs (3.5K) の数値はそうではありません。それはライブリンクだけです!

Semrush データには余分な日数が含まれているため、期間は前述したものとまったく同じではない場合があることに注意してください。データが停止する日を確認し、Ahrefs データでその正確な日を選択すると、さらに正確な比較が可能ですが、それでも完全に正確ではありません。

Semrush の問題により、大規模なドメインでは比較はまったく機能しないと思います。semrush.com で確認した結果は次のとおりです。

  • Semrush ダッシュボード: 4,870 万 = Ahrefs (6 か月の日付比較): 2,470 万
  • Semrush すべてのリンク: 4,870 万 = Ahrefs (6 か月の日付比較): 2,470 万
  • Semrush アクティブ リンク: 1.8M = Ahrefs ダッシュボード: 15.9M = Ahrefs (日付比較なし): 15.9M

つまり、Semrush では 180 万のアクティブなリンクが、Ahrefs では 1590 万のアクティブなリンクになります。しかし、先ほども言いましたが、これは公平な比較ではないと思います。 Semrush は大規模なサイトで問題を抱えているようです。 Semrush には、「分析されたドメインのサイズにより、最も関連性の高いリンクのみが表示されます。」という警告があります。すべてのリンクが表示されていない可能性もありますが、すべてのリンクの合計がより大きな数で表示され、他の方法でそれらをフィルタリングできるため、これは疑わしいです。

通常、最も古い最終閲覧日で並べ替えてすべてのリンクを表示することもできますが、最終閲覧日 + アクティブを実行すると、608K のリンクしか表示されません。これをさらに調査するには、システム内で 50,000 行以上を取得することはできませんが、ここで何か怪しい点があります。

その他のリンクの違い

上記の比較だけでは、正確な比較を行うには十分ではありません。あらゆる種類の比較を困難にする多くの違いと問題がまだあります。

このツイートは、私がそれを書いた日と同じくらい重要です。

公平なリンク比較を行うことはほぼ不可能

リンクのカウント方法は次のとおりですが、ツールごとにリンクのカウント方法が異なることに注意してください。

主要なポイントをいくつか要約すると、次のようなことを行います。

  • 私たちは JavaScript で挿入された一部のリンクを保存しますが、これを行う人は他にいません。私たちは 1 日に最大 2 億 5,000 万ページをレンダリングします。
  • 当社では、他の企業が行っていない正規化システムを導入しています。つまり、他の企業と同じように重複を数えるべきではありません。
  • 当社のクローラーは、スパムや無限クロール パスなどを回避するために、クロールの優先順位を賢く判断しようとします。
  • ページごとに 1 つのリンクをカウントしますが、ページごとに複数のリンクをカウントする場合もあります。

これらの違いにより、リンクを公平に比較​​することはほぼ不可能になります。

リンクの最大の違いがどこにあるのかを確認する方法

リンク合計の最大の不一致を確認する最も簡単な方法は、ツールの参照ドメイン レポートに移動し、リンクの数で並べ替えることです。ドロップダウンを使用すると、一部のリンクを過剰にカウントすることで各インデックスにどのような種類の問題が発生する可能性があるかを確認できます。多くの場合、上記の理由により、同じサイトから何百万ものリンクが表示される可能性があります。

たとえば、Semrush を調べたときに、最近チェックしたと主張するブログスポットのリンクを見つけましたが、アクセスすると 404 が表示されます。Semrushは何らかの理由でまだそれらを数えています。チェックした複数のドメインでこの問題が発生しました。これはそれらのページの 1 つです。

生きているとカウントされていたリンクの多くが実際には死んでいる

上記のデッドリンクが合計にカウントされているのを見て、各インデックスにデッドリンクがいくつあるか確認したくなりました。各ツールの最新のライブ リンクのリストをクロールして、実際にライブ リンクがいくつあるかを確認しました。

Semrush の場合、生きていると言っていたリンクの 49.6% が実際には死んでいました。Webの変化に伴い、ある程度のチャーンが予想されますが、6 か月間のリンクの半分は、その多くが安定していない、またはリンクを頻繁に再クロールしていないWebのスパムの多い部分にある可能性があることを示しています。何らかの文脈で、Ahrefs についても同じ数字が 17.2% の死亡として返されました。

これらの数値を比較するとさらに複雑になる

Ahrefs は最近、ノイズを除去するように設定できる「ベストリンク」用のフィルターを追加しました。たとえば、すべての blogspot.com ブログをレポートから削除したい場合は、そのブログにフィルターを追加できます。

つまり、レポートには重要と思われるリンクのみが表示されます。これは、メインのダッシュボードの数値とグラフにも適用できるようになりました。フィルターがアクティブな場合、設定に応じて異なる数値が表示されます。

これは、データの粒度に関する別のポイントにもつながります。Ahrefs には、各リンクの周りに 77 のデータ ポイントがあります。Semrush には 22 のデータ ポイントがあります。リンク データを細かく分析する必要がある場合、Ahrefs ではより多くの方法で分析できます。

RDを比較できるか?

これは簡単だと思うかもしれませんが、そうではありません。

すべての問題を解決するのは大変な作業

ここでは解決しなければならないさまざまな問題がたくさんあります。

  • Semrush のデータ内の余分な日数。Ahrefs 番号を削除または追加する必要があります。
  • Semrush では、ダッシュボードの番号に死亡した RD も含まれることに注意してください。したがって、ライブレポートを取得するには、RD レポートを「アクティブ」のみにフィルターする必要があります。
  • Semrush ライブ データのテストではリンクの半分が実際に死んでいたので、多くの RD も実際に失われたのではないかと思います。リンク数が少ないドメインを探し、そこからリストされたリンクをクロールするだけで、無効になっているドメインのほとんどを削除することができます。
  • これらすべてを行った後でも、各ツールがドメインとしてカウントするものの違いを考慮するために、ドメインをルート ドメインまで削除する必要があります。

ドメインとは何か?

現在、Ahrefs のデータベースでは 2 億 630 万の RD が表示され、Semrush では 160 万の RD が表示されています。ドメインのカウント方法はツール間で大きく異なります。

この種のことを調査している主要な情報源によると、インターネット上のドメインの数は2 億 6,900 万から3 億 5,900 万、Web サイトの数は1.1Bから1.5Bの間であり、そのうち1 億 9,100 万から2 億がアクティブであるようです。

Semrush の RD の数は、存在するドメインの数よりも多くなります。

Semrush はさまざまな用語を混同している可能性があると思います。その数はインターネット上の Web サイトの数とかなり一致していますが、ドメインの数と同じではありません。さらに、それらの Web サイトの多くは公開されていません。

これらの数値を比較するとさらに複雑になる

プロセスの一部としてスパム ドメインを削除し、一部のサブドメインを別のドメインとして扱います。アクティブな Web サイトとドメインの数については、他のサードパーティの調査の数字に近い値が得られますが、Semrush は Web サイトの総数 (非アクティブな Web サイトを含む) に近いようです。

近々、1 つのドメインが実際には 1 つのドメインになるように方法論を簡素化する予定です。これにより、RD 数値は減少しますが、人々が実際にドメインについて考えるものはより正確になります。また、ツール間の数値の差はさらに大きくなるでしょう。

データの鮮度・更新速度

最初に表示されたリンク データと最後に表示されたリンク データの両方に対して品質チェックを実行しました。私がチェックしたすべてのサイトで、Ahrefs は最初により多くのリンクを取得し、ほとんどの Ahrefs は Semrush よりも最近リンクを更新しました。ただし、私をただ信じないでください。自分で確認してください。

私たちのデータはより詳細であり、日だけではなく時間と分も含まれているため、これを比較すると、どう考えても偏りが生じます。時間と分を残すと偏った比較が生じ、削除すると偏った比較が生じます。 URL を照合し、どの日付が最初であるか、または同数かどうかを確認して、合計を数える必要があります。各データセットにはいくつかの異なるリンクがあるため、比較するにはデータの各セットに対してルックアップを実行する必要があります。

Semrush は、「インターフェース内のバックリンク データを 15 分ごとに更新します」と主張しています。

Ahrefs は、「15 ~ 30 分ごとに新しいデータで更新される世界最大のライブ バックリンクのインデックス」と主張しています。

私は両方のツールから同時にデータを取得し、いくつかの人気のある Web サイトの最新リンクがいつ見つかったかを確認しました。要約表は次のとおりです。

ドメインAhrefsの最新情報Semrushの最新情報
semrush.com3分前7日前
ahrefs.com2分前5日前
hubspot.com0分前9日前
foxnews.com1分前12日前
cnn.com0分前13日前
amazon.com0分前6日前

それはまったく新鮮ではないようです。何日も更新がないWebサイトが非常に多いため、15 分更新という主張は私にはかなり疑わしいように思えます。

公平を期すために言うと、一部の小規模なサイトでは、誰がより新しいデータを表示するかについては、より複雑でした。大規模なサイトの処理に問題があるのではないかと思います。

この投稿が公開されてから 1 日後、Semrush には 2 つの RD からの 7 つのリンクが表示され、Ahrefs には 19 の RD からの 120 のリンクが表示されています。

ただし、私をただ信用しないでください。いくつかのWebサイトを自分でチェックすることをお勧めします。両方のツールのバックリンク レポートに移動し、最後に表示された順に並べ替えます。結果をソーシャルメディアで必ず共有してください。

AHREFS は INDEXNOW からデータを受信するようになりました

これにより、データがさらに新鮮になります。これは、2024 年 3 月には 1 日あたり約 25 億の URL に相当します。Web サイトは、新しいページ、削除されたページ、または加えられた変更について私たちに知らせるため、私たちはそれらをクロールしてデータを更新できます。詳細はこちらをご覧ください。

クロール速度

Ahrefs は毎日 70 億ページ以上をクロールします。 Semrush は、1 日あたり 250 億ページをクロールしていると主張しています。これは、Ahrefs が 1 日にクロールする量の約 3.5 倍になります。問題は、彼らがそれほど速く這うという証拠が見つからないことです。

Semrush がアクティブとしてマークしたリンクの約半数が実際には停止しているのに対し、Ahrefs では約 17% であることがわかりました。これは、リンクをそれほど頻繁に再クロールしない可能性があることを示しています。それと鮮度テストの両方で、クロールが遅いことが示されました。調べてみることにしました。

私のサイトのログ

私のサイトとアクセスできるサイトのいくつかのログを確認しましたが、Semrush のクロールが速いという主張を裏付けるものは何も見つかりませんでした。自分のサイトのログにアクセスできる場合は、どのボットが最も速くクロールしているかを確認できるはずです。

80,000か月分のログデータ

興味があったので、もっと大きなサンプルを見てみたいと思いました。Web エクスプローラーといくつかの異なるフットプリント (パターン)を使用して、AWStats と Webalizer によって生成されたログ ファイルの概要を見つけました。これらはWeb上で公開されることがよくあります。

過去 2 年間に生成された、それぞれ 1 か月分のデータを含む約 80,000 件のログ ファイルの概要をスクレイピングして解析しました。このサンプルには、合計 9,000 を超える Web サイトが含まれていました。

これらのサイトでは、彼らが主張しているように、Semrush が Ahrefs よりも何倍も高速にクロールしているという証拠は見られませんでした。このデータセット内で Ahrefsbot よりもはるかに高速にクロールしていた唯一のボットは Googlebot でした。他の検索エンジンでさえ、私たちのクロール速度を下回っていました。

これは、Webの規模に比べて少数のサイトからのデータにすぎません。Webのより大きな部分ではどうなるでしょうか?

Web トラフィックの 20% 以上からのデータ

執筆時点では、Cloudflare Radar では、Ahrefsbot がWeb上で最もアクティブなボットの 7 位、Semrushbot が 40 位となっています。

これはWebの全体像ではありませんが、かなり大きな部分です。 2021 年には、Cloudflare がWebのトラフィックの約 20%を管理するといわれており、2018 年の約 10% から増加しています。このような成長により、現在はさらに高くなる可能性があります。 2021 年の数字は見つかりませんでしたが、2022 年初頭には平均 3,200 万 HTTP リクエスト/秒を処​​理し、2023 年初頭にはすでに平均 4,500 万 HTTP リクエスト/秒を処​​理するまでに成長しており、1 年で 40% 以上増加しました!

さらに、CDN を使用する Web サイトの約 80% が Cloudflare を使用しています。Cloudflare は Web 上の大規模なサイトの多くを扱っています。BuiltWith によると、上位 100 万の Web サイトの約 32% が Cloudflare を使用しています。これはかなりのサンプル サイズであり、おそらく存在する最大のサンプルです。

SEO ツールはどれくらいクロールするか?

一部の SEO ツールは、自社の Web サイトをクロールするページ数を公開しています。下のグラフでクロール レートを公開していないのは AhrefsSiteAudit ボットだけですが、この情報については当社のチームに情報収集を依頼しました。実際のクロール レートと主張されているクロール レートを比較して、ランキングを見てみましょう。

ランキングボットクロール速度
7Ahrefsbot70億円以上/日
27DataForSEO Bot2B/日
29Ahrefsサイト監査600M~700M/日
35Botify1億4,330万/日
40Semrushbot250 億 / 日* 請求

計算は間違っています。Semrush は他の検索エンジンよりも何倍も速くクロールしていると主張しているのに、ランキングが低いのはなぜでしょうか? Cloudflare は Web 全体をカバーしているわけではありませんが、Web の大きな部分を占めており、サンプル サイズも代表的以上のものです。

彼らが最初にこの25Bを主張したとき、彼らはCloudflare Radarで90位近く、当時のリストの最下位近くだったと思います。それ以来、Semrush はこの数字を更新していませんが、Cloudflare Radar でも 60 年代から 70 年代にかけていた時期を思い出します。確かに速くなっているように見えますが、主張されている数値はまだ合計されていません。

Moz や Sistrix が最高のリンク データを持っていると SEO が絶賛しているのは聞きませんが、それらはそれぞれリストで 21 位と 36 位です。どちらもSemrushより高いです。

違いについて考えられる説明

Semrush はページという用語とリンクを混同している可能性がありますが、実際に一部のドキュメントで言及されています。リンクしたくないのですが、「毎日、当社のボットは 250 億のリンクをクロールしています」という引用で見つけることができます。ただし、リンクはページと同じものではなく、1 つのページに何百ものリンクが存在する場合があります。

また、彼らがよりスパム的であり、私が調べたどちらのソースからのデータにも反映されていない Web の一部をクロールしている可能性もあります。いくつかの数字は、これが当てはまる可能性を示しています。

サードパーティによる検証

特定のベンダーが行った調査を他のベンダーと比較する場合、たとえこの調査であっても信用すべきではありません。私はできる限り公平であるよう努め、データに従っていますが、Ahrefs で働いているため、私が公平であるとはほとんど考えられません。自分でデータを調べて、独自のテストを実行してください。

SEO コミュニティには、これらのテストを時々実行しようとする人がいます。最後の主要な第三者調査Matthew Woodwardによって実施され、当初は Semrush が勝者であると宣言されましたが、結論は変更され、最終的に Ahrefs が正当な勝者であると宣言されました。何が起こったのでしょうか?

研究のために選択された方法論はSemrushに非常に有利であり、私の友人であるRuss Jonesによって調査されました。彼の冥福を祈ります。これについてRussは次のように述べています。

Majestic や Ahrefs などのサービスはドメインごとに単一の正規 IP アドレスを保存すると考えられますが、SEMRush はリンクごとに保存するようです。これが、場合によってはドメインを参照する IP がさらに多くなる理由を説明しています。SEMRush が意図的に数値を膨らませているとは思いません。競合他社とは異なる方法でデータを保存しているため、数値が高くなり、誤解を招く可能性がありますが、悪意によるものではないと思います。

Matthewからの返答は、Semrushが彼らに有利になるように彼を誤解させた可能性があることを示していました。そのコメントは次のとおりです。

結局、Ahrefsが勝ちました。

ハードウェア

ビッグデータ ページで現在の統計を確認してください。

Semrush は現在のハードウェア統計を提供していませんが、過去にリンク インデックスを変更したときにいくつかの統計を提供していました。

2019年6月、同社は最大のインデックスを持っていると主張する発表を行った。私が話したMatthew Woodwardのテストはこのテストの後に起こりました、そしてご覧のとおり、Ahrefsがそれに勝ちました。

2021 年 6 月、同社はリンク インデックスについて新たな発表を行い、自分たちが最大、最速、最高であると主張しました。

以下は当時彼らが発表した統計の一部です。

  • 500 サーバー
  • 16,128 CPU コア
  • 245TBのメモリ
  • 13.9 PB のストレージ
  • 250億ページ以上 / 日
  • 43.8Tリンク

リリースではストレージを増強したとされていたが、以前のリリースでは4000PBのストレージがあったとされていた。彼らはストレージが 4 倍だと言っていたので、以前の数値は 4000 PB ではなく 4000 TB であるはずだったと思います。用語が混同されているだけです。

当時の番号を確認したところ、次のように一致しました。

  • 2400台のサーバー(約5倍)
  • 200,000 CPU コア (約 12.5 倍)
  • 900 TB のメモリ (約 4 倍)
  • 120 PB のストレージ (約 9 倍)
  • 1 日あたり 70 億ページ (~3.5 倍少ない???)
  • 2.8T ライブ リンク (合計サイズはわかりませんが、今日までのところ、彼らが主張している数ほど大きくはありません)

彼らは、はるかに少ないストレージとハードウェアで、より多くのリンクとより高速なクロールを実現できると主張していました。確かに、ハードウェアの詳細はわかりませんが、私たちは時代遅れの技術で運営しているわけではありません。

彼らは、私たちが現在持っているよりも多くのリンクを、私たちが毎月システムに追加するよりも少ないスペースに保存していると主張しました。本当に意味がありません。

まとめ

ダッシュボード上の数値や一般的な数値は、まったく異なるものを表している可能性があるため、盲目的に信頼しないでください。異なるツール間でデータを比較する完璧な方法はありませんが、ここで示したチェックの多くを実行して、類似のものを比較し、データをクリーンアップすることができます。何か問題がある場合は、ツール ベンダーに説明を求めてください。

テクノロジーやクロール速度などで勝てなくなる時が来たら、思い切って別のツールに切り替えて、私たちへの支払いをやめてください。しかし、その時までは、私は他のツールによる主張には非常に懐疑的です。

ご質問がある場合は、X にメッセージを送ってください

著者プロフィール

Patrick Stox

Patrick Stox は、Ahrefs のプロダクト アドバイザー、テクニカル SEO、ブランド アンバサダーです。2021 Web Almanac の SEO 章の主執筆者であり、2022 SEO 章のレビュアーです。また、Ahrefs の SEO Book For Beginners の共著者でもあり、The Art of SEO 4th Edition のテクニカル レビュー エディターでもありました。Raleigh SEO Meetup (米国で最も成功している SEO Meetup)、Beer and SEO Meetup、Raleigh SEO Conference など、いくつかのグループの主催者であり、Technical SEO Slack グループを運営し、Reddit の /r/TechSEO のモデレーターを務めています。

ブログ X Facebook Linked in

  • ・Google検索で上位表示されたい
  • ・Webサイトへのアクセスを増加させたい
  • ・お問い合わせのCVを向上、改善したい
  • ・自社でSEO施策をしていたが、効果がなかなか現れない

Ahrefsのオフィシャル紹介パートナーであるフルスピードは、上記のようにWebサイト改善をしたいと思っている方に向けて、SEOコンサルティングサービスを提供しています。

数多くのWebサイトの改善に従事しているコンサルタントが、お客様のWebサイトを調査し、改善方法をご提案いたします。

お気軽にご相談ください!

データと研究
シェアする
AhrefsJapanをフォローする
Ahrefsブログ- 使えるSEO情報をお届け | SEOの被リンク分析・競合調査ツール
WP Twitter Auto Publish Powered By : XYZScripts.com
タイトルとURLをコピーしました