この記事はAhrefs公式ブログの日本語訳です。
原文:Almost Half of GSC Clicks Go to Hidden Terms – A Study by Ahrefs
(著者:Patrick Stox / 原文の最終更新日:November 3, 2022)
※フルスピード註:この記事は2022年11月3日時点の記載をもとに翻訳しています。Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。
ほとんどの SEO は Google Search Console (GSC) を信頼できる情報源と考えており、データが正確であると信頼しています。GSC はトラフィックを獲得しているすべてのキーワードを教えてくれるわけではないと言ったらどうしますか? 実際、このツールではクリックのほぼ半分に相当する用語が表示されません。
このような非表示の用語のインスタンスは、調査対象の全クリックの 46.08% を占めています。この調査には、146,741 の Web サイトにわたる 1 か月間のデータと合計 90 億近くのクリックが含まれています。
飛び込んでみましょう。
データの内訳
まず、このデータの取得を手伝ってくれたバックエンド チームの Mauricio Fernandez に多大な感謝を表したいと思います。欠損値は次のように計算されます:
(合計クリック数 – すべてのキーワードへのクリック数の合計) / 合計クリック数
これは、各ドットが 146,741 の Web サイトの 1 つを表す散布図です。失われたクリックの割合とサイト全体のトラフィックが表示されます。
ご覧のとおり、一部のサイトには関連付けられたクリックに関する条件がありませんが、他のサイトにはすべてのデータが含まれています。各サイトは異なり、欠損データの量はデータセット全体で異なります。
重要な点があるので、ここでいくつか説明したいと思います。1 億クリックされているサイト (1) では、データの 90.3% が欠落しています。6,300 万クリックの別のサイト (2) では、クリック数の 2.27% にのみ用語が欠落しています。ご覧のとおり、データは大きく異なります。
欠落しているクリック データがどの程度変化するかを示すもう 1 つの方法は、データセット全体で欠落しているデータの量の分布を調べることです。それぞれのバケットには多数のサイトが含まれています。1 つのサイトからどれだけのデータが欠落しているかを推測するのは困難です。
中間あたりに多くのサイトがあり、95% ~ 100% の欠落クリックが大幅に急増していることがわかります。非常に多くのサイトではデータの約半分が欠落していますが、大部分のデータが欠落しているサイトも多数あります。
興味深いかもしれないと思うのは、サイトが受信するトラフィックに応じてサイトを分類することです。以下の箱ひげ図では、トラフィックの少ないサイトとトラフィックの多いサイトの両方で、より多くのデータが欠落する傾向があることがわかります。中間のバケットにあるサイトでは、欠損データが少ない傾向があります。
一般に、トラフィックが増えるとデータの質が向上します。しかし、1,000 万回ほどクリックされると、データはかなり悪化し始めます。
箱ひげ図を初めて見る場合は、次のように読む必要があります。
端の小さな線は最小値と最大値を表します。そして、すべての値の 50% が強調表示された領域に含まれます。その領域内の線は中央値です。
不足しているデータの量を確認する方法
この時点で、データに誤りがあると思われるかもしれません。データを取得するためにエクスポート可能な GSC インターフェイスに表示される 1,000 行のみを合計したため、多くの行が欠落しています。
しかしそうではありません。このデータは API 経由で取得したため、すべてのデータを取得できますが、まだ不足しているデータがたくさんあります。
誰もが自分のサイトからどれだけのデータが欠落しているかが主な関心事であると思いますので、これを確認する方法を提供したいと思います。Google が表示しない用語へのクリック数を確認する最も簡単な方法は、Google データポータルの GSC コネクタを使用することです。
データポータル レポートを作成しました。これをコピーして、自分の Web サイトの欠落データを確認できます。これには過去 12 か月のデータが使用されます。この記事を書いている時点では、私の個人サイトではデータの約半分が欠落しています。
レポートの独自のコピーを作成し、GSC データをソースとして追加します。その方法は次のとおりです。
- 右上の 3 つの点をクリックし、「コピーを作成」をクリックします。
- 「新しいデータ ソース」のドロップダウンで、関心のあるサイトの GSC データ ソースを選択します。
- サイトが利用できない場合は、「データ ソースの作成」を選択します。「サーチコンソール」を検索してクリックします。
- 使用する GSC プロパティをクリックし、[サイト インプレッション] をクリックし、[Web] をクリックします。次に、右上隅にある「接続」をクリックします。
- 右上隅にある「レポートに追加」をクリックします。
- 「レポートをコピー」をクリックします。
これについては、ユーザーの自己申告データが欲しいです。共有したい場合は、#1 と #2 の「総計」の数字を@patrickstoxと@ahrefsにツイートしてください。または、Twitter で私に PM してください。自己申告データを集計して、後日ここで共有します。ユーザーが報告したデータのほとんどは、サイトごとに欠損量が異なることを示す研究データと裏付けられているのではないかと思います。
Google がすべてのデータを表示しない理由
Google は、この不一致の理由をいくつか挙げています。
ユーザーのプライバシーを保護するため、パフォーマンス レポートにはすべてのデータが表示されません。たとえば、実行回数が非常に少ない一部のクエリや、個人情報や機密情報を含むクエリは追跡されない場合があります。
これらすべてのサイトへの検索のほぼ半分が非公開だったとは一瞬も信じられません。そのため、一部のクエリ (多くの場合、ロングテール キーワード と呼ばれる) が少数しか実行されない理由が残ります。Googleはそれを少し控えめに表現したかもしれない。いずれにせよ、46.08% の欠落は予想をはるかに上回っています。
すべての Google 検索のうち 15% がこれまでに検索されたことがないことがわかっています。Google はこれらのクエリを保存していると確信しています。そうしないと、その統計を取得できなくなります。
ただし、GSC の背後にあるチームのリソースは限られているため、すべてのデータを保存したり公開したりすることは考えていないのではないかと推測します。欠落しているデータの範囲が私にとっては驚くべきものであり、あなたにとってはショックを受けるかもしれません。
まとめ
GSC のパフォーマンス レポートを使用するか、Ahrefs のサイト エクスプローラーでオーガニック キーワードレポートを確認することで、ページへのトラフィックを誘導する用語の種類を把握できます。GSC の非表示データには、ここにリストされている用語と同様の用語が含まれている可能性があります。
たとえば、Google では、キーワード調査に関する投稿のクリック数の 35% に関するデータが欠落しています。米国では、GSC に 327 の用語がリストされ、Ahrefs に 426 の用語がリストされています。
合計すると、これらのうち 178 個がデータセット内で重複していますが、各データセット内に多数の固有の用語が残ります。欠落している用語が何であるかを正確に言うことはできませんが、これらの用語はこれらのレポートに含まれている用語と類似している可能性があります。
記事を書いた人
ご質問がございましたら、Twitter でメッセージをお送りください。
Patrick Stox
ほとんどの SEO は Google Search Console (GSC) を信頼できる情報源と考えており、データが正確であると信頼しています。GSC はトラフィックを獲得しているすべてのキーワードを教えてくれるわけではないと言ったらどうしますか? 実際、このツールではクリックのほぼ半分に相当する用語が表示されません。
コメント