この記事はAhrefs公式ブログの日本語訳です。
原文:An Actionable Guide To Stopping Referral Spam In Google Analytics
(著者:Alex Dealy / 原文の最終更新日:November 12, 2015)
※フルスピード註:この記事は2015年11月12日時点の記載をもとに翻訳しています。Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。
幽霊紹介スパムがあなたの Google アナリティクス データを台無しにしていませんか?
darodar、semalt、floating-share-buttons.com、www.event-tracking.com などのスパム サイトが参照元リストに表示されるのにうんざりしていませんか?
そう、あなたは一人ではありません。
紹介スパムは現在、ほとんどのウェブマスターの悩みの種であり、過去 1 年間で着実に悪化しています(明らかにどこかの誰かに金を儲けさせています)。
しかし心配する必要はありません。loganix.net の Alex Dealy が、紹介スパムの悪夢に対する完全な解決策を提供します。迷惑なスパマーがネットをすり抜けず、統計がクリーンで正確な状態を維持できるようにします。
アレックスに…
ゴーストスパムトラフィックと紹介スパムトラフィックとは何ですか?なぜそれが最悪なのでしょうか?
スパムは進化しました。それはもはや受信トレイと検索エンジンだけの問題ではありません。Google Analytics アカウントへの侵入が発見されました。スパマーが最小の分母に屈して電子メールの受信トレイに押し込もうとするのと同じように、システムの欠陥を見つけてデータ レポートに表示します。
なぜ?
彼らがあなたのレポートで一体何をしているのか疑問に思い、好奇心から彼らのウェブサイトにアクセスするかもしれないというかすかな希望を抱いています。
ダサいですよね?
それについて教えてください!私の個人サイトと、 The Magistrateで仕事をしているクライアントのサイトの両方で、データが混乱してしまいます。
しかし、Web トラフィックが増えますか?
重要なのは、これらのボットが実際にサイトを訪問することは決してないということです。
彼らは、訪問者が通常ページを閲覧したときに、Google Analytics が通知するために使用する JavaScript をくすぐるだけです。
これらは依然として、直帰率やその他のエンゲージメント指標などの主要な統計を含む、分析数値を大きく歪める可能性があります。
これらの数値に基づいてコンテンツ マーケティングに大規模な投資を行っている場合は、数値が可能な限り正確であることが重要です。
このため、ゴースト スパム トラフィックと紹介スパム トラフィックが次のような大きな問題となっています。
- 中小企業と個人事業主
- 専任のマーケターがいない中規模企業
- 大小を問わずマーケティング代理店
そしてキッカーは?これらのヴォルデモートの手先は素早く仕事をします。本当に早いです。
スパムによるヒット数が日々増加しているだけでなく、ブラックリストに登録して排除する必要があるソースも増加しています。
紹介スパム送信者が、自分自身を Google に偽装するなど、無意味な手法を試みるのを目撃したこともあります。なぜ?知るか?
私たち側から見ると次のとおりです。
サイトが比較的新しく、正規の Web トラフィックがまだ多くない場合、これは特に問題です。スパムの割合ははるかに高く、サイトに 1 日に数千件のアクセスがある場合よりもデータの偏りが大きくなります。
以下は私の個人サイトの例です。あまり注目していなかったため、あまりヒットしませんでした。しかし、オレンジ色のセグメントをざっと見ると、Analytics に記録されたトラフィックのうち正当なものは 80% のみであることがわかります。20% はスパム トラフィックです。
重要なのは、Web サイトについて情報に基づいた意思決定を行うには、クリーンなデータが必要であるということです。そのためには、この混乱に対処し、クリーンアップする必要があります。
彼らはゲームを改善するだけなので、今すぐ始めましょう。
どれだけ簡単なのか疑問に思ったことはありませんか?
アナリティクスにおける単一の参照元レコードは、単一の「ページ読み込み」です。
通常の状況では、誰かがあなたのページと、画像、CSS、JavaScript ライブラリ、トラッキングなどのページに含まれる他のすべてのアセットを読み込みます。ゴーストスパマーはあらゆる混乱を回避し、単一の JavaScript トラッキング コードを Google に送信するだけで、実際には表示されない訪問を偽造します。
この追跡「ページの読み込み」には、どこかのサーバーで 0.001 秒かかりました。同時に、そのサーバーは、全員の GA アカウントに侵入するために、さまざまなサイトの他の 100 件の「ページ ロード」もロードしていました。
5 ドルのホストをもう(20 個)購入することがいかに簡単かを考えると、このシステムがいかに簡単に手に負えなくなるかがよくわかるでしょう。
ROI が存在する場合、この問題は改善される前にさらに悪化します。
要点: 最後までやり遂げない戦術
この問題が初めて一般に知られるようになったのは、数年前、Semalt と呼ばれる謎のオンライン サービス(この野郎ども大嫌い)がこの手法を使用して Analytics レポートに表示し始めたときでした。
そしていつものように、ソーシャルメディアも反応した。
彼らの言うことが信じられないなら、私を信じてください。それはどこにでもありました – それはまだ蔓延しています。
しかし、大きな問題には革新的な解決策が伴うものだと私たちは考えました。
結局のところ、これらのスパマーは非常に活動的であり、そのテクニックが非常に優れているため、「解決策」として売り込まれた多くのテクニックは機能しませんでした。
おそらく、あなたもいくつか試したことがあるでしょう。
この記事の準備として、私はかなりの量のブラウザーのブックマークと Pocket アーカイブを調べて、チームのためにこの社内修正を優先する前に使用していたすべてのガイドを見つけました。
この問題を実際に解決しない手法には、次のようなものがあります。
- .htcaccess ファイルを変更する – この方法は高度な戦術では機能しません。ゴーストスパムがサイトに侵入することはありません。そのため、この方法は役に立ちません。
- 紹介除外/ブロック リストの使用(続きを読む) – 設定は良好ですが、更新がありません。
- 除外リストを除外フィルターにソースする – 今後のスパムを除外およびブロックするだけで、過去の参照元については何も行いません。
本当にそれに近いのは除外フィルターだけでした。本当の問題は、常に更新されている最新のリストを見つけるのが非常に難しいことでした。このようなリストの創設者/作成者の多くは、ソリューションを最新の状態に保つことに実際には投資していませんでした。
このようなリストを維持するために必要な継続的なメンテナンスは、特に利益がない場合には、問題を効果的に解決するには法外な作業です。
失われたパズルのピース
合理的かつ効果的にするには、ゴースト トラフィックと紹介スパム トラフィックを特定して排除するソリューションは次のとおりである必要があります。
- 非常に定期的に更新されます
- 過去のデータに遡って
- 大規模なデータベースから取得
これらの原則をガイドラインとして使用して、私たちは現在非常にうまく機能しているプロセスを作成しました。
ステップ 1: セグメントを使用してスパムをフィルタリングおよびブロックする
復習が必要な場合に備えて:
- フィルターを使用すると、レポート データ セットのデータを含めたり、ブロックしたりできます。フィルタは破壊的なものであることに留意してください。誤ってかどうかにかかわらず、フィルタリングしてブロックしたものはすべて永久に失われます。また、過去のデータを編集することもできません。
- 一方、セグメントはユーザーまたはセッションのサブセットです。セグメントは破壊的ではなく、過去のデータにも適用できるため、オン/オフを切り替えることができます。
まず、セグメントはデータを永続的に変更しないため、私は個人的に(そして専門的に)常に新しいフィルターを追加するのではなく、セグメントを操作することを好みます。
フィルターの操作中に失敗し、誤って実際のリファラーを除外してしまうと、そのデータは二度と戻ってきません。
セグメントを使用すると、以前に使用したデータに基づいて構築することもでき、遡って適用することもできます。アカウント内に不良データをどれだけ長く放置していたとしても、適切に構築されたセグメントを使用すれば、すべてを取得できるようになります。
ステップ 2: 除外リストの管理
ここ治安判事の革新的なチーム(特に、このツールの構築を支持したプログラマーの Josh)のおかげで、私たちはとにかく、毎日使用しているツールである Slack を活用しました。
結果?Slack チャネルへのカスタム統合により、クライアントのすべてのサイトから新しいキャンペーン ソースが 1 時間ごとに投稿されます。到着したら、簡単に調べて、ホワイトリストに登録するか、除外セグメントに追加します。
それはこのように動作します:
- 受信した紹介: すべてのプロパティについて、GA で制御できます。
- count でソートされた結果: PHP を使用してソートし、ループしてそれぞれを認識するかどうかを確認します。そうでない場合は…
- スパムの疑いがあるものを判断のためにslackチャンネルに送信ブラックリストまたはホワイトリストをクリックすると、次の画面が表示されます…
- 評決が検証されました: PHP ページには各分類の確認が含まれています
- スパマーの保存: 確認されたスパマーは、次の期間までデータベースに保管されます。
- 正規表現形式でのデータ出力: データを転送し、分析アカウントに貼り付けます。
私たちはこれを非常に誇りに思っており、これによりリストを1 日に少なくとも5 回更新できるようになります。
現実に直面する: 唯一の解決策はない
私たちの成功にもかかわらず、分析データは非常にクリーンですが、私たちは、何よりもお客様の基盤をカバーするために、私たちの方法とツールを他の技術で補完する必要があることを途中で学びました。
結局のところ、スパムは非常に多く、氷山の一角を過ぎたにすぎません。私たちのデータ収集は比較的小規模で若いものです。
さらに、インバウンドの友人のおかげで、望ましくないスパムを抑制するのにも役立つ確かなテクニックについての素晴らしいアドバイスを得ることができました。ここで交わされたコメントややりとりは、アナリティクス スパムの解決に関する追加のコンテキストとして一見の価値があります。
残りの手順は比較的簡単です。
- 既知のボットやスパイダーを除外するには、Google Analytics 内のオプションを必ずオンにしてください。
- 包括的なホスト名フィルターの追加を検討してください。
- サイトに Cookie を追加して、拠点をさらにカバーすることもできます。
これらを組み合わせると、非常にクリーンな分析プロファイルが得られます。
「義理の両親が終わっている間に家を」きれいにする、みたいな。
私たちがツールを作成して宣伝している間に得た意見の 1 つは、上にリストした包括的なホスト名フィルターで多くの成功が得られているということです。この手法は現在、ほぼ効果的であることが証明されていますが、データをクリーンに保つための長期的な最善の解決策ではないことがわかりました。
- ホスト名を偽装する分析スパムが増えています。それほど難しいことではなく、データへの扉が開かれます。
- このオプションを正しく設定しないと、実際のデータがフィルタリングされてしまう可能性があります(フィルタとセグメントを参照)
この脆弱性のせいで、ホスト名フィルターが 100% 機能するのを見たことがありません。私たちのツールは、スパム参照元がどのような手段で私たちの GA アカウントに到達したかを区別せず、ただその進行を阻止するだけなので、ついに完全なソリューションになったと感じています。
編集者注:私は Alex に、包括的ホスト名フィルター(私が個人的にサイトに実装している)に加えて除外リストが必要な理由を尋ねました。彼の答えは上記のとおりです。包括的なホスト名フィルターは非常に効果的ですが、ネットをすり抜けてしまうサイトもあります(そしてスパマーはより賢くなっています)。私自身の分析をチェックしたところ、以下に示すように、彼は完全に正しかったです。
したがって、Alex が言うように、ゴースト参照をすべて排除し、分析をクリーンに保つには、両方の方法を組み合わせることが最も効果的です。
この時点で、正直な人であれば、これらすべてのソリューションをまとめてセットアップするのも大変な作業であることを認めるでしょう。私はすべてのソリューションについて知っており、それらを徹底的に文書化しましたが、まだすべてを私が管理しているサイトに実装していません。決して実装されない解決策は、まったく解決策ではありません。
だからこそ、私たちはこれがついに完全な解決策であると感じています。
前進する
繰り返しになりますが、時代の最先端を 100% 先取りし続けることは困難です。
ただし、メンテナンスが行き届いた堅牢で迅速なツール(文字通り 1 分で完了)が必要な場合は、使いやすいツールを用意しました。料金はメール アドレスのみで、常に最新の状態に保つよう投資されています。
これが紹介スパム クリーンアップ ツールです。簡単に説明します。
ダブル オプトインを経ると、以下のフォームが表示されます。すべての Analytics アカウントとビューに適用するビューを選択します。
次に、レポート ビューのいずれかにセグメントを適用します。レポートの内容に応じて、すべてのセッションと比較すると便利です。
それが完了したら、グラフを表示するだけで、データをどの程度クリーンアップできたかを把握できます。この場合、Analytics で収集されたデータの 20% 以上がスパムでした。青は以前に収集されたデータ、オレンジはスパム訪問を除去するために一度調整されたデータです。
まだ私たちに連絡していない悪質な人物を見つけた場合は、スパマーをセグメントのブラックリストに追加するよう提案できます。
繰り返しになりますが、これは私たちにとって常に進化する問題です。あなたにとってもそうであれば、私たちはあなたの意見を求めています。
これは私たちのチームなしでは決して不可能でしたし、あなたがいればさらに良くなると思います。
私たちが見逃しているヒントやコツがありましたら、ぜひお知らせください。それまでの間、私たちのツールを楽しんで乾杯してください!
著者プロフィール
Alex Dealy
Alex Dealy は、 The Magistrateと Loganixの検索ディレクターです。アレックスは、機知に富み、強力なプロセスを駆使して、フルタイムのデジタル遊牧民としての地位を確立し、現在、南米での生活と仕事の 4 年目を迎えています。
コメント