この記事はAhrefs公式ブログの日本語訳です。
原文:LSI Keywords: What are They and Do They Matter?
(著者:Joshua Hardwick / 原文の最終更新日:May 29, 2020)
※フルスピード註:この記事は2020年5月29日時点の記載をもとに翻訳しています。Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。
LSIキーワードにはGoogleのランキングを上げる力があると言われます。これは本当なのでしょうか、それともまた別のSEO神話なのでしょうか?
LSIキーワードに関するほとんどの記事を読むと、大きく2つのことが書かれています。
- GoogleはLSIと呼ばれる技術を使ってウェブページをインデックスしています
- LSIキーワードをコンテンツに使うと、Googleで上位に表示される。
この2つの主張は、技術的に間違っています。
このガイドでは、その理由と対処法について説明します。
その前に、基本的なことは以下で学ぶことができます。
オンページSEOは初めてですか?私たちの記事をご確認ください。
オンページSEOの初級者向けガイド
LSIキーワードとは何ですか?
LSIキーワードとは、Googleがあるトピックに意味的に関連しているとみなす単語やフレーズのことであると、少なくともSEO関係者の間では、言われています。もしあなたが車について話しているなら、LSIキーワードは、自動車、エンジン、道路、タイヤ、車両、オートマチックトランスミッションなどでしょう。
しかし、Googleのジョン・ミューラーは、LSIキーワードは存在しないと言っています。
There’s no such thing as LSI keywords — anyone who’s telling you otherwise is mistaken, sorry.
— John Mueller (official) · #StaplerLife (@JohnMu) July 30, 2019
では、ここではどうなのでしょうか?
その問いに答える前に、まずLSIそのものについてもう少し理解する必要があります。
LSI(Latent Semantic Indexing)とは?
Latent Semantic Indexing (LSI)、またはLatent Semantic Analysis (LSA)は、1980年代に開発された自然言語処理技術の一つです。
しかし、固有値やベクトル、一値分解などの数学的な概念に精通していない限り、この技術自体を理解するのはそれほど簡単ではありません。
そのため、今回はLSIの仕組みについては触れないことにします。
その代わりに、LSIが解決するために作られた問題に焦点を当てます。
LSIの開発者は、この問題をどのように定義しているのでしょうか。
検索者が使用する単語と、求められている情報がインデックス化されている単語は、しばしば一致しません。
しかし、これは実際に何を意味するのでしょうか?
例えば、夏が終わり、秋が始まる時期を知りたいとします。WiFiが使えないので、昔ながらの百科事典を手に取ります。何千ページもある百科事典をランダムにめくるのではなく、索引で「秋」を調べ、正しいページに飛ぶのです。
すると、こんなことが書いてありました。
明らかに、あなたが学びたかったのは、そういう秋ではありませんね。
しかし、そんな簡単に諦めるわけがありません。そして、フリックバックして、あなたが探しているものが「autumn」(秋の別名)でインデックスされていることに気づくでしょう。
ここで問題になるのは、「落ちる」が類義語であり多義語であることです。
類義語とは何か?
類義語とは、別の単語やフレーズと同じ意味、またはほぼ同じ意味を持つ単語やフレーズのことです。
例としては、richとwealthy、fallとautumn、carsとautomobileなどがあります。
LSI特許によると、同義語が問題になる理由は以下の通りです。
(中略)人々が同じオブジェクトやコンセプトを表現するために使用する言葉には、非常に多様性があります。異なる文脈、異なるニーズ、知識、言語習慣を持つユーザーは、同じ情報を異なる用語で表現する。例えば、ある有名な対象物に対して2人が同じメインキーワードを選ぶことは、平均して20%未満であることが実証されています。
しかし、これが検索エンジンにどう関係するのでしょうか。
車に関する2つのウェブページがあるとします。どちらも同じ内容ですが、片方はcarsという単語をすべてautomobileに置き換えています。
もし、ページ内の単語やフレーズだけをインデックス化した原始的な検索エンジンを使うとしたら、”cars “というクエリに対して、どちらかのページしか返さないでしょう。
なぜなら、どちらの結果も関連性があり、私たちが探しているものを違う方法で表現しているからです。車ではなく自動車という言葉を使ったページの方が、より良い結果かもしれません。
つまり、検索エンジンは最良の結果を返すために同義語を理解する必要があるということです。
多義語とは何ですか?
多義語とは、複数の異なる意味を持つ単語やフレーズのことです。
例えば、mouse(ネズミ/コンピューター)、bank(金融機関/川岸)、bright(光/知的)などがあります。
これがなぜ問題になるのか、LSIの制作者はこう語ります。
同じ言葉でも、文脈が違えば、あるいは使う人が違えば、意味合いが変わってきます(例えば、リバーバンクの「バンク」と、セービングバンクの「バンク」)。したがって、検索クエリで用語を使用したからといって、同じ用語を含む、あるいは同じ用語でラベル付けされたテキストオブジェクトが興味を引くとは限りません。
これらの単語は、検索エンジンに同義語と同様の問題をもたらします。
例えば、”apple computer “を検索するとします。私たちの原始的な検索エンジンは、片方が明らかに私たちが探しているものではないにもかかわらず、この2つのページを返すかもしれません。
結論:多義語の異なる意味を理解していない検索エンジンは、無関係な結果を返す可能性が高いです。
LSIはどのように機能するのか?
コンピュータは馬鹿です。
私たち人間のように、言葉の関係性を理解することはできません。
例えば、bigとlargeが同じ意味であることは誰でも知っています。そして、ジョン・レノンがビートルズに所属していたことは誰もが知っています。
しかし、コンピューターは言われなければこのような知識を持ちません。
問題は、コンピューターにすべてを伝える方法がないことです。時間と手間がかかりすぎるからです。
LSIは、この問題を解決するために、複雑な数式を使って、文書から単語やフレーズの関係を導き出します。
簡単に言うと、季節に関する文書の集合にLSAを実行すると、コンピュータはいくつかのことを理解できる可能性があります。
まず、fallという単語はautumnと同義語です。
次に、季節、夏、冬、秋、春といった言葉は、すべて意味的に関連しています。
第三に、fallは意味的に2つの異なる単語セットと関連しています。
検索エンジンはこの情報を使って、完全なクエリマッチングを超えた、より関連性の高い検索結果を提供することができるようになります。
GoogleはLSIを使っているのか?
LSIが解決する問題を考えると、GoogleがLSI技術を使用していると考えるのは簡単です。結局のところ、検索エンジンが関連文書を返すのに、完全なクエリとのマッチングは信頼性の低い方法であることは明らかです。
さらに、Googleが同義語を理解していることを示す証拠も毎日目にしています。
そして多義性においては以下で確認できます。
しかし、それにもかかわらず、グーグルがLSI技術を使用していないことはほぼ確実です。
なぜわかるのでしょうか?Googleの担当者がそう言っているからです。
信じられないですか?
この事実を裏付ける3つの証拠がここにあります:
1.LSIは古い技術
LSIは、World Wide Webが誕生する前の1980年代に発明されたものです。そのため、このような大規模な文書群に適用することは想定されていなかった。
そのため、Googleはその後、同じ問題を解決するために、より優れた、よりスケーラブルな技術を開発しました。
ビル・スロウスキーはこう言っています。
LSIテクノロジーは、ウェブのような規模に対応するために作られたものではない(中略)グーグルは、より現代的で拡張性が高く、ウェブ上で動作するワードベクターアプローチ(Rankbrainに使用)を開発した。Word2vecが使えるのにLSIを使うのは、フェラーリとゴーカートのレースのようなものです。
2.LSIは、既知の文書コレクションにインデックスを付けるために作られた技術
World Wide Webは、規模が大きいだけでなく、動的でもあります。
つまり、Googleのインデックスに登録されている何十億ものページは定期的に変化しているのです。
LSIの特許では、”ストレージファイルに重要な更新があるたびに “分析を実行する必要があるとされているため、これは問題です。
それは多くの処理能力を必要とします。
3.LSIは特許技術
LSI(Latent Semantic Indexing)の特許は、1989年にBell Communications Research, Inc.に付与されました。この技術に取り組んだ共同発明者の一人であるSusan Dumaisは、その後1997年にマイクロソフト社に入社し、検索関連のイノベーションに取り組んでいます。
とはいえ、米国特許は20年で失効するため、LSI特許は2008年に失効したことになります。
Googleは2008年よりもずっと前から、言語を理解して適切な結果を返すことにかなり長けていたことを考えると、これはGoogleがLSIを使用していないことを示唆する新たな証拠となります。
また、Bill Slawskiが最も良い表現をしています。
Googleは、同義語や他の意味をインデックス化しようと試みています。しかし、そのためにLSIの技術を使用しているわけではありません。LSIと呼ぶと誤解を招きかねません。Googleは、少なくとも2003年以降、同義語の置換や同義語に基づくクエリの絞り込みを提供していますが、それはLSIを使用していることを意味するものではありません。それは、モバイルウェブに接続するためにスマート電信機を使っていると言うようなものです。
関連する単語、フレーズ、エンティティに言及することで、ランキングを上げることができるのか?
ほとんどのSEO担当者は、「LSIキーワード」を関連する単語、フレーズ、エンティティ以外の何物でもないと考えています。
技術的には不正確ですが、この定義に従えば、コンテンツに関連する単語やフレーズを使用することは、ほぼ間違いなくSEO対策になります。
なぜそう言えるのでしょうか?Googleが間接的にそう教えてくれています。
「犬」を検索するとき、「犬」という単語が何百回も出てくるようなページは、おそらく見たくないでしょう。このことを念頭に置いて、アルゴリズムは、ページがキーワード「犬」以外にも関連するコンテンツ(犬の写真、ビデオ、あるいは犬種のリストなど)を含んでいるかどうかを評価します。
犬に関するページでは、Googleは個々の犬種の名前を意味的に関連していると見なします。
しかし、なぜこれらのコンテンツが、関連するキーワードでページを上位表示させるのに役立つのでしょうか?
これは簡単です。Googleがページの全体的なトピックを理解するのに役立つからです。
例えば、「犬」という単語を同じ回数だけ使っている2つのページがあります。
各ページにある他の重要な語句を見ると、1枚目だけが犬に関するものであることがわかります。2番目はほとんど猫について書かれています。
Googleはこの情報をもとに、関連するクエリに対して関連するページをランク付けします。
関連語句の見つけ方と使い方
あるトピックについて知識があれば、コンテンツに関連する単語やフレーズを自然に盛り込むことができます。
例えば、”PS4ゲーム”、”Call of Duty”、”Fallout “などの単語やフレーズを使わずに、最高のビデオゲームについて書くことは難しいでしょう。
しかし、特に複雑なトピックでは、重要な語句を見逃しがちです。
例えば、nofollowリンクのガイドでは、スポンサーリンクとUGCリンクの属性について何も触れていません。
Googleは、これらの用語を、そのテーマに関する優れた記事であれば言及すべき、重要で意味的に関連する用語と見ているようです。
そのため、これらの言葉について書かれた記事が上位に表示されるのでしょう。
このことを念頭に置いて、関連する可能性のある単語、フレーズ、エンティティを見つけるための9つの方法を紹介します。
1.常識にとらわれない
自分のページをチェックして、明白なポイントを見逃していないか確認する。
例えば、そのページがドナルド・トランプの伝記記事で、彼の弾劾について触れていない場合、それに関するセクションを追加する価値があるでしょう。
そうすることで、”Mueller Report”、”Nancy Pelosi”、”whistleblower “といった関連する単語、フレーズ、存在に自然と言及することになります。
注。Googleがこれらの単語やフレーズを意味的に関連していると見ているかどうかを確実に知る方法はないことだけは覚えておいてください。しかし、Googleは私たち人間が本来理解している単語や実体の関係を理解することを目的としているので、常識的な判断が必要だと言えるでしょう。
2.オートコンプリートの結果を見る
オートコンプリート結果は、必ずしも重要な関連キーワードを示すとは限りませんが、言及する価値がありそうなキーワードのヒントを与えてくれることがあります。
例えば、”donald trump “のオートコンプリート結果には、”donald trump spouse“, “donald trump age“, “donald trump twitter “と表示されています。
これらはそれ自体は関連キーワードではありませんが、言及している人物や物事はそうかもしれません。この場合、それらはメラニア・トランプ、73歳、そして@realDonaldTrumpです。
おそらく、すべて伝記記事で言及されるべきものでしょう?
3.関連する検索を見る
検索結果の一番下に表示されるのが関連検索です。
オートコンプリートの結果と同様に、関連する可能性のある単語、フレーズ、および言及する価値のあるエンティティを知る手がかりになります。
ここでいう「ドナルド・トランプの教育」とは、彼が通っていたペンシルベニア大学ウォートンスクールのことを指しています。
4.LSIキーワードツールを使う
人気のある「LSIキーワード」生成ツールは、LSIとは何の関係もありません。しかし、時折、有用なアイデアを返してくれることもあります。
例えば、「donald trump」を人気のツールに差し込むと、彼の配偶者であるMelania Trumpや息子のBarron Trumpのような関連人物(エンティティ)が引き出されます。
5.上位ページがランクインしている他のキーワードを見る
Ahrefsのキーワードエクスプローラーの「Also rank for」キーワードアイデアレポートを使用して、潜在的に関連する単語、フレーズ、エンティティを見つけます。
数が多すぎて処理しきれない場合は、上位表示されている3つのページを使用してコンテンツギャップ分析を実行し、交差する数を “3” に設定してみてください。
これは、すべてのページがランクインしているキーワードを示すもので、多くの場合、より洗練された関連語句のリストが得られます。
6.TF-IDF分析を実行する
TF-IDFは、潜在意味インデックス(LSI)や潜在意味解析(LSA)とは関係ありませんが、「欠けている」単語、フレーズ、エンティティを発見するのに役立つことがあります。
7.ナレッジベースを見る
Wikidata.orgやWikipediaのような知識ベースは、関連用語の素晴らしい情報源です。
Googleもこの2つのナレッジベースからナレッジグラフデータを取り込んでいます。
8.ナレッジグラフをリバースエンジニアリングする
Googleは、多くの人や物、概念の関係をナレッジグラフと呼ばれるものに保存しています。ナレッジグラフの結果は、しばしばGoogleの検索結果に表示されます。
キーワードで検索してみて、ナレッジグラフのデータが表示されるかどうか確認してみてください。
これらは、Googleがそのトピックに関連付けるエンティティやデータポイントであるため、意味がある場合は、関連するものについて話す価値があるのは間違いありません。
9.Googleの自然言語APIを使ってエンティティを見つける
上位表示されているページのテキストをGoogleのNatural Language APIデモに貼り付けます。あなたが見逃しているかもしれない、関連する、潜在的に重要なエンティティを探します。
まとめ
LSIキーワードは存在しないですが、意味的に関連する単語、フレーズ、エンティティは存在し、ランキングを高める力を持っています。
ただし、意味のあるところで使うようにし、いつでもどこでも無造作に散りばめるのはやめましょう。
場合によっては、ページに新しいセクションを追加することになるかもしれません。
例えば、ドナルド・トランプに関する記事に「弾劾」や「下院情報委員会」といった単語やエンティティを追加したい場合、おそらく新しい小見出しの下に2、3段落を追加する必要があります。
LSIキーワードについて、他にご質問はありますか?
コメントを残すか、Twitterで私を呼んでください。
著者プロフィール
Joshua Hardwick
Ahrefsのコンテンツ責任者(わかりやすく言うと、私たちが公開するすべてのブログ記事が素晴らしいことを保証する責任者です)。