LSIキーワードとは？ほんとに重要なのか？

この記事はAhrefs公式ブログの日本語訳です。
原文：LSI Keywords: What are They and Do They Matter?
（著者：Joshua Hardwick / 原文の最終更新日：May 29, 2020）
※フルスピード註：この記事は2020年5月29日時点の記載をもとに翻訳しています。Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。

LSIキーワードにはGoogleのランキングを上げる力があると言われます。これは本当なのでしょうか、それともまた別のSEO神話なのでしょうか？

LSIキーワードに関するほとんどの記事を読むと、大きく2つのことが書かれています。

GoogleはLSIと呼ばれる技術を使ってウェブページをインデックスしています
LSIキーワードをコンテンツに使うと、Googleで上位に表示される。

この2つの主張は、技術的に間違っています。

このガイドでは、その理由と対処法について説明します。

その前に、基本的なことは以下で学ぶことができます。

オンページSEOは初めてですか？私たちの記事をご確認ください。
オンページSEOの初級者向けガイド

LSIキーワードとは何ですか？
LSI（Latent Semantic Indexing）とは？
1. 類義語とは何か？
2. 多義語とは何ですか？
LSIはどのように機能するのか？
GoogleはLSIを使っているのか？
関連する単語、フレーズ、エンティティに言及することで、ランキングを上げることができるのか？
関連語句の見つけ方と使い方
まとめ

LSIキーワードとは何ですか？

LSIキーワードとは、Googleがあるトピックに意味的に関連しているとみなす単語やフレーズのことであると、少なくともSEO関係者の間では、言われています。もしあなたが車について話しているなら、LSIキーワードは、自動車、エンジン、道路、タイヤ、車両、オートマチックトランスミッションなどでしょう。

しかし、Googleのジョン・ミューラーは、LSIキーワードは存在しないと言っています。

There’s no such thing as LSI keywords — anyone who’s telling you otherwise is mistaken, sorry.

— John Mueller (official) · #StaplerLife (@JohnMu) July 30, 2019

では、ここではどうなのでしょうか？

その問いに答える前に、まずLSIそのものについてもう少し理解する必要があります。

LSI（Latent Semantic Indexing）とは？

Latent Semantic Indexing (LSI)、またはLatent Semantic Analysis (LSA)は、1980年代に開発された自然言語処理技術の一つです。

しかし、固有値やベクトル、一値分解などの数学的な概念に精通していない限り、この技術自体を理解するのはそれほど簡単ではありません。

そのため、今回はLSIの仕組みについては触れないことにします。

その代わりに、LSIが解決するために作られた問題に焦点を当てます。

LSIの開発者は、この問題をどのように定義しているのでしょうか。

検索者が使用する単語と、求められている情報がインデックス化されている単語は、しばしば一致しません。

しかし、これは実際に何を意味するのでしょうか？

例えば、夏が終わり、秋が始まる時期を知りたいとします。WiFiが使えないので、昔ながらの百科事典を手に取ります。何千ページもある百科事典をランダムにめくるのではなく、索引で「秋」を調べ、正しいページに飛ぶのです。

すると、こんなことが書いてありました。

明らかに、あなたが学びたかったのは、そういう秋ではありませんね。

しかし、そんな簡単に諦めるわけがありません。そして、フリックバックして、あなたが探しているものが「autumn」（秋の別名）でインデックスされていることに気づくでしょう。

ここで問題になるのは、「落ちる」が類義語であり多義語であることです。

類義語とは何か？

類義語とは、別の単語やフレーズと同じ意味、またはほぼ同じ意味を持つ単語やフレーズのことです。

例としては、richとwealthy、fallとautumn、carsとautomobileなどがあります。

LSI特許によると、同義語が問題になる理由は以下の通りです。

（中略）人々が同じオブジェクトやコンセプトを表現するために使用する言葉には、非常に多様性があります。異なる文脈、異なるニーズ、知識、言語習慣を持つユーザーは、同じ情報を異なる用語で表現する。例えば、ある有名な対象物に対して2人が同じメインキーワードを選ぶことは、平均して20％未満であることが実証されています。
しかし、これが検索エンジンにどう関係するのでしょうか。

車に関する2つのウェブページがあるとします。どちらも同じ内容ですが、片方はcarsという単語をすべてautomobileに置き換えています。

もし、ページ内の単語やフレーズだけをインデックス化した原始的な検索エンジンを使うとしたら、”cars “というクエリに対して、どちらかのページしか返さないでしょう。

なぜなら、どちらの結果も関連性があり、私たちが探しているものを違う方法で表現しているからです。車ではなく自動車という言葉を使ったページの方が、より良い結果かもしれません。

つまり、検索エンジンは最良の結果を返すために同義語を理解する必要があるということです。

多義語とは何ですか？

多義語とは、複数の異なる意味を持つ単語やフレーズのことです。

例えば、mouse（ネズミ／コンピューター）、bank（金融機関／川岸）、bright（光／知的）などがあります。

これがなぜ問題になるのか、LSIの制作者はこう語ります。

同じ言葉でも、文脈が違えば、あるいは使う人が違えば、意味合いが変わってきます（例えば、リバーバンクの「バンク」と、セービングバンクの「バンク」）。したがって、検索クエリで用語を使用したからといって、同じ用語を含む、あるいは同じ用語でラベル付けされたテキストオブジェクトが興味を引くとは限りません。

これらの単語は、検索エンジンに同義語と同様の問題をもたらします。

例えば、”apple computer “を検索するとします。私たちの原始的な検索エンジンは、片方が明らかに私たちが探しているものではないにもかかわらず、この2つのページを返すかもしれません。

結論：多義語の異なる意味を理解していない検索エンジンは、無関係な結果を返す可能性が高いです。

LSIはどのように機能するのか？

コンピュータは馬鹿です。

私たち人間のように、言葉の関係性を理解することはできません。

例えば、bigとlargeが同じ意味であることは誰でも知っています。そして、ジョン・レノンがビートルズに所属していたことは誰もが知っています。

しかし、コンピューターは言われなければこのような知識を持ちません。

問題は、コンピューターにすべてを伝える方法がないことです。時間と手間がかかりすぎるからです。

LSIは、この問題を解決するために、複雑な数式を使って、文書から単語やフレーズの関係を導き出します。

簡単に言うと、季節に関する文書の集合にLSAを実行すると、コンピュータはいくつかのことを理解できる可能性があります。

まず、fallという単語はautumnと同義語です。

次に、季節、夏、冬、秋、春といった言葉は、すべて意味的に関連しています。

第三に、fallは意味的に2つの異なる単語セットと関連しています。

検索エンジンはこの情報を使って、完全なクエリマッチングを超えた、より関連性の高い検索結果を提供することができるようになります。

GoogleはLSIを使っているのか？

LSIが解決する問題を考えると、GoogleがLSI技術を使用していると考えるのは簡単です。結局のところ、検索エンジンが関連文書を返すのに、完全なクエリとのマッチングは信頼性の低い方法であることは明らかです。

さらに、Googleが同義語を理解していることを示す証拠も毎日目にしています。

そして多義性においては以下で確認できます。

しかし、それにもかかわらず、グーグルがLSI技術を使用していないことはほぼ確実です。

なぜわかるのでしょうか？Googleの担当者がそう言っているからです。

信じられないですか？

この事実を裏付ける3つの証拠がここにあります：

1.LSIは古い技術

LSIは、World Wide Webが誕生する前の1980年代に発明されたものです。そのため、このような大規模な文書群に適用することは想定されていなかった。

そのため、Googleはその後、同じ問題を解決するために、より優れた、よりスケーラブルな技術を開発しました。

ビル・スロウスキーはこう言っています。

LSIテクノロジーは、ウェブのような規模に対応するために作られたものではない（中略）グーグルは、より現代的で拡張性が高く、ウェブ上で動作するワードベクターアプローチ（Rankbrainに使用）を開発した。Word2vecが使えるのにLSIを使うのは、フェラーリとゴーカートのレースのようなものです。

2.LSIは、既知の文書コレクションにインデックスを付けるために作られた技術

World Wide Webは、規模が大きいだけでなく、動的でもあります。

つまり、Googleのインデックスに登録されている何十億ものページは定期的に変化しているのです。

LSIの特許では、”ストレージファイルに重要な更新があるたびに “分析を実行する必要があるとされているため、これは問題です。

それは多くの処理能力を必要とします。

3.LSIは特許技術

LSI（Latent Semantic Indexing）の特許は、1989年にBell Communications Research, Inc.に付与されました。この技術に取り組んだ共同発明者の一人であるSusan Dumaisは、その後1997年にマイクロソフト社に入社し、検索関連のイノベーションに取り組んでいます。

とはいえ、米国特許は20年で失効するため、LSI特許は2008年に失効したことになります。

Googleは2008年よりもずっと前から、言語を理解して適切な結果を返すことにかなり長けていたことを考えると、これはGoogleがLSIを使用していないことを示唆する新たな証拠となります。

また、Bill Slawskiが最も良い表現をしています。

Googleは、同義語や他の意味をインデックス化しようと試みています。しかし、そのためにLSIの技術を使用しているわけではありません。LSIと呼ぶと誤解を招きかねません。Googleは、少なくとも2003年以降、同義語の置換や同義語に基づくクエリの絞り込みを提供していますが、それはLSIを使用していることを意味するものではありません。それは、モバイルウェブに接続するためにスマート電信機を使っていると言うようなものです。