忍者ブログ

[PR]

2017年10月23日
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

検索エンジンの仕組み(その3)

2009年09月18日

「Yahoo! Search Technology (YST)」の検索アルゴリズムがバージョンアップされました。

どうでしょうか。貴社のHPの順位に変動はあったでしょうか。
順位が上がった方も、逆に下がった方も、「なぜだろう」と考える良い機会だと思います。


さて、当ブログに戻っていただきまして、今回のお話しは「検索エンジンの仕組み(その3)」です。

 インデックスされないと検索エンジンがHPの存在を知らないため、検索結果に表示されない。

2 インデックスされる時には、言葉とアドレス(ファイルごとの)以外に、順位づけの参考になる他の何かがセットにされる。

3 検索された時に、インデックスされたページが、何かしらの方法(アルゴリズムと呼ばれます)により順位をつけられる。


につきましては前回の「検索エンジンの仕組み(その2)」に書きましたので、今回は2・3についてのお話しです。

「インデックスとアルゴリズムは密接に関連している」
ため、2・3についてはセットとして話しを進めていきたいと思います。


 

 

検索エンジンは、検索者が入力した「ある言葉」により、検索者の意図するものであろうHPを探すため、当然に「ある言葉」が該当ファイル(インデックスされているファイル)内に書かれていなければなりません。

したがって、世の中の人にトップページを見てもらいたいならば、トップページに「検索してもらいたいキーワード」を書いておかないといけません。文字通り、扉を開けるための「keyword」です。

このため、HP作成においてはキーワードは重要な事項の1つとなります。

キーワードについては「キーワードの選択」でも書きましたが、不動産業の場合、目的は集客にあるため、
「どの様なキーワードを重視すべきであるか(お客様の立場から)」ということと「どの様なキーワードを重視するか(独りよがり)」といことは、全く違うものだと認識し、明確に区別しなければなりません。
不動産の鑑定評価にも通ずるものがありますが、「人」を主体に考えることが重要です。


キーワードにつきましては、キーワード数・比率・区切り・前後関係・他のキーワードとの関係・ソース上の位置・被リンクのテキスト・ペナルティ、などなど、本当っぽいものから嘘っぽいものまで様々な都市伝説があります。その多くの真偽は不明です。

ただし、キーワード比率に関しては、googleは「理想的なキーワード密度は存在しない」としています。


また、キーワード関係の他に様々な情報がデータとして保存されると思われます。
検索エンジンは、ある検索者の「問い合わせ(query:クエリー)」について瞬時に何かしらの方法(アルゴリズム)で「関係があると思われる全てのインデックスされているファイルの順位づけ」を行わなければなりません。

したがって、その判断材料となる情報は、あらかじめ作成されていることが必要となるからです。
しかも、検索結果の高速表示を考えると、ここで一定の基数的な値が作成されていると思われます。

例えば、生徒が100人いて、身長の高い順に並ばせることを考えてみましょう。


列を作る過程で横一列に並んでもらっても、
「O君はH君の左に」
「S君はA君とI君の間に」
「H君は、えーっと・・・」

という様な感じでは、先生はとても大変そうです。

ところが、あらかじめ身体測定の結果をデータとして所持していたらどうでしょうか。

常に、「より身長の高い生徒を覚えておく」という感じでデータをざっと流し読みすると、まず1番大きい生徒が判明します。この生徒は違うところに並ばせておきましょう。
ここでもし、大きい順に10人だけを知りたい場合、この作業は10回行うと終了となります。

1番大きい人の身長から1センチずつ引き算をし、順次該当する生徒を呼ぶ形式でも良いと思います。
(上記の例を面白いと思った方はプログラマーの素質有りです。プログラムはこうした処理のアイデアの集合体となります)


いまの例は簡単なものでしたが、少し応用して、
「全校生徒5000人の中から、6年2組の男子で身長と体重を足したものの上位10人」を選びたい場合、それぞれの生徒について、学年・組・性別・身長・体重の項目に分かれたデータがあれば、同様にすぐに処理できます。

雰囲気はつかんでいただけたでしょうか。

インデックスの具体的な中味については、順位づけの「アルゴリズムと密接に関係する」ため、公平の観点で基本的に非公開となります。ですが、

「インデックスにおいて何かが何点、何かが何点と採点され、アルゴリズムにより各項目の重み付け・再計算が行われる。」
これに関しては、多くのSEO関係の方が同意してくれると思います。


ここからは私の仮説なのですが、現在(平成21年)の検索エンジンの動向は、

アルゴリズムが経験則でばれてきて、小手先の手段で上位表示を狙う者が出始めた(正しい方法ではなく、スパムと認定)
応急処置として、アルゴリズムに、スパムと思われるものに対して点数を減点する機能を設けよう
悪用する者から話しが広がり、その方法が正しいと信じる者が出始めた
根本であるインデックスでの採点方法の基準を変更しよう
先の問題はインデックスで解決しているので、二度手間にならない様、アルゴリズムでの応急処置を外そう
マイナス要因ばかり考えるのではなく、今の時代に合ったプラス要因も考慮するようアルゴリズムに加えてみよう


という流れがあるのではないかと考えています。

先のyahooのスタッフブログで、インデックスの更新(Update)とアルゴリズムの更新ともに「順位変動が発生することが予想されます」と明言しています。

これは、双方で違う処理を行い、またそれは、順位に直接関係のある処理であることが分かります。

また、インデックス・アルゴリズムの更新履歴を載せてある凄いサイトがあるのですが、これを見ると、複数のインデックス更新の後に、アルゴリズム更新が1回あるというパターンをつかむことができます。

これから、インデックスの更新は手間がかかり煩雑で修正しにくい。
一方、アルゴリズムの更新は比較的すぐに終わることが分かります。

インデックスは膨大なデータの情報を操作するのに対して、アルゴリズムはプログラム1つ((実際は複数あるのではないかと思います)の変更で済みますので冒険をし易いのではないか・・・と考えると、先の仮定が想像できます。


仮定の当否はたいした問題ではありませんが、
「インデックスとアルゴリズムは密接に関連している」という雰囲気をつかんでいただけたでしょうか。


アルゴリズムについても、全て公開してしまうと、それを利用した悪意のサイトが横行してしまう可能性があるため、基本的には検索エンジン運営側で非公開としています。


しかし、googleの公式ブログにいくつかインデックス・アルゴリズムに関するヒントが書かれております。

これは消費者保護の観点にたった報告として、ギリギリのラインで言葉を選んで暴露したものと思われます。
反射効果として、悪質なサイトを減らす目的であるとも言えます。
ただし、「googleにおいては」という事なので、他の検索エンジンにそのまま適用することはできません。

「誤解1」では、「重複(コピー)コンテンツはペナルティを受ける」というのが誤解であるということです。
googleはちゃんと対策を行っているので「SEO目的でコピーを作った所で、プラスにはなりませんよ」という趣旨だと思います。
ただし、ペナルティではないが調整はされるかも・・・との微妙なニュアンスだと思います。


「誤解2」
は、ウェブマスターツールを使用していなければ関係のない話しです。
HTMLとXHTMLはソースの書き方のルールが異なるものです。単純に他のサイトで書かれた記述を真似すると両者が混ざってしまう危険がありますが、「ウェブマスターツールの認証に失敗するのは誤解だ」と限定しているところが微妙な表現ではあります。


「誤解3」「誤解7」を見てもらうと分かると思いますが、相互リンク神話は今では過去のものです(1番に効果があると言われることが間違いであるということ)。
SEO会社が現在の貴社のサイトを分析して、他のSEO対策は十分であるが被リンクが少なすぎるといった場合に推薦するといったケースは妥当だと思います。ケースバイケースです。

これに関して、過剰な被リンクはペナルティを受けるという都市伝説があります。
私は実際にペナルティを受けたという話しを直に聞いたことがありませんが、
こちらを読んでいただければ分かるように、ペナルティは実在します。

ただし、昔は悪質なSEO業者(おそらく会社すら実在しないのでしょう)が被リンク数万件を数十万で販売するといったケースがありましたので、そういったケース限定の話しだと思います。
ここに、(その2)で書きました、動的サイトがクローラーに嫌われる理由があります。

動的なサイトは、その時々で異なる表示が出来るサイトですが、実質は1つのサイトです。
見る人の動作によりアドレス(URL)に変な暗号がついて、それによりページの枠にポンポン中味が埋め込まれ表示されます。つまり、「誤解1」で言う重複コンテンツに該当します。
ここまではいいのですが、これが、そのポンポン作られるサイトのURLが多数張られているページがあり、それをクローラーが発見したとするとどうでしょうか。しかも、各ページに特定のHPへのリンクが張られていたら。なおかつ、先のリンクが多数張られているページ自体がポンポン作られたものだったら。
少し言葉を変えただけのテキストリンクがズラーっと並んでいるページを見たことはないですか?

googleでは動的なページもインデックスし、動的なサイトの分析が進み、重複対策は万全、無理に静的なHPにしない方が良い・・・といった感じにしています。

ですが、yahooではこちらを見ていただくと分かるように、「おすすめ」はしていません。

世の中には「動的に作成されたHPを静的なHPへ作り直して被リンク獲得!」というソフトがある様で、これの販売サイトもインデックスされています。
また、ねずみ講を真似した被リンク獲得を説明し営業をしているサイトもあります。
このような有害なサイトはインデックスから削除すべきなのでしょうが、仕組みを知ってもらって騙されないように、敢えて削除していないのかもしれません。


「誤解4」例に挙げているものは私も使用しているものがありますが、特に異常はないと思います。ただし、何でもかんでも詰め込むのは良くないと思います。



「誤解5」
を見てみると、先にも述べました「理想的なキーワード密度」は存在しないということが書かれています。
これはなかなか微妙な表現で、「それならば絶対数が多いといいのか?」など、想像の域を脱することが出来ません。
ただし、「キーワードの乱立」をクリックして詳しく見ると、「隠しテキスト」という言葉があります。
これは明らかに悪意のあるものと判断して「隠し」という批判の表現をしているものと受け取れます。注意しましょう。

また、「キーワードの乱立」そのものがランキングに悪影響が及ぶ可能性がありますので、本文中に「あるキーワード」を複数表示させるならば、本当にそのキーワードに関連するHPでない場合、ペナルティを受けるかも知れません。
私はキーワードはSEO対策として非常に重要な位置を占めると思いますが、「そのHPの現状との関係」を深く考慮しないと危険な要因でもあると考えます。



「誤解6」
のサイトマップについては、存在により直接的に「ランクが下がる」ということを否定しているものです。
ランクが上がるということを肯定しているものではありません。ですが、推奨はしていると受け取れます。


「誤解7」
からは、google がウェブページのランク付けを行うには、「200種類以上の項目を考慮する」ということが読み取れます。
すべての項目が同じ重み付けではないと思いますので、「ある日突然順位が下がった」ということがない様に、多方面から良いHPにする心がけが必要だと思います。

「誤解8」は何なのでしょうか。「定期的に登録しないと順位が下がる」等の宣伝文句で営業をしている方がいるのでしょうか。
 

「誤解9」については考えさせられます。検索エンジンで上位に表示されるのと、表示されないのでは雲泥の差があります。
当社は代表の高橋が、私が入社する前からHP(地価インフレ情報発信館)を作成しており(今も続いております)、きちんと主だった検索エンジン、関連サイト等に登録をしましたので、yahoo・googleで「地価 インフレ」ではトップに、「地価」だけでも比較的早くHPを見つけることができました(当時からSEOの概念はありました)。

それ故、当時からメール配信の申し込みが結構あり、インターネットの効果は把握していたので、当社の不動産事業部においてもネット活動することに異議はありませんでした。
ですが、現在はyahooでトップページはインデックスはされている模様ですが、「地価 インフレ」で検索すると「リンク集ページ」が1ページ目にあり、トップページは後から始めた「本音のコラム」(高橋のブログ)の記事に負けています。

これは、既に相当数のメールによる読者がいますので、今以上に他の大勢の方に見てもらおうという意識・必要性が薄く、SEO対策を全くしていなかったことが原因です。

パソコン環境・ネット環境・社会環境は日々変化していますし、どんどん新しいHPが世界で創造されている以上、常に勉強をしてHPを改良していかないと順位はどんどん下がると思われます。
私は、パソコンは便利なものだとは思いますが「結局それを動かすのは人間」であるのだから、全てマンパワーで成り立っている世界だと思っています。

それ故、当社のSEOコンサルでは、なるべく向上心のある方が貴社の担当となり、当社のSEOノウハウを出来るだけ吸収し、さらに前進することが出来る能力を養ってもらいたいと思っています。


「誤解10」には、ソースの正しい記述について触れています。否定も肯定もしていない文章に見えますが、「できるだけ正しく書くことをおすすめします。」という箇所をどう受け止めるかです。
私は先の「200種類以上の項目」の中の1つには入っていると思います。
なお、正しい記述という概念は、「W3Cに準拠しているか」というのが一般的です。W3Cとは、HTML, XML,XHTML, CSSなどのソースを作成する言語の規格をまとめている団体です。



今回も長々と書きましたが、過去のSEO知識に頼らず、現在進行形でSEO対策をされている方から言わせれば、「やっぱりね」といったところでしょうか。

しかし、公式に宣言されると重みは違ったものだと思います。

PR