Google神は全てをお見通しです
googleのサイト内検索一覧を見ていたら、flash ファイル(拡張子 .swf)が webページの一つとしてインデックスされているのを発見した。
まあ google が flash のファイルも拾うのは知っていたんだけど。
で、このインデックスされたフラッシュファイルは、右サイドバーに貼り付けた自作の『 SA・PA・道の駅ガイド』広告バナーである。そしてタイトル部分に表示されている『N O W L O A D I N G』はフラッシュファイル読み込み時の案内表示で、『http://pt.afl.rakuten.co.jp/…』 という部分は中に仕込んだ楽天アフィリエイトのリンクだ。
通常 webページが検索結果に表示される場合はタイトルタグ <title> の内容が、それが無い場合は本文の一部が表示される。しかしフラッシュのファイル内にはそんなものは無いので、ファイル内のデータから人間に意味が判る文字の部分を自動的に抽出しているのだろう。
検索結果に登場してしかも謎の文字列とは言えファイル内容の一部をこのようにダイジェストとして表示しているのを見て、一体どの程度の情報を判断しているのか興味が湧いた。
そこでまずはタイトルにも出てきた『http://pt.afl.rakuten.co.jp/』で検索をしてみた。
すると予想通りファイルの中に埋め込まれた楽天アフィのリンクをダイジェストとして表示してくれた。こうしてフラッシュの中に仕込んだアフィリエイトのリンクが読めると、自分の浅ましさを見せ付けられているようで少々恥ずかしいw
さらにこの検索結果に見えている文字列で検索を繰り返せば、すこしずつファイルの奥(データの後ろ)を見る事が出来るのではないかと期待しながら試してみたが…。残念ながら検索結果に出ているリンク文字列の最後尾より後ろは表示されなかった。
という事は、フラッシュファイルのインデックスはファイルの先頭からある一定のデータ量に限られ、その限られたデータだけが検索結果の対象となり結果にも表示されるのではないだろうか。
ちなみにこのファイルのサイズは 216KBだ。画像も入ってるから結構大きいね。
仮説まとめ
- Google はflashファイルも webページと同様に検索結果の対象としてデータを取得する
- データの中から判読可能な部分を自動的に抽出し、検索結果のタイトルとして表示する
- 検索結果の対象になるのは一定のデータサイズまでに限られる
この記事に投票してくれ。頼む!→人気ブログランキング
関連する投稿
このページのURL / トラックバックURL:


コメント受付中!