ページビューの誤差、バイオの買物.comでは20倍

以前のブログエントリーでページビューによるウェブサイト人気比較の問題点を指摘しました。

そのときはまだバイオの買物.comのアクセス数をあまり解析していませんでしたので、その誤差がどれぐらいあるかを書きませんでしたが、さっき計算してみましたので紹介します。

結果:
6月の第1週(平日分)の解析結果では、
ページビューで、Webalizer : Google Analytics = 20 : 1
ビジター数で、Webalizer : Google Analytics = 3 : 1

上の結果は平日だけですが、週末にはページビューでは70倍ぐらいの誤差になります。

最大の原因はロボットによるウェブアクセスです。Yahoo, Google, MSNをはじめ、多数の検索サイトはインターネット中にロボットを走らせ、自動的に各ウェブサイトをくまなく調べているのです。そのアクティビティーは凄まじいものがあります。

そういう問題があることを承知の上で、一応Webalizerの解析結果で計算すると、バイオの買物.comは毎月23万ページビューあることになります。意味の無い数字ですけど、数字だけ見るとなんだか立派に思えます。

広告を募集している世の中のウェブサイトは、どこもページビューの多さをPRしていますが、そのページビューをWebalizer的に計算したのか、それともGoogle Analytics的に計算したのかを示していません。ですから、そのウェブサイトが本当に人気があるのか、それとも単に数字のマジックなのかどうかはわかりません。

でも、そのウェブサイトがセッション数(ビジター数)を公開していれば、ある程度の見当をつける方法があります。

それを解説するために、バイオの買物.comのアクセス解析の中で、ページビューをセッション数で割り算した数字を比較してみます。

  • ビジターあたりの平均閲覧ページ数、Webalizer = 20, Google Analytics = 2.5

なぜこのような差が生まれるかというと、ロボットは短時間で多数のページを閲覧するため、ビジターあたりの平均閲覧ページ数を押し上げる傾向にあります。それに対して顧客が閲覧するときは、興味のある数ページしか見ないことがほとんどなので、だいたいどこのウェブサイトでも5未満の数字になります。

そこで一つの目安として、ビジターあたりの平均閲覧ページ数が5を大きく超えているサイトはWebalizerのような解析ツールを使っていると考えていいと思います。そしてそのような場合はページビュー数自体も一桁ぐらい、ロボットによって水増しされていると考えていいと思います。

そこでもう少し世の中の状況を見るために、日経BPのBiotechnology Japanの資料を見てみました。

アクセス解析結果のことがあまり詳しく書いていないのですが、ヒントになる数字が2つありました。

  • 2006年3月に150万ページビューを突破
  • 月間ユニークブラウザー数 74,244 (2006年3月)

さて、僕はBiotechnology Japanに直接問い合わせた訳ではないので、間違っているかもしれないとあらかじめ断っておきますが、僕がここから読み取るのは以下のことです。

  1. 2006年3月は150万ページビュー、74,244セッション
  2. 単純に割り算すると、平均閲覧ページ数は20.2ページ
  3. 平均閲覧ページ数はバイオの買物.comのWebalizer解析結果とほとんど同じです。したがってBiotechnology JapanはWebalizer的なアクセスログ解析をしたと思われます
  4. Biotechnology Japanの場合は日々のニュースが非常に多く、恐らく数十万ページからなる巨大なウェブサイトになっていると思われます。ロボットはすべてのページを閲覧しようとしますので、そのためロボットによる影響はバイオの買物.com以上と考えていいと思います
  5. したがって、Biotechnology Japanの全体のページビューのうち、9割以上はロボットによると推測できます
  6. 総合すると、人間によるページビューはおおよそ10万と推測されます。残りの140万ページビューはロボットによると思われます

もちろん、僕は本当の数字を知りませんので、全然間違った結論を導いているかもしれません。でも、自分自身が研究者として働いていたときの印象からして、これはそんなに外れた数字ではないんじゃないかなと思います(要するに、研究者はあのウェブサイトをあんまり見ないと思うよという意味)。