ページビューの誤差、バイオの買物.comでは20倍

以前のブログエントリーでページビューによるウェブサイト人気比較の問題点を指摘しました。

そのときはまだバイオの買物.comのアクセス数をあまり解析していませんでしたので、その誤差がどれぐらいあるかを書きませんでしたが、さっき計算してみましたので紹介します。

結果:
6月の第1週(平日分)の解析結果では、
ページビューで、Webalizer : Google Analytics = 20 : 1
ビジター数で、Webalizer : Google Analytics = 3 : 1

上の結果は平日だけですが、週末にはページビューでは70倍ぐらいの誤差になります。

最大の原因はロボットによるウェブアクセスです。Yahoo, Google, MSNをはじめ、多数の検索サイトはインターネット中にロボットを走らせ、自動的に各ウェブサイトをくまなく調べているのです。そのアクティビティーは凄まじいものがあります。

そういう問題があることを承知の上で、一応Webalizerの解析結果で計算すると、バイオの買物.comは毎月23万ページビューあることになります。意味の無い数字ですけど、数字だけ見るとなんだか立派に思えます。

広告を募集している世の中のウェブサイトは、どこもページビューの多さをPRしていますが、そのページビューをWebalizer的に計算したのか、それともGoogle Analytics的に計算したのかを示していません。ですから、そのウェブサイトが本当に人気があるのか、それとも単に数字のマジックなのかどうかはわかりません。

でも、そのウェブサイトがセッション数(ビジター数)を公開していれば、ある程度の見当をつける方法があります。

それを解説するために、バイオの買物.comのアクセス解析の中で、ページビューをセッション数で割り算した数字を比較してみます。

  • ビジターあたりの平均閲覧ページ数、Webalizer = 20, Google Analytics = 2.5

なぜこのような差が生まれるかというと、ロボットは短時間で多数のページを閲覧するため、ビジターあたりの平均閲覧ページ数を押し上げる傾向にあります。それに対して顧客が閲覧するときは、興味のある数ページしか見ないことがほとんどなので、だいたいどこのウェブサイトでも5未満の数字になります。

そこで一つの目安として、ビジターあたりの平均閲覧ページ数が5を大きく超えているサイトはWebalizerのような解析ツールを使っていると考えていいと思います。そしてそのような場合はページビュー数自体も一桁ぐらい、ロボットによって水増しされていると考えていいと思います。

そこでもう少し世の中の状況を見るために、日経BPのBiotechnology Japanの資料を見てみました。

アクセス解析結果のことがあまり詳しく書いていないのですが、ヒントになる数字が2つありました。

  • 2006年3月に150万ページビューを突破
  • 月間ユニークブラウザー数 74,244 (2006年3月)

さて、僕はBiotechnology Japanに直接問い合わせた訳ではないので、間違っているかもしれないとあらかじめ断っておきますが、僕がここから読み取るのは以下のことです。

  1. 2006年3月は150万ページビュー、74,244セッション
  2. 単純に割り算すると、平均閲覧ページ数は20.2ページ
  3. 平均閲覧ページ数はバイオの買物.comのWebalizer解析結果とほとんど同じです。したがってBiotechnology JapanはWebalizer的なアクセスログ解析をしたと思われます
  4. Biotechnology Japanの場合は日々のニュースが非常に多く、恐らく数十万ページからなる巨大なウェブサイトになっていると思われます。ロボットはすべてのページを閲覧しようとしますので、そのためロボットによる影響はバイオの買物.com以上と考えていいと思います
  5. したがって、Biotechnology Japanの全体のページビューのうち、9割以上はロボットによると推測できます
  6. 総合すると、人間によるページビューはおおよそ10万と推測されます。残りの140万ページビューはロボットによると思われます

もちろん、僕は本当の数字を知りませんので、全然間違った結論を導いているかもしれません。でも、自分自身が研究者として働いていたときの印象からして、これはそんなに外れた数字ではないんじゃないかなと思います(要するに、研究者はあのウェブサイトをあんまり見ないと思うよという意味)。

  • リーズナブルな分析だと思います。
    BTJを1度に平均10ページなんて、どんな物好きでも見ないですね。
    ただ、弊社もGoogleでアクセス解析していますが、1セッションあたりの平均PVが6ぺージのサイトや、7ページのサイトもあります。
    そのサイトの特徴は、何かにテーマに沿ったことを調べるのに便利なサイトは、そんな傾向があるようです。純粋に読み物として、閲覧していただいているのかとも思います。
    ですので、5ページ未満が普通、という議論は、コンテンツによる、と考えるのが良いと思います。

  • takesiさん、

    コメントありがとうございます。
    確かに5ページ未満で切るのはかなりfalse positiveが出てしまうような、厳しすぎる基準かも知れません。

    ただし、平均ページビューが平均の2倍 -> コンテンツが面白い という結論はちょっと気をつけなければならないと思います。Google Analyticsでは「ベンチマーク」という機能が提供されていますので、同規模の同分野のウェブサイトと平均ページビューを比較できます。それを見ながら慎重に判断するのがいいと思いますが、平均PVが6-7というのはどの分野でも、相当に平均から外れた数字だと思います。どの分野もの多くて平均4PV、通常は3みたいです。

    takesiさんも研究者出身なのでよくわかると思いますが、実験データが平均よりも大幅に良いときは、実験のどこかがおかしい可能性の方が高いですよね。最初は喜んで浮かれてしまいますけど。

    ということで僕の考えをまとめますと、
    1) 5未満はfalse positiveが出るレベルで、厳しすぎるかもしれない
    2) ただし5を大幅に超える数字が出ている場合、コンテンツが良いおかげというよりは、何か他のことが主因かもしれません。これは長年実験をやっていた勘から。

  • 平均ページビューについてはAlexa (http://www.alexa.com/site/ds/top_500)も参考になるかもしれません。

    少なくともバイオメーカーのカタログサイト、一般ニュースサイトのように情報提供をメインとしているサイトはそんなに平均PVは高くないと思います。平均PVが非常に高いのは、例えばmixiとかyahooのように、どちらというとウェブアプリ的な使われ方をしているサイト。Amazonや楽天もいろいろな製品をブラウズしたいユーザが最初から来ているので、高い平均PVになっているようです。

    ちなみにAlexaではBiotechnology Japanを個別に見ることができず、nikkeibp.co.jpとしてまとめた結果しか出てきませんが、平均PVは4と出ています。それとバイオの買物.comでは、Google AnalyticsよりもAlexaの方が結構大きい平均PVが出るので、そこを差し引いた方がいいかもしれないです (AlexaはWebを職業としている人にバイアスがかかっているので)。

    こう考え直した方がいいかもしれませんね。
    Google Analyticsのベンチマーク、もしくはAlexa (いずれもロボットを排除したアクセス解析システム) で同業他社のウェブサイトを確認し、平均PVがそれらよりも大幅に大きいようなアクセス統計は、ロボットを含んでいる解析である可能性が高いと。