ページビューによるウェブサイト人気比較の問題点

ウェブサイトの人気度を測るとき、しばしばページビュー(PV)が使われます。ページビューというのは、そのページが表示された数を表しているはずなので、単純に考えると、そのウェブサイトのページがどれだけ閲覧されたかを示しているはずです。

そこでウェブサイトを運営している人たちは、「うちのウェブサイトは月に30万PVがあるほどの人気だから、広告を載せると効果的だよ!」とか言って、広告を載せてもらおうとする訳です。

しかし大きな問題点がいくつもあります。
中でも非常に大きいのはロボットだとかクローラと呼ばれているものの影響です。

ウェブサイトにアクセスしているのはユーザだけではありません。特に最近非常に多いのは、上述したロボットです。Google, YahooだけでなくBaidu, Infoseekなどなど、思いのほかに多数のロボットがウェブサイトにアクセスしています。例えば僕が運営に関わっているあるサイトで見ると、真のユーザからのアクセスによるページビューは全体の20%にも満たないものです。残りの80%はロボットです。つまり月に30万PVあるサイトであったとしても、実際には6万PVしかないのかもしれません。

じゃーどうやって、本当のユーザ数を把握するか。どの解析ツールが最も正確かという話になりますが、これがまた非常に難しい問題です。ただ傾向としてはっきりしているのは、WebalizerだとかClickTracksなどのように、サーバに蓄積されたアクセスログを解析するソフトウェアは必ず多めにページビューを報告してしまうこと。そしてGoogle Analyticsのように第三者が解析するタイプのサービスは、必ず少なめにページビューを報告してしまうことです。真の数字はどこかその間にあって、個人的にはGoogle Analyticsの方に近いのではないかと思います。

他にもこれについて書いている人がたくさんいますので、一部を例としてあげます。どっちの解析結果が正しいか、かなり意見が分かれているようですが

さて、問題は何をするべきかです。
WebalizerとGoogle Analyticsのどっちが正しいかを議論したとしても非常に技術的に話になってしまうし、それぞれの立場によって思惑があるでしょうから結論は出ません。

そこで僕の提案は、以下の通り;

  • 広告主はそれぞれの媒体を同じ土俵で比較し、媒体を選択する必要があります。そこで、無料で簡単にセットアップできるGoogle Analyticsに統一して、使用を検討している媒体にそれぞれGoogle Analyticsの解析結果を報告させるべきです。こうすれば各媒体を同じ土俵で単純比較できます。
  • 媒体側は一歩進んで、Google Analyticsの結果を報告するだけでなく、Google Analyticsへのアクセス権をクライアントに提供してあげるべきです。そうすればクライアントは報告をリアルタイムで受け取ることができるし、Google Analyticsで独自に分析を深めることもできます。そして媒体からの報告が嘘偽りのないことを確認できます。

バイオの買物.comでは近いうちに広告主の募集を始めようと思っていますが、こうやって透明性の高い形を用意することが必要だろうと思っています。

いずれにしても、広告主側が気をつけなければいけないこと

それはウェブサイトの人気度の尺度として、「うちは何十万PVですよ!」と言っている人がいても、必ずそれを疑うことです。実際には一桁違うかもしれないので。

最後にWebalizerなどのソフトとGoogle Analyticsのシステムの違いについてまとめてみました。あまり細かい話はしないで、ざっとした感じですが。

  Webalizerなど Google Analytics
インストール サーバにインストールもしくはローカルのパソコンにインストール Googleにシステムがあるので、インストールの必要なし
ウェブページの加工 加工の必要なし Googleと連絡をするためのコードを全対象ページに埋め込む必要あり。ページ数が多く、すべて静的なHTMLで書いている場合は一見面倒だが、プロが使っているようなHTMLエディターを使えば一括でコードを埋め込むことができるはず。
ページビューのカウント対象 全アクセス。ロボットも含む。 ロボットは含まない。人間がブラウザを使ってアクセスしたもののみカウント。ただし、JavaScriptをオフにしているユーザはカウントされない。
ビジターのカウント 独立IPアドレスごとに数える。したがって、企業や大学などでリモートIPを複数のパソコンで共有している場合、複数のユーザでも1人のユーザと数えられる可能性が高い。 Cookieを使ってユーザを追跡。Cookieをオンにしているユーザについては正確にビジターをカウント。Cookieをオフにしているユーザはカウント対象にならない。
PDFなどのダウンロード カウントされる。ただし、1ダウンロードにつき複数回カウントされる可能性がある(たぶんブラウザの動作による)。 カウントされない。
レポートの傾向 ページビューはロボットによって大きく水増しされる。研究者は大きな施設でリモートIPを共有しているので、ビジター数の絶対値は当てにならない。設定でロボットを排除することも可能だが、独自に設定を変更する必要があり、他の解析ツールを使った結果と比較できない。 ページビューもビジター数も少なめに出る。ただしJavaScriptやCookieを使わないと多くのバイオメーカーのウェブサイトにアクセスできないことを考えると、これらをオフにしているユーザはごく少数と予想される。したがってページビュー数もビジター数もおおむね正確な値と予想される。
加々美のお勧め 広告をどこかに載せたいと思っている広告主は、こういうツールで出力されるデータを信用するべきではない。ロボットは品物を買ってくれないので。 広告主はこっちのデータを要求していくべき。なるべくならレポートを自分で確認するためのアクセス権も要求するべき。

  • zero

    「PDFなどのダウンロード」には以下のような手法がありますね。

    http://www.google.com/support/googleanalytics/bin/answer.py?answer=55529

  • zeroさん、コメントありがとうございます。

    僕もこのブログを書いた後にこれを知りました。バイオの買物.comではPDFは置いていないのですが、この方法を使うとリンクアウトも解析できるので、とても便利に使っています。

    おかげでますますGoogle Analyticsを推奨したいですね。

  • ぱりこ

    わかりやすい比較を提供してくださってありがとうございます。

    私はネットショップを数ヶ月前にはじめたのですが、ショッピングカート提供元の出しているアクセス解析とGoogle Analyticsの結果では、一桁数字が違っていてショックを受けていました。

    今後もっとGoogle Analyticsのしくみを知って使いこなせるようになりたいです。