当社の中心的事業である携帯有料コンテンツのアクセス解析というのは、とりあえずページビューが分かればよいというような単純なものではなく、サイトの性質によっても欲しいデータが全然変わってくるので、今まで決定的な方法を持たずになんとなくオープンソースのアレやコレでお茶を濁してみたり、URLを正規表現で集計する自作のアクセス解析を作ってはみたもののあまり役に立たず放置してみたりしていました。
そもそも、コンテンツやシステム作る方にいっぱいいっぱいでその辺(解析・分析)をおろそかにしていたというのもあります。
で、最近その件について改めて考えたのですが、結局、欲しいデータがその時々で様々なのに加え、単純集計をエクセルでいろいろいじってみて初めて欲しいものが分かるといったこともあるので、一番有効な方法はやはりギリギリまでフレキシブルな集計システムであるな、ということでこんな感じにしようと思いました。
基本的には以下の入力を保存しておいてバッチ処理でレポートを出力するのだけど、レポートの有効性にあたりをつけるために入力時に少しだけお試し集計してくれると嬉しい。
[入力1] 集計対象URLの正規表現、ただし正規表現の一部をパラメータとして指定できる
例)\/hoge\/([a-zA-Z]+)\/fuga\/([0-9]+)\.html ※サブパターンに指定した部分がパラメータ
[入力2] 集計期間 YYYYMMDD~YYYYMMDD
[入力3] 対象キャリア(対象キャリアのアクセス数を合算する)
[出力] 「(パラメータ1)\t(パラメータ2)\t...(パラメータn)...\t(日付)\t(ユニークアクセス数)\t(合計アクセス数)」を1レコードとするtsvデータ
- 過去に作成したレポートの履歴はラベル付きで残しておく。
オープンソースの集計システムで概要をつかんだ上で、気になる部分を上記システムで補足するわけです。
パラメータが1つのときは日付とのクロス集計表で出るとさらに良いような気はするけど、そうするとユニークが一つのレポートに入らないし、その辺はエクセルでなんとでもなるのでまあそれで十分じゃないかな。


