2006年2月13日
RSSクローラーのUser-Agent解析
▼RSSリーダーのクローラーが提供すべき User-Agent の値ブラウザで使える RSS リーダーが増えてきました。
ブラウザで使える(いわゆる Web 型と呼ばれる)RSS リーダーは、複数人で共有して使われるため、RSS フィード提供者からしてみれば「何人の人に読まれているか分からない」といった問題点があります。
そこで、ひそかに進められている(というか、もう公然のルール)になっているのが「クローラーの User-Agent に 購読者数を送信する」というものです。
これは知りませんでした。RSSリーダーが普及するに連れてアクセスカウンタが無意味になってきています。たくさんの人に来てもらえるというのは、更新の励みになりますから、情報発信側が購読数を把握できる仕組みは好ましいと思います。
さっそくこのサイトはどうなっているのか確認してみました。同じRSSリーダーからの複数アクセスは削除してあります。
72.14.199.78 - - [12/Feb/2006:07:09:38 +0900] "GET /index.rdf HTTP/1.1" 304 - "-" "FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)" 203.141.52.34 - - [12/Feb/2006:13:51:00 +0900] "GET /index.rdf HTTP/1.1" 200 20600 "-" "Y!J-BSC/1.0 (http://help.yahoo.co.jp/help/jp/search/indexing/indexing-15 144.138.7.45 - - [12/Feb/2006:20:29:59 +0900] "GET /index.rdf HTTP/1.1" 304 - "-" "RssBar/1.25" 157.82.157.22 - - [13/Feb/2006:00:22:46 +0900] "GET /index.rdf HTTP/1.1" 200 19768 "-" "FeedChecker/0.01" 202.181.98.171 - - [13/Feb/2006:00:30:10 +0900] "GET /index.rdf HTTP/1.0" 200 19768 "-" "BlogRanking/RSS checker (http://blog.with2.net/)" 202.147.5.73 - - [13/Feb/2006:01:04:52 +0900] "HEAD /index.rdf HTTP/1.1" 200 0 "-" "LWP::Simple/5.803" 221.186.76.192 - - [13/Feb/2006:01:50:24 +0900] "GET /index.rdf HTTP/1.1" 200 19768 "-" "blog360.jp"
どいつもこいつも送って来てませんorz
閑話休題、せっかく提供されている(らしい)購読者数ですが、これをどのように解析していくか、というのが問題です。
自分が使用しているアクセス解析は忍.jpですが、こちらはIMGタグを利用してアクセス解析を行っています。このような方法はRSSのアクセス解析には利用できません。RSSはXML形式のデータであり、その中にIMGタグを含めても無意味だからです。
RSSフィード.ccは対応してるとのことですが、これは商用サービスを意識した価格であり、とても個人で払う額ではありません。
Web技術に詳しくない自分でもいくつか方法は浮かぶので、自分が知らないだけでもうとっくに実現されていそうです。調査してみたいと思います。
とりあえず、了。
Trackback on "RSSクローラーのUser-Agent解析"
このエントリーのトラックバックURL:
"RSSクローラーのUser-Agent解析"へのトラックバックはまだありません。
"RSSクローラーのUser-Agent解析"へのコメントはまだありません。