
ComScore: Most Clicks Come From "Natural Born Clickers"
MediaPostに「バナー広告をクリックユーザ数が減少傾向にある」という興味深い調査結果がでてたことを米RocketFuel社のtwitter経由で知りました。
記事によれば、ComScore社の調査で2007年7月には32%のウェブユーザーが広告をクリックしていたのに対して、2009年3月の調査では16%まで落ち込んだそうです。さらに、80%の広告クリックが、わずか8%のユーザで生み出されているとあります。
さらに
“Savvy marketers are moving to an evaluation of the impact that all ad impressions — whether clicked or not — have on consumer behavior, mirroring the manner in which traditional advertising has been measured for decades using reach and frequency metrics,”
とありますが、現在、インターネットを使っているユーザに対してメッセージを届けるためのチャネルはバナー広告以外にも複数(広告主の自社サイト、ソーシャルメディアの活用)すでに存在しており、”誘導”の機能を評価対象にしなかったらバナーの価値は相対的に低下するだけではないかと思います。
この調査結果、ロボットやそれに類するactivityの排除が適切になされたのかといった、データのクレンジングに依存する部分があったり、クリックしているユーザの属性、流れているバナーなどの条件がわからないので、結果の妥当性がよくわかりません。
生データや調査の前提条件等すべて公開されていると判断しようもあるのでしょうけど。

1分間マネジャー―何を示し、どう褒め、どう叱るか!
今週木・金と2日間、会社で研修を受けていました。その中で講師の方が『1分間マネジャー』という本を紹介されていました。なんでも研修で紹介している方法と似たようなマネジメントの手法で、前職のときに実践されていたのがこの本だとか。
2日ぶっ続けの研修と1週間の疲労で集中力が完全に切れたので、仕事を速めに切り上げて帰りがけに立ち寄った会社の下の書店で、ばったり他部署のマネージャにお会いし、しばし立ち話をしていました。なんでも年間300冊くらい読むとか。相当の読書量です。
『お勧めの本ありませんか?』という問いに対して、ちょうど目の前ににあった『1分間マネージャ』を指差し、『この本よいですよー』との事。
なんという偶然。
早速買い求め、そのままタリーズに直行し、それほどページ数のないこともあり携帯片手にメモをtwitterに流し込みながら1時間程で読了しました。
以下、『1分間マネジャー』メモ。
・『有能なマネジャーとは、自分自身を管理し、またいっしょに働く人々をも管理し、それによって、組織も、そこで働く人々も、彼がいるという存在そのものが利益になっていることである』
・『気分のよい部下は、よい成果を生む。』
・『1分間の目標設定』 重要な成果の80%は20%自分の目標の20%から上がる 目標設定はその20%についてだけしかやらない
・『部下が潜在力を十分にに発揮するように力を貸せ。部下が仕事をうまくやっているところを見つけろ。』
・『一分間の賞賛法』
・『一分間の叱責』 間違いを犯したすぐ後。間違いを正確に具体的に教える。責めるのは行動。一貫性
・『私が費やす最良の時間は、部下に投じる時間である』
・『目標が行動を促し、成果が行動を持続させる。』

1分間マネジャー実践法―人を活かし成果を上げる現場学
『1分間マネジャー[実践法]』メモ。
そして今日、髪を切りに行くついでに寄ったBookoffで『1分間マネジャー』の続編をみつけたので早速買い求め読みました。こちらもtwitterにメモをとりながら1時間程度で読了。読みやすいです。
・良い成果を生む部下は、よい気分でいる
・たいていの会社では、いつも最新流行のマネジメントの考え方を追い求めることのみに憂き身をやつし、たった今、マネジャーたちに教えたばかりの考え方を徹底させることをしない。
・ABC法 : 活性化策 (Activators)、実践行動(実績) (Behavior)、事後方策(Consequences)
・A:部下に対して一定の目標達成や行動を期待する前の段階でマネジャーが打つべき方策
・B:部下が言ったりおこなったりする行動・活動
・C:部下が目標を達成したり、達成しようと努力した後にマネジャーがおこなうこと
・KISS法 : Keep It Short and Simple / Keep It Simple, Stupid
・マネジメントのABC – A: マネジャーが行動の前に行うこと(1分間目標設定) B :業務遂行のための行動 C:マネジャーが実践行動の後に行うこと(1分間称賛法、1分間叱責法) Plan Do Checkに相当
・<叱責>が有効であるのは、優績者に対しててだけ。否定的フィードバックを与えた後に称賛で終わらせることができるから。
・部下の能力に問題がある場合は目標設定に戻る<訓練の問題>。部下のやる気に問題がある場合は叱責する<態度の問題>
・肯定的な事後方策だけが将来にわたっての申し分の無い実践行動や実績を促す
・叱責は称賛で締めくくれ、そうすれば部下は相手の行いではなく、自分の行いについて考え始める
・PRICE方式 - P:明確化(Pinpoint)、R:記録(Record)、I:参画(Involve)、C:教育的指導(Coach)、E:評価(Evaluate)
・Pinpoint – 測定可能な明確な目標設定
・Record -目標に対する実践行動を記録
・Involve – フィードバックを与え、実践行動、実績に対する評価を自分で考えさせる
・Coach - 部下の監督は必要とされるときにだけ、きめ細やかに実施。部下の実践行動が望ましい水準へ改善されるにつれ、フィードバックの時間を縮小する。
・Evaluation - 実践行動の進み具合を調べ、今後打つべき手立てを決める
部下に申し分のない実践行動が見られるようになったからといって、終わりではない。それは旅の途中であって目的地ではない。
前回に引き続き、マニフェストのテキストマイニングで遊んでみます。
今回は2相3元データに対する多次元尺度構成法という、あまり一般的でない解析手法を適用します。
多次元尺度構成法(多次元尺度法)とは。 たとえば、世界の都市を飛行機で移動するときの時間の情報だけをもとに、移動時間の短い都市同士を近くに、移動時間が長い都市は遠くに配置して移動時間ベースの地図をつくることができる方法で、各点間の距離や類似度の情報をもとに、各ポイントの位置を空間にプロットすることができます。簡単にいうとこんなところです。各都市のイメージの類似度をもとにバカ世界地図を構成するのにも似てなくも無いです。
個人差多次元尺度法(Weighted MDS)と呼ばれる方法は、この多次元尺度法を個人間のイメージの違いも同時に分析できるようにした手法で、心理学関連の研究で使われています。w-mdsが各個人間の評価の違いをどう表現するのかというと、全員の共通項となる地図(共通布置空間)を1つ作り、各個人の差を、軸(緯度、経度)へのweightとして表現します。ある人にとっての地図は、共通項となる地図を緯度方向にちょっとだけ縮めたもので、ある人にとっての地図は経度方向に縮尺するとうまく当てはまる。みたいな。
説明むずかしいな。。。詳細はぐぐってください。
で、マニフェストにwmdsを適用して解析して、各政策別に政党間類似具合がうまく見えたら面白いなぁと。
wmdsの解析は、netlibで手に入るsindscalを使いました。
netlib/sindscal
Fortranのソースですので、g77あたりでコンパイルできます。
※indscal/sindcalをより一般化したALSCALがGNU Rで使えたような気がするのですが、どのパッケージに含まれているかみつからなかったのでsindscalで解析しています。
では、プロセスです
1.類似度行列の算出
各党のマニフェストを前回同様ヤフーみんなの政治からこぴってきます。
各政策単位のマニフェストデータを各党ごとにコサイン類似度をとり、行列を作成し、
sindscalのデータフォーマットにおとしこみます。
2.sindscalで解析
コンパイルしたプログラムをsindscalのプログラムに標準入力から渡して解析修了です。
これで政党の共通布置空間と各政策の傾向を表すWeightを得ることができます。
3.GNU Rで作図
GNU Rにデータを引っ張って作図します。
sindscalのデータフォーマットはIntroduction to Multidimensional Scaling
か、Three Way Scaling
という本に載っています。 Web上ではみあたらないので、欲しい方がいたら詳細upします。
結果です。
VAF比の動きをみると5次くらいまでのデータを見たほうがよさそうなんですが、視覚化できないので2次までを求めました。
sindscalの解析結果は次のように出てきます。

sindscal output

weight_space
この解析は、各党の”主張”が似ているかどうかを算出しているわけではなく、各党で”似たような単語”が使われているかどうかによって空間配置を行っているという点にご注意ください。
まず、共通布置空間(STIMULUS MATRIX)とWeight MatrixをPlotします。

stimulus matrix

Weight matrix
Stimulus spaceが全体的な傾向の布置になり、自民・改革クラブ、社民・共産・民主党が近い距離にプロットされています。前回のクラスタ分析・MDSの結果とは若干違う傾向がでてますが、新党日本の位置はかわらないようです。
Weight matrixは各政策に対し、各党ごとに特徴が出ているかどうかといった事をあらわしています。特に子育てに関する政策に関しては差が顕著に出ています。
次に、各政党の共通布置空間に、政策別のWeightをかけた政策の個別空間をつくっていきます。
続きを読む…
もう少しで選挙なんで各党のマニフェストを眺めていたのですが、『どの党とどの党の内容が似てるのか』という非常にどうでもいい事が気になって、クラスタ分析してデンドログラムを書いてみました。
処理は
1. 『Yahoo! JAPAN > みんなの政治 >政党別マニフェスト』のデータをコピペで収集
2. MeCabで形態素解析(記号、助詞を除く)
3. 各政党のマニフェスト間のコサイン類似度を計算
4. 距離行列をつくる
5. クラスタ分析(ward法)
です。
こんなのでマニフェストの単語とその出現数が似ている政党のグループが作れるはずです。
形態素解析→距離行列まではPerlで、クラスタ分析はGNU Rで処理してます。
結果。

クラスタ分析(ward法)
2群に分けるとすると、”自民・公明・国民新党・改革クラブ”のクラスタと”社民・共産・民主・みんなの党・新党日本”になりますね。”保守”クラスタと”革新”クラスタ?
自民と公明は出てくる単語の傾向がとても似ているようです。さすが与党。
共産・社民も同様に単語の出現傾向が近いみたい。
新党日本は他の政党の主張とは離れているんですかね?どの政党からも遠いですね。
距離行列を作ったので、ついでに多次元尺度法で2次元にマッピングしてみました。

MDS
ward法のクラスタ分析の結果とずいぶん違うものができました。
今度は公明党・国民新党、民主・社民の距離が近くなりましたが、新党日本はどの政党からも離れています。
以上、なんの役にも立たない結果ですが、coLinuxの環境を再構築した勢いでつくってみました。
会社の帰りに、あおい書店@六本木で購入して、電車の中+駅前のマックで一気に読みました。

仕事するのにオフィスはいらない
ノートPC、スマートフォン、”クラウド”化したツール等を使いこなすことによって、”オフィス”という枠にとらわれない知的生産活動が可能になっていて、実際にそのようなワーキングスタイルをとり働いている人の事例が紹介されています。本書の中盤では、著者が普段使っている各種ツールおよび使用方法が記載されていてノマドワーキングの手引き的なところがあります。以下、読書メモ
・『ノマド』という働き方:インターネット+スマートフォン+クラウド化したツール群等を使いこなして”オフィス”や”会社”から離れたワークスタイル
・『サードプレイス』 オフィスでも自宅でもない場所。 スタバやルノアールで仕事をしたり。
・会社に属さないノマドワーキングには自己管理が重要
・オンラインのコミュニケーションをスムーズにするため、オフラインで親睦を深めておくことも大切
・『アテンションコントロール』 集中力重要。集中力の『リズム』を把握することはもっと重要。
・隙間時間の有効活用にスマートフォンが便利。iphoneにはGoogle Readerをオフラインで閲覧できるアプリケーションがある。
・『情報の取得・整理』は集中力を要しないのでリラックスした時間に。『掘り下げ・連携』はアテンション。
・アテンションコントロールの技法。『仕事は中途半端なところで終わらせる』。再開するとき手をつけやすい。『作業中の調べものは後回し』。集中力を持続させよう。
・『ホモ・モーベンス(動民)』黒川紀章氏。『動くことが目的となっていくような新しい人間が生まれてきている』
・ドゥルーズ・ガタリの『リゾーム(根茎)』。
・ジャック・アタリ『21世紀の歴史』 -最後に、非常に克明しがたい希少性のあるものとは時間である-

kdd2008
昔のブックマークを整理していたところ、2005年にWebKDDというカンファレンスをブックマークしていたのを発見しました。WebKDDは、Webの知識発見(Knowledge Discovery on the Web) 関連のトピックを扱う会議で2008年で10周年になるようです。
KDD2008で発表されている論文のタイトルをみていたところ、URLの標準化に関する発表がされているのを見つけました。(KDD2008のサイトではPDFがなかったので、タイトル、著者名でSearchしてPDFにたどり着きました。)
Anirban Dasgupta Ravi Kumar Amit Sasturkar, “De-duping URLs via Rewrite Rules”, Proceeding of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, pp.186-194,2008
ABSTRACT
A large fraction of the URLs on the web contain duplicate (or near-duplicate) content. De-duping URLs is an extremely important problem for search engines, since all the principal functions of a search engine, including crawl-ing, indexing, ranking, and presentation, are adversely impacted by the presence of duplicate URLs. raditionally, the de-duping problem has been addressed by fetching and examining the content of the URL; our approach here is different. Given a set of URLs partitioned into equivalence classes based on the content (URLs in the same equivalence class have similar content), we address the problem of mining this set and learning URL rewrite rules that transform all URLs of an equivalence class to the same canonical form. These rewrite rules can then be applied to eliminate duplicates among URLs that are encountered for the ¯rst time during crawling, even without fetching their content. In order to express such transformation rules, we propose a simple framework that is general enough to capture the most common URL rewrite patterns occurring on the web; in particular, it encapsulates the DUST (Different URLs with similar text) framework . We provide an effcient algorithm for mining and learning URL rewrite rules and show that under mild assumptions, it is complete, i.e., our algorithm learns every URL rewrite rule that is correct, for an appropriate notion of correctness. We demonstrate the expressiveness of our framework and the effectiveness of our algorithm byperforming a variety of extensive large-scale experiments.
URLの標準化(URL Normalizaion, de-duping)は、SearchEngine等に関連するトピックは、同一のコンテンツを指し示す複数のURLをどうやって纏め上げるのかという内容です。
たとえば、冗長構成のため、サーバが複数に分かれているケースでは、
http://www-1.ibm.com
http://www-2.ibm.com
と、異なるURLで同一のコンテンツを保持するケースがあります。
また、CGI等のパラメータの場合では
http://example.com/show.php?a=10&b=20
http://example.com/show.php?b=20&a=10
パラメータの順番が異なっているが実質同じ意味を持つケースがあります。
このように表現は異なるが内容は同一というURLが世の中には非常に多くあるため、SearchEngineのように大量のURLのコンテンツを収集・解析するシステムでは、パフォーマンス上重要な議題になります。
この論文以前にも、URLの標準化に関しての議論は存在しており、以前の方法は主にページコンテンツの同一性を評価し、URLの標準化に取り組むという内容だったのに対して、著者らのアプローチは、
1. DUST(Duplicate URL as Similar Text)を含むURL標準化のためのURL置換ルールを提案
2. 類似したURLの形式から、URL置換ルールを導く学習アルゴリズムを提案
3. 大量の実URLデータを使った計算機実験を通して有効性を検証
というもので、検証の結果DUSTルールでは20%のURL標準化が可能だったのに対して、著者らは60%のURL標準化を達成したとあります。
アルゴリズムの詳細については読み終わったらまとめたいと思います。
著者はYahoo! Researchの人のようですが、このような研究もBingに切替わると無くなってゆくのでしょうかね。。。


FREE : The Future of a Radical Price
今Chris AndersonのFreeを読んでいます。
英語が”得意”といえるほどではないため、専門分野の論文や技術系以外の書籍では、凝った表現や知らない単語が多かったりと読むのに時間がかかって途中で投げ出してしまうことがあります。
この”Free”折れないでなんとか読み進められているポイントは、本を朗読している”オーディオブック”のMP3ファイルをipodに入れて、聞きながら同じところを目で追って読み進めているためです。
“Free”はオンライン版と各章が1ファイルのオーディオブックが無料で提供されています。
オーディオブックをペースメーカーとして、読み進めると
・集中して読むことができます
・意味のわからない単語等を読み飛ばし、どんどん先に進むことができます(そうしないと置いていかれるので)
・読み方のわからない単語があっても耳から入ってくるので、単語の読み方だけはわかります。
・聞き取れなかった発音を文字で確認することができます。
・各章の所要時間がMP3の残時間に対応しています。この章読むのにあと何分かかるのかの見積もりがたちます
このようなメリットがあります。
続きを読む…

様々な報道がなされていますが、Yahoo!(米)とMicrosoftが検索事業と広告(Search)で提携するそうです。
報道されている以上の事はわからないのですが(というか、報道されている事すらきちんと追えていませんが。。)、両社、特にYahoo!にとって大きな転換点になることは間違いないと思います。
買収するとかしないとか、1年以上浮かんでは消えて来た噂に終止符が打たれたわけで、今後の提携交渉がどうなるのか注目せずにはいられません。。。
スケダチの高広さん主催、広告系業界の中の人たちの飲み会「広告系総会2009(夏)」の招待状いただきました。
今回は100名の枠に対して200名を超える応募があったそうですが、幸運にも参加できることになりました。
前回五反田で開催されたときが初参加で、仕事が終わらず1hほど遅れて会場に着いたところものすごい盛り上りでびっくりしました。。。140名を超える申し込みがあったとか。普段お話しする機会があまりない、マーケの方、代理店の方等と”広告”という共通のキーワードの元、お話を伺えて非常に有意義な時間でした。
今回も熱気あふれる会になるとおもいますので、楽しみにしています。
参加される方、会場でお会いしましょう!

IJCAI-09
先週開催されていたInternational Joint Conference on Artificial Intelligence(IJCAI-09)のProceedingsが公開されています。
[Online Proceedings]
広告に関連する/しそうなpaperを探していて、大量にあるので全部のタイトルはまだ追えていないのですが、ぱっと目に付いたところでは
Methodology for Designing Reasonably Expressive Mechanisms with Application to Ad Auctions
Michael Benisch, Norman Sadeh, Tuomas Sandholm
CMUの人達で、abstructによると、
広告のオークションモデルについて、Yahoo, Googleの検索連動広告等で採用されているGSPモデルが効果的でない場合があることを示し、改善したPGSPなるモデルを提案する
というストーリーのようです。
興味があるので、後ほど読んでみようと思います。

Wired Magazine UK

Wired Magazine US
昨日のblog中で引用していたWired Magazineの記事ですが、wired.comでsearchしても見当たらなかったのでちょっと不思議に思っていたのですが、あっさりと疑問が解決しました。
先日買ったWired MagazineはUK版だったのです。。。
ABCの店頭に表紙の違うものがなぜか2冊あったの事には気づいていたのですが、片方は先月号ではないかと思い、新しそうなほうを選んで買ったのですが。まさかUK版だったとは知りませんでした。
Webを見るとUS/UKで結構違うようですね。
昨日の記事はwired.co.ukで見つけることができました。
下記リンクで全文読むことができます。
Free: An excerpt from Chris Anderson’s book


FREE : The Future of a Radical Price
ロングテールという概念を生み出したChris Andersonの新刊”FREE : THE FUTURE OF A RADICAL PRICE“が届きました。
wired magazineに載っていたChris Andersonの記事を読んで、amazonで注文しました。
Chris AndersonがChief editorを勤めるWired Magazineは面白そうな特集記事がのっているときに買っていたのですが、輸入をしていた”洋版”が倒産してからというもの店頭で見なくなってしまいました。が、先日ランチの帰りに六本木ABCに立ち寄ってみたところWired誌が入荷してるのを見つけ早速買ってきました。
その中に、先月あたりからBlog等で話題になっているChris AndersonのFree関連の記事が掲載されており、記事の見出しはこのような扇動的なフレーズが踊っていました。
FREE:
Knock-off handbags and pirated MP3s are not parasites – they’re tomorrow’s sales force. This is the new economy, where free is the optimal price point, argues Chirs Anderson in an extract from his new book
パチもんのハンドバッグや海賊版MP3は寄生しているわけではく、明日のセールスマン/販売員なのだ。 これは、”無料”が最適な価格というニューエコノミーであるとクリス・アンダーソンは彼の新書で述べている。
続きを読む…
7/24にpostした「HadoopDB」の続きです。
■HadoopDBのアーキテクチャについて
より、
HadoopDBのアーキテクチャに関する章から、Hadoopに追加された4つのコンポーネントについて順に読んできます。

The Architecture of HadoopDB
続きを読む…

HadoopDB
オレンジニュースさんでHadoopとRDBMSのそれぞれの特性をあわせた「
HadoopDB」というProductが紹介されていました。
開発者によるリリースノートはこちらです。
■ Announcing release of HadoopDB (longer version)
HadoopDBの特徴は
1. DBMSとMapReduceのハイブリッドで、分析作業を対象にしている
2. 一般的なサーバで構築された、(メモリとかDiskとかの)共有無しのクラスタまたはクラウド上で動作するようデザインされている
3. フリー・オープンソース並列DBのマーケットのギャップを埋めることを意図している
4. 既存の並列DBシステムやDBMS/MapReduceハイブリッドシステムよりスケーラブル
5. Hadoopと同様のスケーラビリティで、構造化データ分析作業において、優れたパフォーマンスを発揮する。
といったところのようです。
ちょうど今、仕事のデータ分析をHadoopと並列DB(某社のDWH製品)両方使って行っています。
構造化されているdata sourceを使った分析は並列DBを使い、大量のraw dataを解析する場合にはHadoopクラスタと使い分けています。並列DBはSQLで記述でき、比較的高速に動いてくれるので便利ではありますが、DBに入っていないraw data処理では、自由に記述できて大量データを高速に捌けるHadoopが便利です。
HadoopDBの目指しているのがDBMSとMapReduceのハイブリッドプロダクトとのことですし、Hadoop(HDFS)に入っているデータをより簡単に扱う仕組みとしてはPigやHiveがすでにあり、それらのプロダクトとの違いなど気になるところが多いです。
そのようなわけで、HadoopDBのHPに掲載されている論文をPrintして帰りの電車の中で読んでいました。
半分くらい目を通したので、忘れないようメモにまとめます。
続きを読む…

分析力を武器とする企業 トーマス・H・ダベンポート, ジェーン・G・ハリス (著)
『分析力を武器とする企業 強さを支える新しい戦略の科学』 読了。
著者らは、組織としてデータ分析を徹底的に活用して競争に挑む企業を「分析力を武器とする企業」と定義して、前半ではDVDレンタルの「Netfilix」、ウォルマート、カジノを運営する「ハラーズ・エンターテイメント」等の企業の実施例を紹介しています。さらに後半には分析力を組織的に活用するために必要な組織戦略、人材、技術についての概略について論じでいます。
前半の事例紹介は楽しく読めたのですが、後半部分に関しては少々表面的で概論にとどまっているところが物足りなさを感じました。
3章のなかの「分析力は持続可能な競争優位となりうるか」という節で、データ分析力が競争優位な点を以下のように取り上げています。
まねされにくい
独創的である
応用可能である
ライバルをはるかにしのぐ
常に新しい
組織がそれぞれ異なるように、それぞれの状況に応じて必要な情報をデータ分析によって得るわけですから、上記の点が満たされるのは必然だと思います。
後半の論点は、「データ分析を行うためにはまずデータを収集する基盤が必要である。基盤を構築し、データ分析結果を戦略に取り入れ、実行するためにはマネジメントの理解が必要である」。大雑把にはこのような内容なのですが、各企業で蓄積することができる情報の種類は千差万別で、なおかつ抽出したい目的の情報も状況によってさまざまで、これといった定石は無いように思えます。そのあたりが後半、論点がぼんやりして、1歩引いているような印象を受ける理由でしょうか。
また、本書で述べられていますが、普段KKD(ドタカン、経験、度胸)のマネジメントしか見ていない組織にデータドリブンな意思決定を根付かせるのはとても大変です。しかしそれ以上に根幹をなすアナリストの養成が難しいと感じています。分析手法を道具として使いこなし、データの山からビジネス上必要な情報をより分けてゆく作業には、いわば職人的な経験が必要だと思います。座学で教えられることは多くないので、実際にケースを積み上げ、手でデータを書き分け体で覚えるしかないのではないかと感じていますが、良い教育方法はあるのでしょうか?
ともあれ、事例として紹介されている企業のデータ分析活用例は勉強になる点が多く、一読に値する本だと思います。
このようなテーマの本としては次に何を読むべきでしょうか?
お勧めがありましたらお教えください。