アーカイブ

‘Web’ カテゴリーのアーカイブ

URLの標準化 について (De-duping URLs via Rewrite Rules)

kdd2008

kdd2008

 昔のブックマークを整理していたところ、2005年にWebKDDというカンファレンスをブックマークしていたのを発見しました。WebKDDは、Webの知識発見(Knowledge Discovery on the Web) 関連のトピックを扱う会議で2008年で10周年になるようです。

 KDD2008で発表されている論文のタイトルをみていたところ、URLの標準化に関する発表がされているのを見つけました。(KDD2008のサイトではPDFがなかったので、タイトル、著者名でSearchしてPDFにたどり着きました。)
 

 
Anirban Dasgupta Ravi Kumar Amit Sasturkar, “De-duping URLs via Rewrite Rules”, Proceeding of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, pp.186-194,2008
 
ABSTRACT
A large fraction of the URLs on the web contain duplicate (or near-duplicate) content. De-duping URLs is an extremely important problem for search engines, since all the principal functions of a search engine, including crawl-ing, indexing, ranking, and presentation, are adversely impacted by the presence of duplicate URLs. raditionally, the de-duping problem has been addressed by fetching and examining the content of the URL; our approach here is different. Given a set of URLs partitioned into equivalence classes based on the content (URLs in the same equivalence class have similar content), we address the problem of mining this set and learning URL rewrite rules that transform all URLs of an equivalence class to the same canonical form. These rewrite rules can then be applied to eliminate duplicates among URLs that are encountered for the ¯rst time during crawling, even without fetching their content. In order to express such transformation rules, we propose a simple framework that is general enough to capture the most common URL rewrite patterns occurring on the web; in particular, it encapsulates the DUST (Different URLs with similar text) framework . We provide an effcient algorithm for mining and learning URL rewrite rules and show that under mild assumptions, it is complete, i.e., our algorithm learns every URL rewrite rule that is correct, for an appropriate notion of correctness. We demonstrate the expressiveness of our framework and the effectiveness of our algorithm byperforming a variety of extensive large-scale experiments.

 
 
  
 URLの標準化(URL Normalizaion, de-duping)は、SearchEngine等に関連するトピックは、同一のコンテンツを指し示す複数のURLをどうやって纏め上げるのかという内容です。

たとえば、冗長構成のため、サーバが複数に分かれているケースでは、

 http://www-1.ibm.com
 http://www-2.ibm.com

と、異なるURLで同一のコンテンツを保持するケースがあります。

また、CGI等のパラメータの場合では

 http://example.com/show.php?a=10&b=20
 http://example.com/show.php?b=20&a=10

パラメータの順番が異なっているが実質同じ意味を持つケースがあります。

 このように表現は異なるが内容は同一というURLが世の中には非常に多くあるため、SearchEngineのように大量のURLのコンテンツを収集・解析するシステムでは、パフォーマンス上重要な議題になります。

この論文以前にも、URLの標準化に関しての議論は存在しており、以前の方法は主にページコンテンツの同一性を評価し、URLの標準化に取り組むという内容だったのに対して、著者らのアプローチは、

 1. DUST(Duplicate URL as Similar Text)を含むURL標準化のためのURL置換ルールを提案
 2. 類似したURLの形式から、URL置換ルールを導く学習アルゴリズムを提案
 3. 大量の実URLデータを使った計算機実験を通して有効性を検証

というもので、検証の結果DUSTルールでは20%のURL標準化が可能だったのに対して、著者らは60%のURL標準化を達成したとあります。
  
 アルゴリズムの詳細については読み終わったらまとめたいと思います。
 
 
著者はYahoo! Researchの人のようですが、このような研究もBingに切替わると無くなってゆくのでしょうかね。。。

カテゴリー: Web, 論文 タグ: , ,

Yahoo!(米)とMicrosoft、検索事業および検索連動広告で提携

 
ms
様々な報道がなされていますが、Yahoo!(米)とMicrosoftが検索事業と広告(Search)で提携するそうです。

 報道されている以上の事はわからないのですが(というか、報道されている事すらきちんと追えていませんが。。)、両社、特にYahoo!にとって大きな転換点になることは間違いないと思います。

買収するとかしないとか、1年以上浮かんでは消えて来た噂に終止符が打たれたわけで、今後の提携交渉がどうなるのか注目せずにはいられません。。。

カテゴリー: Web タグ: ,

HadoopDBのアーキテクチャ

2009 年 7 月 28 日 silicon_soul コメント 1 件

7/24にpostした「HadoopDB」の続きです。

■HadoopDBのアーキテクチャについて

より、
HadoopDBのアーキテクチャに関する章から、Hadoopに追加された4つのコンポーネントについて順に読んできます。

 The Architecture of HadoopDB

The Architecture of HadoopDB


 
続きを読む…

[NCM] Next Ad and Marketing 2009 – C1-5 楠山健一郎 さん 「ロイターの次世代メディア戦略とは?」

■トムソン・ロイター・マーケッツ株式会社 楠山健一郎 さん 「ロイターの次世代メディア戦略とは?」

スライドの一部を写真に撮っていますので、FlickrにUpしました。

1. ロイターは150年以上、ニュースを収益に変えてきた
2. ニュースの収益モデル:広告、有料(B2B4C, B2B, B2C< -ここ今がんばってる)、ハイブリッド(広告+有料)
3. 次世代の戦略:コンテンツ(収益になるニュースをそろえる)、有料化(モバイル分野で課金強化)、広告(枠を大きく、業種をふやす、プレミアム感のあるADネットワーク)

米Google、CPA型検索連動広告「Product Ads」のテスト運用を開始

classified
GoogleさんがGoogle Baseにある商品系のListingを利用した、成果報酬型の検索連動広告のテストを開始したそうです。

 以前にもGoogle Chromeのリーク情報を公開したBlogoscopedのProduct Ads紹介記事によれば、新サービスではGoogle Baseに登録されたフィードの情報を基にユーザーの検索クエリーとマッチングを行い、より商品に密着した検索広告を実現できるという。広告主が検索表示のカスタマイズを行うことはできないものの、情報はそのままGoogle Baseのフィードから抽出され自動表示される。
 またProduct Adsの特徴は、その価格体系にある。AdWordsではクリック保証型の価格体系になっており、広告のクリック数に応じて価格が決まるようになっている。Product Adsではさらに踏み込んで、ユーザーが実際に「商品を購入する」もしくは「購入に準じた行動」を起こした場合のみに支払いが発生する仕組みとなっている。


 Google Baseがこのような用途に使われるようになるとは、目からうろこです。

 ところで、日本ではClassified系のwebサービスがあまり流行っていないのですが、これはもともと新聞に3行広告を出すという習慣が無いためと考えればよいのでしょうか?コミュニティペーパーの「売ります・買います」欄はそれなりに認知されていると思いますが、多くの人に使われているような印象もうけませんし。

Digg ads

6月3日、Digg が新しい広告掲載のスキーム(Digg Ads)を導入すると発表した。

Digg Ads will give you more control over which advertisements are displayed on Digg. The more an ad is Dugg, the less the advertiser will have to pay. Conversely the more an ad is buried, the more the advertiser is charged, pricing it out of the system.

-Digg Adsは、ユーザがDiggに表示される広告をコントロールでき、さらに広告がDiggされることによって広告主の支払い額は少なくなる。一方、広告がburiedされた広告主は支払い額が多くなる。-


Ads You Can Digg…or Bury(blog.digg.com)

Digg ad example

Digg ad example

面白い試みでユーザコミュニティにうまくはまる内容であれば回る仕組に見えるが、掲載価格の決定権(の一部?)がユーザ側にあるとなると「品質保持・不正対策」にコストがかかることになる。Diggが汚れてるとか、Webの世界がキレイとかキタナイとかそういう問題ではなく、人間使うものなので不正は起こる。特にお金にかかわるところでは最初から不正が起こりにくいようなスキームを組んで置く必要がある。

現在検索連動広告の価格決定は、2番目の入札者の価格をベースに決定されるという一般化第二価格オークションモデル(Generalized Second Price Auction: GSP)が採用されている。これは自分のbid priceで広告の掲載価格が決定されるわけではないところがポイントで、無用な価格競争が起きにくく、マーケットに安定性をもたらす仕組みになっている。

詳細が明らかになっていないため、数ヵ月後とされているプロダクトローンチを待つしかないが、Digg Adsでどのようなschemeがとられるのか注目していきたい。

参考:
Digg、「クリック数で値下げ」する新広告プラットフォーム発表[IT Media]

Pay-Per-Click(ペイ・パー・クリック)広告とGSPオークション:Googleの集金マシーンについて[Essay, dated.]

Internet Advertising and the Generalized Second Price Auction: Selling Billions of Dollars Worth of Keywords[PDF]

Google TechTalks February 9, 2006
Internet Advertising and the Generalized Second Price…[youtube]

カテゴリー: Web, 広告 タグ: