アーカイブ

‘論文’ カテゴリーのアーカイブ

URLの標準化 について (De-duping URLs via Rewrite Rules)

kdd2008

kdd2008

 昔のブックマークを整理していたところ、2005年にWebKDDというカンファレンスをブックマークしていたのを発見しました。WebKDDは、Webの知識発見(Knowledge Discovery on the Web) 関連のトピックを扱う会議で2008年で10周年になるようです。

 KDD2008で発表されている論文のタイトルをみていたところ、URLの標準化に関する発表がされているのを見つけました。(KDD2008のサイトではPDFがなかったので、タイトル、著者名でSearchしてPDFにたどり着きました。)
 

 
Anirban Dasgupta Ravi Kumar Amit Sasturkar, “De-duping URLs via Rewrite Rules”, Proceeding of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, pp.186-194,2008
 
ABSTRACT
A large fraction of the URLs on the web contain duplicate (or near-duplicate) content. De-duping URLs is an extremely important problem for search engines, since all the principal functions of a search engine, including crawl-ing, indexing, ranking, and presentation, are adversely impacted by the presence of duplicate URLs. raditionally, the de-duping problem has been addressed by fetching and examining the content of the URL; our approach here is different. Given a set of URLs partitioned into equivalence classes based on the content (URLs in the same equivalence class have similar content), we address the problem of mining this set and learning URL rewrite rules that transform all URLs of an equivalence class to the same canonical form. These rewrite rules can then be applied to eliminate duplicates among URLs that are encountered for the ¯rst time during crawling, even without fetching their content. In order to express such transformation rules, we propose a simple framework that is general enough to capture the most common URL rewrite patterns occurring on the web; in particular, it encapsulates the DUST (Different URLs with similar text) framework . We provide an effcient algorithm for mining and learning URL rewrite rules and show that under mild assumptions, it is complete, i.e., our algorithm learns every URL rewrite rule that is correct, for an appropriate notion of correctness. We demonstrate the expressiveness of our framework and the effectiveness of our algorithm byperforming a variety of extensive large-scale experiments.

 
 
  
 URLの標準化(URL Normalizaion, de-duping)は、SearchEngine等に関連するトピックは、同一のコンテンツを指し示す複数のURLをどうやって纏め上げるのかという内容です。

たとえば、冗長構成のため、サーバが複数に分かれているケースでは、

 http://www-1.ibm.com
 http://www-2.ibm.com

と、異なるURLで同一のコンテンツを保持するケースがあります。

また、CGI等のパラメータの場合では

 http://example.com/show.php?a=10&b=20
 http://example.com/show.php?b=20&a=10

パラメータの順番が異なっているが実質同じ意味を持つケースがあります。

 このように表現は異なるが内容は同一というURLが世の中には非常に多くあるため、SearchEngineのように大量のURLのコンテンツを収集・解析するシステムでは、パフォーマンス上重要な議題になります。

この論文以前にも、URLの標準化に関しての議論は存在しており、以前の方法は主にページコンテンツの同一性を評価し、URLの標準化に取り組むという内容だったのに対して、著者らのアプローチは、

 1. DUST(Duplicate URL as Similar Text)を含むURL標準化のためのURL置換ルールを提案
 2. 類似したURLの形式から、URL置換ルールを導く学習アルゴリズムを提案
 3. 大量の実URLデータを使った計算機実験を通して有効性を検証

というもので、検証の結果DUSTルールでは20%のURL標準化が可能だったのに対して、著者らは60%のURL標準化を達成したとあります。
  
 アルゴリズムの詳細については読み終わったらまとめたいと思います。
 
 
著者はYahoo! Researchの人のようですが、このような研究もBingに切替わると無くなってゆくのでしょうかね。。。

カテゴリー: Web, 論文 タグ: , ,

IJCAI-09のonline proceedings

IJCAI-09

IJCAI-09


先週開催されていたInternational Joint Conference on Artificial Intelligence(IJCAI-09)のProceedingsが公開されています。
 
 
[Online Proceedings]

 
 
 
広告に関連する/しそうなpaperを探していて、大量にあるので全部のタイトルはまだ追えていないのですが、ぱっと目に付いたところでは

Methodology for Designing Reasonably Expressive Mechanisms with Application to Ad Auctions
Michael Benisch, Norman Sadeh, Tuomas Sandholm

CMUの人達で、abstructによると、

広告のオークションモデルについて、Yahoo, Googleの検索連動広告等で採用されているGSPモデルが効果的でない場合があることを示し、改善したPGSPなるモデルを提案する

というストーリーのようです。

興味があるので、後ほど読んでみようと思います。

HadoopDB

HadoopDB

HadoopDB


オレンジニュースさんでHadoopとRDBMSのそれぞれの特性をあわせた「HadoopDB」というProductが紹介されていました。

開発者によるリリースノートはこちらです。

    Announcing release of HadoopDB (longer version)

 
 
 

HadoopDBの特徴は

1. DBMSとMapReduceのハイブリッドで、分析作業を対象にしている
2. 一般的なサーバで構築された、(メモリとかDiskとかの)共有無しのクラスタまたはクラウド上で動作するようデザインされている
3. フリー・オープンソース並列DBのマーケットのギャップを埋めることを意図している
4. 既存の並列DBシステムやDBMS/MapReduceハイブリッドシステムよりスケーラブル
5. Hadoopと同様のスケーラビリティで、構造化データ分析作業において、優れたパフォーマンスを発揮する。

といったところのようです。
 

 ちょうど今、仕事のデータ分析をHadoopと並列DB(某社のDWH製品)両方使って行っています。
 
 構造化されているdata sourceを使った分析は並列DBを使い、大量のraw dataを解析する場合にはHadoopクラスタと使い分けています。並列DBはSQLで記述でき、比較的高速に動いてくれるので便利ではありますが、DBに入っていないraw data処理では、自由に記述できて大量データを高速に捌けるHadoopが便利です。

 HadoopDBの目指しているのがDBMSとMapReduceのハイブリッドプロダクトとのことですし、Hadoop(HDFS)に入っているデータをより簡単に扱う仕組みとしてはPigHiveがすでにあり、それらのプロダクトとの違いなど気になるところが多いです。

 そのようなわけで、HadoopDBのHPに掲載されている論文をPrintして帰りの電車の中で読んでいました。
 

 
 
 
半分くらい目を通したので、忘れないようメモにまとめます。
 
 
続きを読む…

片付けられない人

こんな時間に(自宅の)机の脇に積みあがっている資料とか文献の整理をしている。

読んでない文献や、読み返してみると何かに使えそうな資料がぼろぼろ出てきてついつい読み込んでしまってちっとも進まない。
これが典型的な「片付けられない人」の行動パターンだ。

まだ読み込んでなかったり、読み返してみたいものをいくつかピックアップしてみる。


■行動ターゲティング関連

  • FTC Staff Report : Self-Regulatory Principles For Online Behavioral Advertising (Feb. 2009) [PDF]
  • 米FTCが今年2月に出した行動ターゲティング広告のガイドラインのようなもの。まったくの未読。

    ■ クリック課金関連

  • IAB: Click Mesurement Guidelines
  • 先月ver 1.0が出たばかりの、クリックのカウント法に関するガイドライン。
    ざっくり読んだが、クリックカウントに関する用語、フロー、有効クリックの測定要件、無効クリックの測定要件(クリック詐欺の定義)、無効クリック排除方法の要件等が書いてある。
    クリック課金型(PPC)広告を担当している人は目を通しておいたほうがよいと思われるが、テクニカルタームが多いので要注意。

  • The Lane’s Gifts v. Google Report Alexander Tuzhilin[PDF]
  • Google社の無効クリック対策について書いてある。

    3年くらい前の文献でこんなことやってんの?と、当時話題になった。ずいぶん前なんで詳細は覚えていないが参考になったと思う。


    ■ 分散処理関連

  • Evaluating Map Reduce for Multi-core and Multiprocessor System[PDF]
  • abstructは読んだ。マルチコアCPU向けにMap Reduceの実装を行い評価をしたという内容。

    Map-Reduceの分散モデルは、Google MapReduce, Hadoopのような分散システムだけでなく、探してみるといろいろな形での実装例が見られる。
    この論文のようにマルチコアCPUで動かしたり、Erlangで実装してみたり、nVIDIAのCUDAを使って実装してみたりという文献もある。
    ※searchしてみたらGoogle Tech Talkの動画がYoutubeにあがっていた。 [Evaluating MapReduce for Multi-core and Multiprocessor...]


    カテゴリー: 広告, 論文 タグ:

    日本語→和英翻訳→英和翻訳→

    第23回人工知能学会全国大会が今月17日より高松で開催される。それに先だち、プログラムともにProceedingsも公開されている。前もって予稿が公開されている大会のHPは初めてみたのだが、とても良い試みだと思う。発表を聴講する前に概要を知ることができ、疑問点をあらかじめつぶしておくことができる。Q&Aの時間が有意義になることだろう。

    ま、行けないのだけれど。

    興味深い発表がいくつもあるが、その中で目を引いたものの1つが、”次元削減の再構成誤差を用いた異常検知手法の比較“というタイトルのもの。

    要点をまとめると、高次元データの特徴をPCA等で低次元空間の写像を作りデータの特徴を把握することは一般的だ。得られた低次元空間から復元写像をもとめ、再現された(はずの)高次元データを元のデータと比較する。正常データで得られた低次元の写像を学習データとして、異常値を含むデータを射影→逆射影を行うとずれが大きくなるので判別できる。これをPCAだけでなくKernel PCAやらMPPCAやら色々な方法で試み、評価している。

    面白い考え方だ。

    日本語を和英翻訳して、さらに英和翻訳して、もとの日本語と比較しましょう。
    もとの日本語がきれいであれば元通りになるし、変な日本語なら元通りにならないよ。

    みたいな感じ。

    例:正常ケース(入力と出力が近い)

    この雨のために、私の車のエンジンは壊れてしまいました

    For this rain, the engine of my car has been broken

    この雨のために、私の車のエンジンは、壊れていました

     
     
    例:異常ケース(入力と出力が遠い)

    この雨にやられてエンジンいかれちまった

    I was ruined by this rain, and an engine has been gone

    私はこの雨によって破滅しました、そして、エンジンはなくなりました

    powered by Yahoo!翻訳

    カテゴリー: 論文 タグ: