アーカイブ
HadoopDB
オレンジニュースさんでHadoopとRDBMSのそれぞれの特性をあわせた「HadoopDB」というProductが紹介されていました。
開発者によるリリースノートはこちらです。
HadoopDBの特徴は
1. DBMSとMapReduceのハイブリッドで、分析作業を対象にしている
2. 一般的なサーバで構築された、(メモリとかDiskとかの)共有無しのクラスタまたはクラウド上で動作するようデザインされている
3. フリー・オープンソース並列DBのマーケットのギャップを埋めることを意図している
4. 既存の並列DBシステムやDBMS/MapReduceハイブリッドシステムよりスケーラブル
5. Hadoopと同様のスケーラビリティで、構造化データ分析作業において、優れたパフォーマンスを発揮する。
といったところのようです。
ちょうど今、仕事のデータ分析をHadoopと並列DB(某社のDWH製品)両方使って行っています。
構造化されているdata sourceを使った分析は並列DBを使い、大量のraw dataを解析する場合にはHadoopクラスタと使い分けています。並列DBはSQLで記述でき、比較的高速に動いてくれるので便利ではありますが、DBに入っていないraw data処理では、自由に記述できて大量データを高速に捌けるHadoopが便利です。
HadoopDBの目指しているのがDBMSとMapReduceのハイブリッドプロダクトとのことですし、Hadoop(HDFS)に入っているデータをより簡単に扱う仕組みとしてはPigやHiveがすでにあり、それらのプロダクトとの違いなど気になるところが多いです。
そのようなわけで、HadoopDBのHPに掲載されている論文をPrintして帰りの電車の中で読んでいました。
半分くらい目を通したので、忘れないようメモにまとめます。
続きを読む…
