HBase

22
Hadoop, Hbase и другие H… 25.12.2009

Transcript of HBase

Page 1: HBase

Hadoop, Hbase и другие H…

25.12.2009

Page 2: HBase

www.itransition.com

Стр. 2

Мама, что это?

HBase – это a distributed sparse sorted persistent multidimensional

MAP

Page 3: HBase

www.itransition.com

Стр. 3

SPARSE

Page 4: HBase

www.itransition.com

Стр. 4

MULTIDIMENSIONAL / GLIST

Lists { danny.todolist1: { items: { Avatar: 17/12/2009, cleanup: 25/12/2009, … } attributes: { private: true, expiration: 10/10/2010, notify: true, … } }, danny.wishlist1: { items: { AppleMacbook: http://applestore.com, Gucci pur hommes: http://guccistore.com, … }, attributes: { private:false, … } }, …}

Page 5: HBase

www.itransition.com

sorted

Стр. 5

ВМЕСТО ИНДЕКСОВ, КАК В RDBMS!

В СТРОГОМ ЛЕКСИКОГРАФИЧЕСКОМ ПОРЯДКЕ!

НЕ ПОДДЕРЖИВАЕТ FULL RELATIONAL DATAMODEL

Page 6: HBase

www.itransition.com

Концептуальное / Физическое хранение данных

Стр. 6

Page 7: HBase

www.itransition.com

Стр. 7

THE REAL BOSS – BIGTABLE

Google Earth

Google AnalyticsLast.fm

Facebook

Adobe

WHO IS THE REAL BOSS?

BIGTABLE HBASE

Page 8: HBase

www.itransition.com

Стр. 8

WELCOME TO THE DISTRIBUTED WORLD

HADOOP

HDFS

HIVE

PIG

MAPREDUCE

ZOOKEEPER

DATAMINING

HBase

Page 9: HBase

www.itransition.com

Стр. 9

Pig on Twitter

Page 10: HBase

www.itransition.com

Стр. 10

Hive on Facebook

Page 11: HBase

www.itransition.com

Стр. 11

WHEN HBASE SHINES / STINKS

-SCALINGApplications place very different demands on Bigtable, both in terms of data size (from URLs to web pages to satellite imagery) and latency requirements (from backend bulk processing to real-time data serving).

-SPARSE DATA

-VERSIONINGIn every other case and in general case HBase isn’t right!(frequent reconfiguration, decentralized control, Byzantine fault tolerance, structured schema, simple schema)

Page 12: HBase

www.itransition.com

Стр. 12

Page 13: HBase

www.itransition.com

Стр. 13

ПРАВИЛА HBASE DATA MODEL

Забудьте про RDBMS-BIG rows - query result is usually few rows, stuffed with data - хранение many-to-one в одном row - вместо joins в RDBMS- денормализованная схема- дубляж данных- ГОВОРЯЩИЙ ключ-индекс- КЛЮЧ определяет LOCATION - Column-famnily is a unit of performance tuning.

Page 14: HBase

www.itransition.com

Стр. 14

Page 15: HBase

www.itransition.com

Стр. 15

Page 16: HBase

www.itransition.com

Стр. 16

Page 17: HBase

www.itransition.com

Стр. 17

Page 18: HBase

www.itransition.com

Стр. 18

Page 19: HBase

www.itransition.com

Стр. 19

Page 20: HBase

www.itransition.com

Стр. 20

CLUSTER STRUCTURE

Page 21: HBase

www.itransition.com

Стр. 21

PERFORMANCE

Page 22: HBase

www.itransition.com

Стр. 22

PERFORMANCE