Introductory Keynote at Hadoop Workshop by Ospcon (2014)
-
Upload
andrei-nikolaenko -
Category
Software
-
view
150 -
download
2
description
Transcript of Introductory Keynote at Hadoop Workshop by Ospcon (2014)
![Page 1: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/1.jpg)
ЭКОСИСТЕМЫHADOOP
Становление и тенденции коммерциализации
![Page 2: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/2.jpg)
ЭКОСИСТЕМА?
«Экосистема» как архитектура конкретных решений, использующих Hadoop
Тиражируемые ИТ-решения, связанные с Hadoop
«Экосистема» программных
продуктов, стыкующихся с
Hadoop (как проектов фонда
Apache, так и сторонних)
Готовые сборки «экосистем» –дистриубитвы
Hadoop
Готовые услуги по предоставлению
«экосистем» –«Hadoop как услуга»
Готовые аппаратно-программные «экосистемы»
![Page 3: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/3.jpg)
HADOOP И СВЯЗАННЫЕ
ПРОЕКТЫ
Проекты Apache
Сторонние проекты
![Page 4: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/4.jpg)
HADOOP 2.0 КАК ВЕХА В СТАНОВЛЕНИИ ЭКОСИСТЕМЫ
YARN[yet another resource
negotiator]
От MapReduce отделена логика управления
ресурсами и планирования заданий
Мультиарендность в одном кластере
YARN – «кластерная операционная система»
Изображения: ©2014, Hortonworks
![Page 5: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/5.jpg)
“ЭКОСИСТЕМА”ПРОЕКТОВ
HDFS
GlusterFS
Ceph
YARN
MapReduce(пакетная
обработка)
Tez(интерактивная
обработка)
Amazon S3 CloudStore
Swift
Pig(сценарии)
Hive(запросы)
HBase(NoSQL)
Impala(SQL)
Drill(аналог Dremel)
Mahout(машинное обучение)
Zookeeper(координатор)
Ambari(управление)
Hue(ClouderaManager)
Ganglia(монитор)
Spark(оперативная обработка)
Storm(поточная
обработка)
Kafka(брокер
сообщений)
Oozie(workflow)
Sqoop(пакетная загрука)
Flume(поточная загрузка)
Hama(машинное обучение)
Taychon(in-memory data grid)
Azure Blob
Storage
файловые системы объектные хранилища
обработчики
СУБД-сервис
глубинный анализ
связующие управляющие
Сторонние проекты
ЯдроHadoop
Проекты Фонда
Apache
BigTop(сборка пакетов)
![Page 6: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/6.jpg)
©2014, Arian Nawa
ВЗГЛЯД НА ЭКОСИСТЕМУ КАК КОНГЛОМЕРАТ ПРОЕКТОВ (АРИАН НАВА)
![Page 7: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/7.jpg)
ДИСТРИБУТИВЫ HADOOP
![Page 8: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/8.jpg)
Рынок дистрибутивов Hadoop
ДИСТРИБУТИВЫ-ЛИДЕРЫ
Cloudera
Oracle Big Data
Appliance
EMC Isilon
MapR
Amazon EMR
Pivotal Greenplu
m HD(первая версия)
Hortonworks
Teradata
MircosoftWindows и
Azure
Изображение: ©2013, Altoros
![Page 9: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/9.jpg)
ДРУГИЕ ДИСТРИБУТИВЫ И «ПРЕДДИСТРИБУТИВЫ»
IBM
выпускается
EMC (Pivotal)
выпускается
Intel
закрыт(в пользу Cloudera)
Yahoo
закрыт [в пользу Hortonworks]
Дистрибутивы Linux
Red Hat, Fedora, CentOS SuSE Debian, Ubuntu
Apache BigTop
.rpm .debрецепты для Vagrant,
docker…
![Page 10: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/10.jpg)
HADOOP КАК УСЛУГА
Hadoop в публичных облаках
![Page 11: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/11.jpg)
ОСНОВНЫЕ ПРОВАЙДЕРЫ
• На базе MapR
• Интегрирован с S3
AmazonElastic MapReduce
• На базе Hortonworks
• Интегрирован с SwiftFSRackspace
• На базе HortonworksMicrosoft Azure
• BigInsightsIBM Bluemix
![Page 12: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/12.jpg)
HADOOP-КОМПЛЕКСЫ
Тиражируемые интегрированные аппаратно-программные комплексы с Hadoop
![Page 13: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/13.jpg)
КОМПЛЕКСЫ
Hadoopна «голом железе»
Oracle Big Data Appliance
Teradata HadoopAppliance
EMC/PivotalGreenplum HD
Конвергентные комплексы
VCE [Cisco – Vmware – EMC]
FlexPod[Cisco –… – NetApp]
IBM/LenovoPure for Hadoop
![Page 14: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/14.jpg)
КАРТИНЫ МИРА ОТ DATAMEER
… названные «экосистема Hadoop»
![Page 15: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/15.jpg)
HADOOP ECOSYSTEM
as of January, 2012
Изображение: ©2012, Datameer
![Page 16: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/16.jpg)
Изображение: ©2013, Datameer
![Page 17: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/17.jpg)
Изображение: ©2014, Forrester Research
… И «ВОЛНЫ» FORRESTER(I КВАРТАЛ 2014)
![Page 18: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/18.jpg)
АРХИТЕКТУРНЫЕ РЕШЕНИЯ
![Page 19: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/19.jpg)
Λ-АРХИТЕКТУРА
Все данные
Свежие данные
Предобработанные
данные
с л о й р а з д а ч и
…
п а к е т н ы й с л о й
б ы с т р ы й с л о й
Данные реального
времени
Поток данных Инкремент данных
Комплексный
агрегат
Частичный
агрегат
Частичный
агрегат
Пакетные представления
Представление реального времени
MapReduce
Storm
HDFSFlume
Flume
HBase
Свежие данные подпадают одновременно в слои пакетной и быстрой обработки
и комбинируются в отдельном слое раздачи
![Page 20: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/20.jpg)
SPARKСамый активный
свободный проект
в области больших данных
file = spark.textFile("hdfs://...")
file.flatMap(lambda line: line.split())
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a+b)
Фреймворк для оперативной распределённой обработки с предопределёнными примитивами для циклической обработки и обработки в оперативной памяти
Изображение: ©2014, Apache Software Foundation
SharkSpark
SQL
Spark
streamingMLib
Graph
X
Проекты над Spark:
![Page 21: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/21.jpg)
SQL НАД HADOOP
Изображение: ©2014, Gigaom Research
Федераторы
Teradata SQL-H Greenplum Hawk
Встраиваемые в «экосистему» (YARN)
Cloudera ImpalaHadapt
(поглощена Teradata)
SQL над Apache Spark
Shark Spark SQL
В развитие Hive
HortonworksStinger
Facebook Presto
«Появление решений, обеспечивающих
выполнение ANSI SQL над Hadoop
создало непосредственную возможность
признания Hadoop уже в 2015 году
как практической платформы данных для
широкого круга организаций»
Forrester Research, ноябрь 2014
![Page 22: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/22.jpg)
ГЛОССАРИЙ
![Page 23: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/23.jpg)
Applicance
Программно-аппаратный
комплекс
Комплекс
Bare-metal
«Голое железо»
Box
Узел
Chunk
Блок данных
Commodity hardware
Оборудование массового
класса
Curring
Каррирование
A…J
Data node
Узел данных
Deployment
Развёртывание
Direct-attached storage
Устройство хранения прямого
подключения
Engine
Механизм
Движок
Job
Задание
Job tracker
Трекерзаданий
![Page 24: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/24.jpg)
Machine
Машина
Map
[?]
Mapper
[?]
Mapping
Соответствие
Master node
Главный узел
Multi-tennancy
Мульти-арендность
M…R
Name node
Узел имён
Namespace
Пространство имён
Node
Узел
Realtime
…реального времени
Reduce
Свёртка
Сведение
Reducer
Свёртка
![Page 25: Introductory Keynote at Hadoop Workshop by Ospcon (2014)](https://reader033.fdocuments.us/reader033/viewer/2022060202/559c1ced1a28ab14158b46b5/html5/thumbnails/25.jpg)
S…W
Shard
Узел [распределённо
го хранения]
Shuffle
Тасовка
Slave node
Подчинённый узел
Slot
Слот
Stack
Стек
Task
Задача
Task tracker
Трекер задач
Trail
След
Worker
Исполнитель
Worker node
Узел исполнения
Workflow
Поток операций
Workload
Нагрузка