Big data in energy
-
Upload
yury-kochubeev -
Category
Engineering
-
view
72 -
download
1
description
Transcript of Big data in energy
© 2013 IBM Corporation
Большие Данные в атомной энергетике Кочубеев Юрий
© 2013 IBM Corporation 2 2
2
4 Исследование больших данных
2
3 «Накопление» больших данных
О чем мы сегодня поговорим
5
2
Большие данные в энергетике
6 Примеры из самой Атомной страны
Что сейчас принято называть Большими данными 1 Работа потоком больших данных
© 2013 IBM Corporation 3 3
3
Что сейчас принято называть Большими данными 1
© 2013 IBM Corporation 4
Большие данные меняют соотношение затрат и ценности Больше данных в анализе дает больше ценности
Стоимость превосходит ценность анализа
дополнительных данных
Скачок ценности от новых источников и
типов данных
Замедление роста затрат за счет новых технологий
© 2013 IBM Corporation 5
Смещение парадигм работы с данными
Все данные «Настоящие» данные
Перестаем перебирать гипотезы
Анализ данных в момент появления
© 2013 IBM Corporation 6
Три «кита» больших данных
Работа с ПОТОКОМ данных Streams Хранение и обработка в одной системе, терабайты и более – не проблема BigInsights (Hadoop) Обеспечить навигацию в непонятном ворохе данных Watson Explorer
Velocity:
Volume: Variety:
© 2013 IBM Corporation 7 7
2
7
Работа потоком больших данных
© 2013 IBM Corporation 8
Streams – анализ любых данных в потоке Аналитика за микросекунды
Картинки и видео (Open Source)
Анализ текста Текст Морфология, вычленение термов
Акустика (IBM НИОКР) (Open Source)
Гео Обработка (IBM НИОКР)
Предсказание (IBM НИОКР)
Расширенне Матмодели (IBM НИОКР)
Статистка ∑
populationtt asR ),(
© 2013 IBM Corporation 9
Как работает Streams
X86 или Power
X86 или Power
X86 или Power
X86 или Power
X86 или Power
«Исполнители» назначаются динамически, в зависимости от нагрузки и работоспособности
Типовое оборудование снижает стоимость и повышает надежность и простоту
Фильтр
Потоки данных также распределяются
Потоки могут взаимно пересекаться
Датчики Внешние условия
Датчики
Датчики
Действие
Накопле- ние
Действие Фильтр Модель
© 2013 IBM Corporation 10 10
10
3 «Накопление» больших данных
10
© 2013 IBM Corporation 11
BigInsights – Архитектура Big SQL
Работает на POWER и Intel x64
Hadoop
Интерфейс
Big SQL Оптимизатор, Планировщик, очередь
Запросы SQL Результат
Hive Metastore
Подсистема хранения
Файловая система (HDFS)
API вызовы Hadoop
Обмен метаданными
Хранилище временных данных
Метаданные для планировки запросов
Исполняющие узлы Big SQL
Native I/O, Java I/O SerDe, UDFs Федерализация
запросов
Внешние источники
© 2013 IBM Corporation 12
Стандартный SQL 2003 • Все мы любим изучать результаты измерения производительности, но это только вершина айсберга – А сколько нужно приложить усилий для достижения этих результатов?
• К примеру возьмем популярные тесты производительности TPC-H и TPC-DS • Big SQL поддерживает стандартный SQL2003
– Все 22 запроса из набора тестов TPC-H работают БЕЗ модификаций – Все 99 запроса из набора тестов TPC-DS работают БЕЗ модификаций
SELECT s_name, count(*) AS numwait FROM supplier, lineitem l1, orders, nation WHERE s_suppkey = l1.l_suppkey AND o_orderkey = l1.l_orderkey AND o_orderstatus = 'F' AND l1.l_receiptdate > l1.l_commitdate AND EXISTS ( SELECT * FROM lineitem l2 WHERE l2.l_orderkey = l1.l_orderkey AND l2.l_suppkey <> l1.l_suppkey) AND NOT EXISTS ( SELECT * FROM lineitem l3 WHERE l3.l_orderkey = l1.l_orderkey AND l3.l_suppkey <> l1.l_suppkey AND l3.l_receiptdate > l3.l_commitdate) AND s_nationkey = n_nationkey AND n_name = ':1' GROUP BY s_name ORDER BY numwait desc, s_name
JOIN (SELECT s_name, l_orderkey, l_suppkey FROM orders o JOIN (SELECT s_name, l_orderkey, l_suppkey FROM nation n JOIN supplier s ON s.s_nationkey = n.n_nationkey AND n.n_name = 'INDONESIA' JOIN lineitem l ON s.s_suppkey = l.l_suppkey WHERE l.l_receiptdate > l.l_commitdate) l1 ON o.o_orderkey = l1.l_orderkey AND o.o_orderstatus = 'F') l2 ON l2.l_orderkey = t1.l_orderkey) a WHERE (count_suppkey > 1) or ((count_suppkey=1) AND (l_suppkey <> max_suppkey))) l3 ON l3.l_orderkey = t2.l_orderkey) b WHERE (count_suppkey is null) OR ((count_suppkey=1) AND (l_suppkey = max_suppkey))) c GROUP BY s_name ORDER BY numwait DESC, s_name
SELECT s_name, count(1) AS numwait FROM (SELECT s_name FROM (SELECT s_name, t2.l_orderkey, l_suppkey, count_suppkey, max_suppkey FROM (SELECT l_orderkey, count(distinct l_suppkey) as count_suppkey, max(l_suppkey) as max_suppkey FROM lineitem WHERE l_receiptdate > l_commitdate GROUP BY l_orderkey) t2 RIGHT OUTER JOIN (SELECT s_name, l_orderkey, l_suppkey FROM (SELECT s_name, t1.l_orderkey, l_suppkey, count_suppkey, max_suppkey FROM (SELECT l_orderkey, count(distinct l_suppkey) as count_suppkey, max(l_suppkey) as max_suppkey FROM lineitem GROUP BY l_orderkey) t1
Оригинальный запрос А чтоб он
заработал на Hive?
© 2013 IBM Corporation 13 13
13
4 Исследование больших данных
13
© 2013 IBM Corporation 14
Watson Explorer – пойди туда - не знаю куда, принести то - не знаю что
Адаптеры к источникам
CRM RDBMS НОВОСТИ Web 2.0
Почта Web ERP Файлы
Текстовая аналитика Тезаурус Кластеризация Онтология Семантика Вычленение сущностей Релевантность
Метаданные Разбиение на зоны Аналитика Тэгирование Таксономия Совместная работа
Преобразование
Поисковый движек
консолидация
Индексация
Фреймворк
Авторизация Декомпозиция запросов
Персонализация Визуализация
Профили пользователей
Внешние источники
Новостные каналы Web ресурсы
Исследование
Панорамный взгляд
Собственные приложения
© 2013 IBM Corporation 15 15
15
5
15
Большие данные в энергетике
© 2013 IBM Corporation 16
Энергетическая стратегия России на период до 2030 года V. Государственная энергетическая политика
Cоздание высокоинтегрированных интеллектуальных системообразующих и распределительных электрических сетей нового поколения в Единой энергетической системе России (интеллектуальные сети - Smart Grids); http://minenergo.gov.ru/aboutminen/energostrategy/ Пилотный проект в Перми: В качестве пилотной площадки выбран Мотовилихинский район города Перми, где будет заменено и установлено порядка 50 тыс. «Интеллектуальных» счетчиков электроэнергии.
© 2013 IBM Corporation 17
Основные способы использования больших данных
Grid Operations
Италия
Как отследить отключения электроэнергии до того как начнут поступать жалобы?
Сбор и анализ данные с датчиков на электросети для всестороннего
контроля работы сети
Моментальная диагностика проблем в сети за счет
всеобъемлющего контроля в реальном времени
Управление ресурсами
Как ПРЕДСКАЗАТЬ необходимость ремонта
оборудования
На четверть улучшена загруженность ресурсов,
персоанала
Северная Америка газотранспортная система
Сбор и анализ данных из множества источников, для улучшения планирования
сопровождения, ремонта и замены
«Умные» датчики
Как я могу использовать данные с умных датчиков для планирования и
улучшения обслуживания
Франция
Анализ потребления электроэнергии, поиск событий и их корреляция
Достигнута экономия за счет планирования
элекропотребления
© 2013 IBM Corporation 18
Управление ресурсами и персоналом: принятие решений по техническому обслуживанию на основе состояния оборудования
• Анализ потока событий для обнаружения возможных проблем в реальном времени
• Корреляция нестандартного поведения и последствий
• Использование информации о ресурсах и текущем состоянии для оптимизации задач обслуживания
• Сбор информации в одном месте
Новые Возможности
Что хотим получить Снижение числа отказов оборудования Продление срока службы оборудования Приоритизация заданий на обслуживание Снижение стоимости обслуживания Снижение сложности предоставления отчетов о состоянии
Происшествия • Исторические данных о отказах • Протоколы о происшествиях • Планы действий при авариях
Обслуживание • Заказ-‐наряды и графики • История обслуживания • Сервисная документация • Результаты обследований • Допуск к работам
Передача и распределение • Информация с датчиков на оборудовании • Спецификации оборудования • Регламенты обслуживания
Генерация • Датчики на оборудовании • Спецификации оборудования • Регламенты обслуживания • Планы физического расположения
Регулятока • Нормативы • стандарты • документы • формуляры
© 2013 IBM Corporation 19 19
19
19
6 Примеры из самой Атомной страны
© 2013 IBM Corporation 20
Чистая выработка электроэнергии по всему миру: всего 134,6 ГВтэ => 628,2 млрд. КВтч Атомная энергетика 74,8 ГВтэ; ископаемое топливо: 34,4 ГВтэ; гидроэнергетика & возобновляемые виды топлива: 25,4 ГВтэ Производство EDF во Франции: всего 97,4 ГВтэ => 459,7 млрд. КВтч 85% производства электроэнергии во Франции (541,9 млрд.КВт ч э) Атомная энергетика : 63,13 ГВтэ => 421,1 млрд.КВтч э (91,6%) ; ископаемое топливо: 14,27 ГВтэ => 11,8 млрд. КВтч э(2,6%); Гидроэнергетика: 20 ГВтэ => 26,8 млрд. КВтч э (5,8%) Электричество: охватывает всю цепочку, от проектирования, выработки до передачи, распределения и поставки. Прочная позиция в Европе и основных европейских странах, таких как Франция, Италия, Польша и Великобритания. С целью повышения срока эксплуатации атомного парка до 60 лет, EDF запустила программу прогнозирования старения компонентов
© 2013 IBM Corporation 21
Сбор данных об энергопотреблении в режиме реального времени
• Проект: запустить более 35 миллионов «умных» измерителей • На текущем этапе пилотная программа подразумевает300 000 «умных» приборов
© 2013 IBM Corporation 22
Данные: Данные об индивидуальном электропотреблении, погодных условиях, детали логовора. Измерение каждые 10 минут для 35 миллионов потребителей Объем информации в год БОЛЕЕ 1800 миллиардов записей, или 120ТБ сырых данных.
Разделяй и властвуй
После сжатия данных стало 10 Tb
© 2013 IBM Corporation 23
Проанализируем как идет потребление электроэнергии:
Слева – один пользователь, два разных дня
Справа – Два разных пользователя в один и тот-же день.
© 2013 IBM Corporation 24
А теперь более глубокий анализ:
Найдем похожие временных рядов, с профилем потребления в огромном наборе непрерывных данных • Выделим 6 основных 6 профилей потребителя • Метод скользящего окна • Ничего лучше метода «Грубой силы». Спасение
- распределенные вычисления НЕПОСРЕДСТВЕННО на узлах хранящих информацию
Проанализировать 35 миллионов графиков, за 30 дней, и найти похожие, как думаете сколько понадобилось времени?
4 Минуты 45 секунд!!!
© 2013 IBM Corporation 25
Спасибо за внимание!