SQL Server 2012 Data Quality Services

16
SQL Server 2012 Data Quality Services Косяков Иван Архитектор (SQL-BI), MTC Moscow [email protected] , http://microsoftbi.ru

description

SQL Server 2012 Data Quality Services. Косяков Иван Архитектор ( SQL-BI), MTC Moscow [email protected] , http://microsoftbi.ru. Содержание. Введение в управление качеством данных Концепция DQS Процесс управления качеством данных Архитектура DQS Сценарии использования DQS - PowerPoint PPT Presentation

Transcript of SQL Server 2012 Data Quality Services

Page 1: SQL Server 2012 Data Quality Services

SQL Server 2012Data Quality Services

Косяков ИванАрхитектор (SQL-BI), MTC [email protected], http://microsoftbi.ru

Page 2: SQL Server 2012 Data Quality Services

Содержание Введение в управление качеством

данных Концепция DQS Процесс управления качеством данных Архитектура DQS Сценарии использования DQS Заключение

Page 3: SQL Server 2012 Data Quality Services

Что такое качество данных? Представляет уровень пригодности данных

для использования в работе Определяется, измеряется и управляется

через метрики: точность непротиворечивость полнота наличие дубликатов своевременность

Обеспечивается людьми + технологиями + процессами

Page 4: SQL Server 2012 Data Quality Services

Общие проблемы качества данныхХарактеристика Вопрос Пример

Формат Удовлетворяют ли данные непротиворечивым стандартам форматирования?

Варианты телефонных номеров: xxxxxxxxxx, +x (xxx) xxx-xxxx, 1.xxx.xxx.xxxx, и т.д.

Соответствие стандарту

Элементы данных непротиворечиво определены и понятны?

Пол = M, F, U в одной системе и Код пола = 0, 1, 2 в другой системе

Непротиворечивость Значения представляют одинаковое значение?

Доходы всегда представлены в рублях, или иногда в долларах?

Полнота Присутствуют ли все необходимые данные?

Имя 20% клиентов пустое, 50% индексов равны 999999

Точность Насколько точно данные представляют реальность или состояние источника данных?

Поставщик помеченный как «Активный» перестал существовать 6 лет назад.

Пригодность Находится ли значение в пределах допустимых значений?

Значения зарплаты должны быть между60,000-120,000

Наличие дубликатов Появляется ли одно и то же значение несколько раз?

John Ryan и Jack Ryan присутствуют в системе – это один и тот же человек?

Page 5: SQL Server 2012 Data Quality Services

Концепция Data Quality Services (DQS)• Сервисы основаны на базе знаний о качестве данных (Data

Quality Knowledge Base, DQKB), которая повторно используется для множества улучшений качества данных

На основе знаний

• Данные сопоставляются с доменами данных, которые отражают семантику (смысл) данных

Семантика (смысл)

• Дополнительные знания обнаруживаются через примеры данных и корректировки пользователей

Обнаружение знаний

• Сервисы поддерживают использование знаний, сгенерированных сторонними компаниями, предоставляющими справочные данные

Открытые и расширяемые

• Сервисы предоставляют удобный интерфейс, разработанный с целью увеличения производительности

Простота использования

Page 6: SQL Server 2012 Data Quality Services

Data Quality ServicesПроцесс обеспечения качества данных

Построение

Использование

DQ-проекты

Управление знаниями

Сопоставление и

де-дубликация Корректи

ровка

и стан

дарти

зация

Управление

знаниями

Обнаружение знанийИсследование данныхПодсоединение справочников

Данные организации

Справочные данные

Облачные сервисы

Встроенное профилиро-вание НотифиацииУлучшениеСостояние

База знаний

Page 7: SQL Server 2012 Data Quality Services

СопоставлениеСправочные

данные

Архитектура DQSDQ-клиенты

Интерфейс DQS

DQ-сервер

Хранилище DQ-проектов Склад обобщенных знаний Склад баз знаний

DQ-движок

Сторонние

Склад доменов MS DQ

Сервисы справочных

данных

Справочные наборы данныхSSIS DQ -компонент

Активные DQ-проектыДомены

данных MS

Локальные домены данных

Опублико-ванные базы

знаний

Обнаружение знаний

Профилирование и исследование

данных

Очистка

Обнаружение знаний и

управление

Интерактивные DQ-проекты

Исследование данных

Будущие клиенты (Excel,

SharePoint…)

Azure Market Place

Категоризованные справочные данные

Категоризованные сервисы справочных данных

Reference Data API(Browse, Get, Update…)

RD Services API(Browse, Set, Validate…)

Page 8: SQL Server 2012 Data Quality Services

Data Quality Knowledge Base (DQKB)What the DQKB contains ? Data Domains

Examples : email, gender , sate Composite Data Domain

Examples: Full Name (Given + Middle + Surname) Address (Street + City + State + Country)

Domain Knowledge Properties Name, type Values Correct, Errors, Synonyms Rules Validation, Standardization, Business 3rd party reference

Matching Policy Rules that drive the Matching computation

Page 9: SQL Server 2012 Data Quality Services

Высоко-уровневые сценарии DQS• Создание и управление базами знаний о качестве

данных (Data Quality Knowledge Bases или DQKBs)• Исследование и интеграция со сторонними

справочными данными

Управление знаниями и ссылочными данными

• Корректировка• Удаление дубликатов• Стандартизация данных

Очистка и сопоставление

• Инструменты мониторинга и контроля качества DQ-процессовАдминистрирование

Page 10: SQL Server 2012 Data Quality Services

Управление знаниями

DQS-сервер

Внешние знания – ссылочные сервисы и наборы данных

Пример данных источника +

сопоставление (mapping)

Автоматически обнаруженные значения и правила

Одобренные пользователем значения доменов и правила

Общие знания – алгоритмы, сервисы, пред-настроенные домены и т.д.

База знаний

Политика сопоставления и определение справочных данных

Page 11: SQL Server 2012 Data Quality Services

Интерактивная очистка

DQS-сервер

Сервисы ссылочных данных

Неправильные

Корректные записи

Исправленные записи

Предлагаемые исправления

Источник + сопоставление

Значения/правила

Определения справочных данных

Политика сопоставления

База знаний

Page 12: SQL Server 2012 Data Quality Services

Interactive Cleansing – ScenarioBefore:

After:

Name Gender Street House Number Zip code City State Date of Birth

John Doe Male 60th streat 45 New York New York 08/12/64

Jane Doe Male Jonathan ln 36 10023 Poughkeepsy NY 21-dec-1954

Completeness Accuracy Conformity Consistency

Name Gender Street House Number Zip code City State Date of Birth

John Doe Male E 60th St 45W 10022 New York NY 08/12/64Jane Doe Female Jonathan Lane 36 10023 Poughkeepsie NY 12/21/54

Page 13: SQL Server 2012 Data Quality Services

Значения/правила

Определения справочных данных

Политика сопоставления

Пакетная очистка с помощью SSIS

Source + Mapping

Data correctionComponent

SSIS-пакетDestination

DQS-сервер

Ссылочные сервисы данных Поток данных SSIS

База знаний

Неправильные

Корректные записи

Исправленные записи

Предлагаемые исправления

Page 14: SQL Server 2012 Data Quality Services

Сопоставление

Процесс сопоставления: 1. Тренировка2. Сопоставление3. Авто-подтверждение4. Слияние/наследование

DQS-серверDQ-клиент – Результаты

База знаний

Источник + сопоставление

Значения/правила

Определения справочных данных

Политика сопоставления

Page 15: SQL Server 2012 Data Quality Services

Сценарий сопоставленияBefore:

After:

Name Address Postal Code City State

John Smith 545 S Valley View Drive # 136 34563 Anytown New YorkMargaret & John smith 545 Valley View ave unit 136 34563-2341 Anytown New YorkMaggie Smith 545 S Valley View Dr Anytown New YorkJohn Smith 545 Valley Drive St. 34253 NY NY

Name Address Postal Code City State Cluster

John Smith 545 S Valley View Drive # 136 34563 Anytown New York 1Margaret & John smith 545 Valley View ave unit 136 34563-2341 Anytown New York 1Maggie Smith 545 S Valley View Dr Anytown New York 1John Smith 545 Valley Drive St. 34253 NY NY 2

Page 16: SQL Server 2012 Data Quality Services

Справочные данные

Знания, сгенерированные

пользователями

Интеграция с SSIS

Открыты и расширяемы

Производительность и удобство

Для офисных пользователей

Авто-обнаружение знаний

Просты в использовании

Большая база знаний

Постоянное улучшение и

расширение знаний

Повторное использование

Основаны на знаниях

Заключение – характеристики DQS