SQL Server 2012 Data Quality Services
description
Transcript of SQL Server 2012 Data Quality Services
SQL Server 2012Data Quality Services
Косяков ИванАрхитектор (SQL-BI), MTC [email protected], http://microsoftbi.ru
Содержание Введение в управление качеством
данных Концепция DQS Процесс управления качеством данных Архитектура DQS Сценарии использования DQS Заключение
Что такое качество данных? Представляет уровень пригодности данных
для использования в работе Определяется, измеряется и управляется
через метрики: точность непротиворечивость полнота наличие дубликатов своевременность
Обеспечивается людьми + технологиями + процессами
Общие проблемы качества данныхХарактеристика Вопрос Пример
Формат Удовлетворяют ли данные непротиворечивым стандартам форматирования?
Варианты телефонных номеров: xxxxxxxxxx, +x (xxx) xxx-xxxx, 1.xxx.xxx.xxxx, и т.д.
Соответствие стандарту
Элементы данных непротиворечиво определены и понятны?
Пол = M, F, U в одной системе и Код пола = 0, 1, 2 в другой системе
Непротиворечивость Значения представляют одинаковое значение?
Доходы всегда представлены в рублях, или иногда в долларах?
Полнота Присутствуют ли все необходимые данные?
Имя 20% клиентов пустое, 50% индексов равны 999999
Точность Насколько точно данные представляют реальность или состояние источника данных?
Поставщик помеченный как «Активный» перестал существовать 6 лет назад.
Пригодность Находится ли значение в пределах допустимых значений?
Значения зарплаты должны быть между60,000-120,000
Наличие дубликатов Появляется ли одно и то же значение несколько раз?
John Ryan и Jack Ryan присутствуют в системе – это один и тот же человек?
Концепция Data Quality Services (DQS)• Сервисы основаны на базе знаний о качестве данных (Data
Quality Knowledge Base, DQKB), которая повторно используется для множества улучшений качества данных
На основе знаний
• Данные сопоставляются с доменами данных, которые отражают семантику (смысл) данных
Семантика (смысл)
• Дополнительные знания обнаруживаются через примеры данных и корректировки пользователей
Обнаружение знаний
• Сервисы поддерживают использование знаний, сгенерированных сторонними компаниями, предоставляющими справочные данные
Открытые и расширяемые
• Сервисы предоставляют удобный интерфейс, разработанный с целью увеличения производительности
Простота использования
Data Quality ServicesПроцесс обеспечения качества данных
Построение
Использование
DQ-проекты
Управление знаниями
Сопоставление и
де-дубликация Корректи
ровка
и стан
дарти
зация
Управление
знаниями
Обнаружение знанийИсследование данныхПодсоединение справочников
Данные организации
Справочные данные
Облачные сервисы
Встроенное профилиро-вание НотифиацииУлучшениеСостояние
База знаний
СопоставлениеСправочные
данные
Архитектура DQSDQ-клиенты
Интерфейс DQS
DQ-сервер
Хранилище DQ-проектов Склад обобщенных знаний Склад баз знаний
DQ-движок
Сторонние
Склад доменов MS DQ
Сервисы справочных
данных
Справочные наборы данныхSSIS DQ -компонент
Активные DQ-проектыДомены
данных MS
Локальные домены данных
Опублико-ванные базы
знаний
Обнаружение знаний
Профилирование и исследование
данных
Очистка
Обнаружение знаний и
управление
Интерактивные DQ-проекты
Исследование данных
Будущие клиенты (Excel,
SharePoint…)
Azure Market Place
Категоризованные справочные данные
Категоризованные сервисы справочных данных
Reference Data API(Browse, Get, Update…)
RD Services API(Browse, Set, Validate…)
Data Quality Knowledge Base (DQKB)What the DQKB contains ? Data Domains
Examples : email, gender , sate Composite Data Domain
Examples: Full Name (Given + Middle + Surname) Address (Street + City + State + Country)
Domain Knowledge Properties Name, type Values Correct, Errors, Synonyms Rules Validation, Standardization, Business 3rd party reference
Matching Policy Rules that drive the Matching computation
Высоко-уровневые сценарии DQS• Создание и управление базами знаний о качестве
данных (Data Quality Knowledge Bases или DQKBs)• Исследование и интеграция со сторонними
справочными данными
Управление знаниями и ссылочными данными
• Корректировка• Удаление дубликатов• Стандартизация данных
Очистка и сопоставление
• Инструменты мониторинга и контроля качества DQ-процессовАдминистрирование
Управление знаниями
DQS-сервер
Внешние знания – ссылочные сервисы и наборы данных
Пример данных источника +
сопоставление (mapping)
Автоматически обнаруженные значения и правила
Одобренные пользователем значения доменов и правила
Общие знания – алгоритмы, сервисы, пред-настроенные домены и т.д.
База знаний
Политика сопоставления и определение справочных данных
Интерактивная очистка
DQS-сервер
Сервисы ссылочных данных
Неправильные
Корректные записи
Исправленные записи
Предлагаемые исправления
Источник + сопоставление
Значения/правила
Определения справочных данных
Политика сопоставления
База знаний
Interactive Cleansing – ScenarioBefore:
After:
Name Gender Street House Number Zip code City State Date of Birth
John Doe Male 60th streat 45 New York New York 08/12/64
Jane Doe Male Jonathan ln 36 10023 Poughkeepsy NY 21-dec-1954
Completeness Accuracy Conformity Consistency
Name Gender Street House Number Zip code City State Date of Birth
John Doe Male E 60th St 45W 10022 New York NY 08/12/64Jane Doe Female Jonathan Lane 36 10023 Poughkeepsie NY 12/21/54
Значения/правила
Определения справочных данных
Политика сопоставления
Пакетная очистка с помощью SSIS
Source + Mapping
Data correctionComponent
SSIS-пакетDestination
DQS-сервер
Ссылочные сервисы данных Поток данных SSIS
База знаний
Неправильные
Корректные записи
Исправленные записи
Предлагаемые исправления
Сопоставление
Процесс сопоставления: 1. Тренировка2. Сопоставление3. Авто-подтверждение4. Слияние/наследование
DQS-серверDQ-клиент – Результаты
База знаний
Источник + сопоставление
Значения/правила
Определения справочных данных
Политика сопоставления
Сценарий сопоставленияBefore:
After:
Name Address Postal Code City State
John Smith 545 S Valley View Drive # 136 34563 Anytown New YorkMargaret & John smith 545 Valley View ave unit 136 34563-2341 Anytown New YorkMaggie Smith 545 S Valley View Dr Anytown New YorkJohn Smith 545 Valley Drive St. 34253 NY NY
Name Address Postal Code City State Cluster
John Smith 545 S Valley View Drive # 136 34563 Anytown New York 1Margaret & John smith 545 Valley View ave unit 136 34563-2341 Anytown New York 1Maggie Smith 545 S Valley View Dr Anytown New York 1John Smith 545 Valley Drive St. 34253 NY NY 2
Справочные данные
Знания, сгенерированные
пользователями
Интеграция с SSIS
Открыты и расширяемы
Производительность и удобство
Для офисных пользователей
Авто-обнаружение знаний
Просты в использовании
Большая база знаний
Постоянное улучшение и
расширение знаний
Повторное использование
Основаны на знаниях
Заключение – характеристики DQS