Introducción a Data Quality Services en MS SQL Server 2012
-
Upload
cheo-redondo -
Category
Technology
-
view
3.472 -
download
4
description
Transcript of Introducción a Data Quality Services en MS SQL Server 2012
SQL PASS Venezuela – Caracas Chapter
http://venezuela.sqlpass.org/http://venezuela.sqlpass.org/
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
Introducción a los Servicios de Calidad de Datos - “DQS” con MS SQL Server 2012
José RedondoMCP, MCST - MS SQL Server 2K5MTA - Database Administration FundamentalsChapter Leader Caracas Chapter
José RedondoMCP, MCST - MS SQL Server 2K5MTA - Database Administration FundamentalsChapter Leader Caracas Chapter
[email protected] [email protected]
@redondoj@redondoj
www.facebook.com/redondojwww.facebook.com/redondoj
redondoj.wordpress.comredondoj.wordpress.com
AGENDA• Conceptos• Arquitectura• Administración del Conocimiento & Limpieza de Datos
DEMO “Base de Conocimiento & Limpieza”• Correspondencia & Coincidencias de Datos
DEMO “Correspondencia & Coincidencia”• Integración de DQS con SSIS
DEMO “Limpieza de Datos”• Preguntas y Respuestas
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
CONCEPTOS
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
Representa el grado en que los datos son adecuados y/o apropiados para su uso comercial en cualquier ámbito empresarial.
Datos Malos=
Empresas Deficientes
Se construyen y desarrollan a través de la siguiente ecuación:‘Personas + Tecnología + Procesos’
CONCEPTOS
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
Basada en el conocimiento
Semántica
Descubrir el conocimiento
Basado en la Base de Conocimiento de la Calidad de Datos (DQKB)
Dominios de Datos capturan la semántica de los datos
Adquieres conocimiento adicional cuanto mas lo uses
Abierta y Extensible
Facil de usar y/o aplicar
Añada conocimiento generado por el usuario & Proveedores de 3ros
Diseñado para que el usuario incremente su productividad
CONCEPTOS
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
Modificar, Eliminar o Enriquecer la información que es incorrecta o incompleta; incluyendo la corrección, el enriquecimiento y la estandarización del dato.
La identificación, La vinculación o La fusión de las entradas relacionadas dentro o a través del o de los conjunto(s) de dato(s).
Limpieza Coincidencia
Perfilado MonitoreoEl análisis del escenario del origen de datos nos brinda una idea de la calidad de los datos, ayudándonos a identificar problemas de calidad de datos.
Seguimiento y monitoreo del estado de las actividades del proceso de la Calidad de Datos.
ARQUITECTURA
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
Correspondencia
Referencias de
Datos
Servidor DQ
Almacén de Proyectos DQ
Almacén de Conocimiento Común
Motor DQ
Proyectos activos DQ
Dominios de Datos
MS
Dominios de Datos Locales
KBs Publicados
Limpieza
API de los Datos de Referencias (Browse,
Get, Update)
Servicios de la API RD (Browse, Set, Validate)
DescubriendoConocimiento
Perfilado de Datos &
Exploración
Almacén de la Base de Conocimiento
3ras Partes / Proveedores Externos
Servicios de Referencias
de Datos
Conjunto de Referencias
de Datos
Almacén de Dominios MS DQ
Azure Market Place
Datos de Referencias Categorizados
Servicios de Datos de Referencias Categorizados
DQ Clients
DQS UI
Componente de DQS SSIS
Administrar & Adquirir
conocimiento
Proyectos Interactivos DQ
Exploración de Datos
MDS Excel Add in
Clientes futuros – Excel
& Dynamics
ARQUITECTURA
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
Construir
UsarProyecto DQ
Administrar Conocimiento
Coincidencia &
De-DuplicaciónCorre
jir & Estandariz
ar
Administrar
ConocimientoDatos Empresariales
Datos de Referencia
Servicios de la Nube
Descubir / E
xplora
r Dato
s
Perfilamiento Integrado
NotificationsProgressStatus
Base de Conocimiento
PUNTO CLAVE
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
Los Servicios de Calidad de Datos (DQS) es una solución impulsada por el conocimiento de la calidad de datos que permite a los administradores de datos mejorar fácilmente la calidad de los mismos.
DATA QUALITY SERVICES (DQS)
• Base de Conocimiento.• Correspondencia.• MS SQL Server Integration Services 2012.
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
ADMINISTRACIÓN DEL CONOCIMIENTO & LIMPIEZA DE DATOS
• Como construimos y desarrollamos una Base de Conocimiento?• Iniciamos desde nuestros datos definiendo las
necesidades de calidad que requerimos.• Descubriendo el Conocimiento.• Administramos el Conocimiento.
• Creamos los dominios y/o los dominios compuestos y Servicios de Datos Referenciados.• Procesos de Limpieza.
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
ADMINISTRACIÓN DEL CONOCIMIENTO & LIMPIEZA DE DATOS
• Como construimos y desarrollamos una Base de Conocimiento?• Descubrimos e importamos dicho conocimiento.
• Perfilamiento de los datos.
• Definimos reglas & políticas de validación de datos, limpiando y generando coincidencias.• Puesta en escena del Conocimiento.
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
DEMO“Base de Conocimiento & Limpieza”
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
CORRESPONDENCIA & COINCIDENCIA DE DATOS
• Que es un registro coincidente?• Es la tarea de identificar los registros que
coinciden con la misma entidad del mundo real.
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
CORRESPONDENCIA & COINCIDENCIA DE DATOS
• Que costo nos generan los datos duplicados?
• Tiempo invertido en el negocio innecesariamente.• Comunicación inapropiada con los clientes.
• Información no fiable en la toma de decisiones.
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
CORRESPONDENCIA & COINCIDENCIA DE DATOS
• De donde vienen los registros duplicados?• Mal diseño del software.• Validación de datos.• Fusiones y adquisiciones de empresas.• Factores de formateo y abreviaciones.• Cambios de atributos.
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
CORRESPONDENCIA & COINCIDENCIA DE DATOS
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
1. Preparar las políticas de
coincidencias
Aprovechar un KB con el
conocimiento existente
Diseñar reglamentos de
coincidencia
Cada regla se aplica en un o
varios dominios
Sintonizar las políticas con los
orígenes de datos
2. Proyecto de Coincidencias
Mapear el conocimiento
relevante con los orígenes de datos
Ejecutar las coincidencias
Revisar los resultados y
desechar los no apropiados
Exportar los datos validos y aplicarlos
PASO
S
CORRESPONDENCIA & COINCIDENCIA DE DATOS
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
Una política de coincidencia esta preparada en la Base de Conocimiento.
Una política de coincidencia consiste en reglas de coincidencia que evalúa que tan bien un registro es coincidente con otro.
Especifica si los valores de los registro tienen que tener coincidencia exacta, de forma similar o con requisito previo.
Accionar las políticas mediante la ejecución y puesta a punto cada regla separadamente.
DEMO“Correspondencia & Coincidencia de Datos”
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
INTEGRACIÓN DE DQS CON SSIS
Escenario Empresarial• La Calidad de los Datos es requerido como
parte de un objetivo puntual del proceso.• Los Componentes de DQS en SSIS 2012
aprovecha el Conocimiento dentro de todo el procesos de Extracción, Transformación y Carga de datos.
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
INTEGRACIÓN DE DQS CON SSIS
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
DEMO“Limpieza de datos con SSIS”
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
PREGUNTAS Y RESPUESTAS
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
REFERENCIAS
• MSDN Blogs – Data Quality Services• http://blogs.msdn.com/b/dqs/
• TechNet – Data Quality Services• http://technet.microsoft.com/en-us/library/ff877925(v=sql.110).asp
x
• Introducción a DQS• http://msdn.microsoft.com/en-us/library/ff877917(v=SQL.110).aspx
• SQL Server 2012 Data Quality Services (DQS) for Testing Teams• http://social.technet.microsoft.com/wiki/contents/articles/7701.sql-s
erver-2012-data-quality-services-dqs-for-testing-teams.aspx
• El Blog de José Redondo• http://redondoj.wordpress.com/
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
SQL PASS Venezuela – Caracas Chapter
AgradecimientosAgradecimientos
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
José G. Redondo L.MCP, MCST - MS SQL Server 2K5
MTA - Database Administration FundamentalsChapter Leader
SQL PASS Venezuela
José G. Redondo L.MCP, MCST - MS SQL Server 2K5
MTA - Database Administration FundamentalsChapter Leader
SQL PASS Venezuela
[email protected] [email protected]
@redondoj@redondoj
www.facebook.com/redondojwww.facebook.com/redondoj
redondoj.wordpress.comredondoj.wordpress.com
SQL PASS Venezuela – Caracas Chapter
Muchas gracias a tod@s por su atenciónMuchas gracias a tod@s por su atención
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter
SQL PASS Venezuela – Caracas Chapter
http://venezuela.sqlpass.org/http://venezuela.sqlpass.org/
@sqlpassve @sqlpassve SQL Pass Venezuela - Caracas ChapterSQL Pass Venezuela - Caracas Chapter