Introduccion Datawarehouse

download Introduccion Datawarehouse

of 45

description

Introduccion Datawarehouse

Transcript of Introduccion Datawarehouse

Presentacin de PowerPoint

DataWarehouse e Inteligencia de NegociosIntroduccin.Sebastin Rodrguez Robothamsrodriguez@easybi.clwww.EasyBI.cl1www.EasyBI.cl2Conceptos Generaleswww.EasyBI.cl3Conceptos GeneralesReferencia BibliogrficaRalph Kimball: The DataWarehouse ToolkitBill Inmon: Building the DataWarehouseSalvador Ramos: Microsoft Business Intelligence: Vea el cubo Medio LlenoSebastin Rodrguez R.: EIAD, Estrategia para la Implementacin Inteligente de DWThomas Davenport: Analytics at workwww.EasyBI.cl4Conceptos GeneralesTransacciones

Fundamentos.Registrar y Controlar (OLTP)VentasInventariosContabilidadRecursos HumanosEtc-

Velocidad de TransaccinIntegridad de InformacinEvitar Redundancias3 Forma Normal

On-Line Transaction Processing

Analizar y Evaluar (OLAP)Velocidad de ConsultasApoyo Toma de DecisionesDesnormalizado

On-Line Analytical Processingwww.EasyBI.cl5Conceptos GeneralesDefinicin DataWarehouse

Conjunto de herramientas y metodologas utilizadas para la administracin de informacin con fines de anlisis y gestin.NO ES SOLO UNA TABLA DE HECHOSNO ES SOLO UNA HERRAMIENTAwww.EasyBI.cl6Conceptos GeneralesDefinicin DataWarehouse, objetivos

Automatizar los procesos de recopilacin y generacin de informacin usuarios utilizan la informacin, ya no la construyen.Entregar autonoma a los usuariosNormalizar el proceso de captura de informacinNormalizar el proceso de entrega de informacin.Fuente nica de Informacin del rea / Empresa.Informacin validada.www.EasyBI.cl7Conceptos GeneralesModelo de Dato OLTPFacturaClienteDet. FacturaProductoCiudadSexoEst. CivilSucursalwww.EasyBI.cl8Conceptos GeneralesDefinicin DataWarehouse e Inteligencia de Negocios.Sistemas OrigenOLAPReporting ETL, ELTUsuarios AvanzadosMinera de Datoswww.EasyBI.cl9Conceptos GeneralesDefinicin DataWarehouse

DataWarehouseReportingwww.EasyBI.cl10Conceptos GeneralesCaractersticas de un DataWarehouse

Orientado a TemasIntegradoHistricoLos datos son organizados por temas para facilitar el entendimiento a los usuarios.Todos los datos relativos a una misma entidad quedarn en una tabla.

Debido a que la informacin procede desde distintos sistemas, es tarea del DW integrar las diversas fuentes y normalizar los datos.

Los cambios en los datos relevantes deben quedar registrados, para luego poder consultarlos en diversos momentos en el tiempoNo VoltilUna vez introducida la informacin, debe quedar almacenada y disponible en formato solo lectura.Conceptos GeneralesComponentes del Cubo

Tabla de HechosTabla de DimensionesAlmacena los indicadores del negocio (datos numricos), tanto bsicos como elementos calculados.Almacena los datos descriptivos, por lo general son tablas con un porcentaje muy bajo de filas en relacin a las tablas de Hechos, pero pueden contener muchas ms columnas.

Una correcta y completa definicin de campos en la tabla de dimensiones puede ayudar a realizar anlisis robusto sobre los datos.www.EasyBI.cl12Conceptos GeneralesTopologa

EstrellaCopo de NieveLas dimensiones se relacionan directamente con la tabla de hechos.

Por lo general esta estrategia es utilizada cuando hay grandes volmenes de informacin y/o cuando existe un proceso robusto de administracin de Informacin (por ejemplo EIAD).Las dimensiones se pueden relacionar con las tablas de hechos, o con otras dimensiones.

Esta estrategia es mejor para la administracin directa en el modelo de DW.www.EasyBI.cl13Conceptos GeneralesModelo de Datos OLAP Copo de NieveVentasClienteProductoCiudadSexoEst. CivilSucursalTabla de DimensionesTabla de DimensionesTabla de DimensionesTabla de DimensionesTabla de DimensionesTabla de DimensionesTabla de Hechoswww.EasyBI.cl14Conceptos GeneralesModelo de Datos OLAP EstrellaVentasCliente, Ciudad, Sexo, Est. CivilProductoSucursalTabla de HechosTabla de DimensionesTabla de DimensionesTabla de Dimensioneswww.EasyBI.cl15Conceptos GeneralesTipos de Tablas de Hechos.

SnapShotIncrementalCada perodo se agrega un registro para la entidad, sin remplazar ni modificar la foto del perodo anterior. Ejemplo: Balances, Deudas en el sistema financiero.Un registro por cada ocurrencia, pero la fila contiene mltiples fechas que indica el cambio de estados. A diferencia de los anteriores, en este tipo de estructuras se puede insertar y actualizar los registros. Ejemplo: WorkFlow, Juicios.TransaccionalUn registro por cada evento, que ocurre en una fecha determinada. Solo se pueden hacer inserciones.Ejemplo: Sistemas de Ventas.www.EasyBI.cl16Conceptos GeneralesTipos de Dimensiones: Slow Changing Dimension

SCD N 1SCD N2SCD N 3Sobre escribir la informacin de la dimensin.No existe referencia histrica de los datos.

La clave de la dimensin es compuesta, registra, por cada cambio en la fila de la dimensin (o los campos que sean relevantes), un nuevo registro.

Agregar una columna adicional por cada columna cuyo valor queremos mantener en la historia.www.EasyBI.cl17Conceptos GeneralesTipos de Dimensiones: Otros tipos de dimensiones

Dimensin CompuestaRolJunta varias dimensiones en una sola, el objetivo principal es mejorar el rendimiento de la solucin. Ejemplo: Tabla de clientes del modelo ejemplo.Cuando hay mucha informacin repetida en una tabla de Hechos, es posible quitar esta informacin y Factorizarla en una tabla de dimensin. Esto minimiza el espacio utilizado por al tabla de Hechos y mejora el anlisis sobre los datos.

www.EasyBI.cl18Conceptos GeneralesTipos de Dimensiones: Dimensin como Tabla de Hechos

Es posible encontrar tablas que cumplen la condicin de ser Hechos en un modelo, y Dimensin en Otro.

Por ejemplo una tabla de hechos que agrupe informacin de ventas por clientes, puede ser una tabla de dimensiones en el modelo de ventas por Productos.

Estas son construcciones poco comunes, que surgen cuando el N de iteraciones de revisin de los modelos de DW son mayores a 2.www.EasyBI.cl19Conceptos GeneralesModelos de datos complejos: Constelaciones

Hechos 1Dim 2Dim 3Dim 1Hechos 2Dim 5Dim 4Hechos 2Dim 7Dim 6www.EasyBI.cl20Conceptos GeneralesEstrategias de Almacenamiento

MOLAPROLAPHOLAPAlmacenamiento Multidimensional.Requiere alta utilizacin de disco.Optimizado para consultas rpidas.

Almacenamiento en Base Relacional.Alta escalabilidad.Rpida adaptabilidad a cambios en las definiciones

Mezcla de ambas estrategias.www.EasyBI.cl21Conceptos GeneralesTecnologa Disponible.

Bases de Datos RelacionalesBases de Datos Columnares.Permite la implementacin de ROLAP, los proveedores de bases de datos estn haciendo esfuerzos por mejorar esta tecnologa para implementar proyectos de DW. (Ej. SQL Server 2008R2 incorpora optimizacin para consultas de tipo Star Join).Diseadas especialmente para implementar soluciones de tipo analticas, a diferencia de la anterior, estas B.D. almacenan la informacin por Columnas y no por Filas, lo que otorga mayor velocidad de lectura y compresin de datos. (Ej. SyBase IQ).www.EasyBI.cl22Conceptos GeneralesTecnologa Disponible.

Bases de Datos Dimensionales.Implementan la estrategia MOLAP y ROLAP, tienen la ventaja de precalcular las consultas que harn los usuarios, por lo cual los tiempos de respuesta sern muy bajos, sin embargo esto genera tiempos de preprocesamiento muy largos, lo que dificulta su utilizacin en ambientes muy dinmicos. Ej. SQL Server Analysis Services.Bases de datos NoSQLTodas las anteriores tienen la informacin estructurada. Estas bases de datos estn diseadas para buscar informacin sobre miles de millones de registros, ya sean fotos, textos, logs, etc. Los tiempos de respuesta son muy cortos para la gran cantidad de informacin que administra. Ejemplo: Hadoop (estrategia que utiliza Yahoo y Amazon para sus bsquedas).www.EasyBI.cl23Conceptos GeneralesOptimizacin.

ndicesCompresin de DatosParticionamientoAdministrar correctamente los ndices puede mejorar el rendimiento en forma importante.Estadsticas de utilizacin entregada por herramientas puede ayudar a definir la estrategia de indexacin.La compresin de datos ayuda a mejorar el rendimiento de las consultas a la base, sin embargo los ETL pueden verse afectados.Dividir tablas de hechos muy grandes ayuda a mejorar el rendimiento de accesoDiscosOptimizar los discos fsicos, por ejemplo de Estado Slido.www.EasyBI.cl24Conceptos GeneralesOptimizacin.

Diseo InicialSurrogate KeyUn buen diseo desde el inicio del proyecto ayudar a disminuir las tareas de administracin y correccin de datos.

Un buen diseo, segn Kimball, debe tener entre 5 a 15 dimensiones.Utilizar claves numricas en todas las tablas mejora en forma importante el almacenamiento y rendimiento en bsquedas. En este sentido sustituir las claves provenientes de los sistemas origen proporciona mecanismos de independencia frente a cambios en dichos sistemas.www.EasyBI.cl25Conceptos GeneralesDefinicin Datamart

DatamartEs un almacn de datos con informacin referida a un rea de estudio especfica, algunas veces vinculada solamente a un rea de la empresa.Su estructura permite trabajar con millones de registrosEn teora, puede ser implementado en cualquier base de datos (incluso en Excel).www.EasyBI.cl26Conceptos GeneralesEstrategias para la Implementacin

InmonKimballPropone definir un Datawarehouse centralizado que considere el 100% de los requerimientos de la organizacin, para luego desarrollar Datamart departamentales que resuelvan las problemticas locales de cada rea.Propone definir e implementar los datamart de cada rea, para luego, a partir de estos datamarts, construir el Datawarehouse corporativo.www.EasyBI.cl27Conceptos GeneralesTRIVIA: Mitos y Errores a Prevenir

Los Datawarehouse y/o Datamart solo pueden almacenar informacin agregadaFALSOLo ms importante es centrarse en la tecnologa.FALSO, tambin en requerimientos del negocio.Proyectos largos aseguran el xito de la iniciativa.FALSO, Proyectos interminables se diluyen.La presentacin de resultados es tan importante como el rendimiento.VERDADEROLa tecnologa y los requerimientos no cambian en el tiempo.FALSO, hay que adaptar los datos a nuevos req.Los usuarios deben adaptarse a las herramientas complejasFALSO, no las usarn las personas no especialistas.www.EasyBI.cl28Conceptos GeneralesModelos Complejos.

Cmo administrar mltiples cubos, con diferentes caractersticas y granularidad, que comparten algunas dimensiones?www.EasyBI.cl29Business Intelligencewww.EasyBI.cl30DefinicionesBusiness IntelligenceDescribe a la coleccin, preparacin y distribucin de datos para informes, control de gestin, anlisis, supervisin y planificacin del rendimiento empresarial.Fuente: BI Survey.Conjunto de estrategias y herramientas enfocadas a la administracin y creacin deconocimientomediante el anlisis dedatosexistentes en unaorganizacinoempresa.Fuente: Wikipedia.www.EasyBI.cl31Administracin de Entornos Complejos

BICCSSBIBusiness Intelligence Competency CenterSelf-Service Business IntelligenceBusiness IntelligenceAnalytic at WorkMetodologa Thomas DavenportBICCBusiness IntelligenceProblema que Resuelve.Existen mltiples iniciativas de BI en una organizacin sin conexin alguna, lo que en ocasiones genera muchos problemas de coordinacin y de versin nica de la verdad.CaractersticasEs una solucin permanente, conformada interna y formalmente en una organizacin, que desarrolla y promueve el uso efectivo de herramientas de inteligencia de negocios, las cuales permiten dar apoyo y despliegue a la estrategia organizacional.BeneficiosExplota de mejor forma la inversin existente de BICoordina y consolida las diversas iniciativas de BIPermite reaccionar rpidamente a cambios del negocio.Reduce los riesgos en la implementacin de nuevas iniciativas BIApoya a los usuarios en el entendimiento completo del negocio a travs de diversos anlisis.

BICC

Business IntelligenceBICCBusiness IntelligenceData StewardshipAdministracin de Metadata. Estndar, Calidad y Arquitectura de los datosSupportResolver dudas y problemas de usuarios tcnicos y de negocio.BI DeliveryDesarrolladores de interfaz de usuario, reporting, pruebas y mantencin de lgica de negocio en las aplicaciones.Data AcquisitionDesarrolladores de integracin y almacenamiento de datos, realizando pruebas y mantencin.Advanced AnalyticsMinera de Datos, modelos estadsticos, optimizacin, text mining y presupuestacin.TrainingEntrenamiento y capacitacin para miembros de proyectos y usuarios de negocios.Vendor Contracts managementAdministrador de licencias de aplicaciones y actualizaciones.BICCBusiness Intelligence

Fuente: SAS, Capitalize on Competence, Implement a Business Intelligence Competency Center (BICC)Self-Service BISelf Services BI se define como las facilidades dentro de un ambiente BI que permite a usuarios ser ms independiente y menos dependiente de un rea de TI.

Problema: Tiempo de respuesta de reas de TI son un cuello de botella impide el desarrollo de BI como hoy lo conocemos.

La solucin:Generar un ambiente en el cual los analistas puedan crear y acceder a un conjunto de reportes, consultas y anlisis por ellos mismos, con mnima intervencin de TIFuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWIBusiness IntelligenceSelf-Service BIEstas facilidades deben estar enfocadas en cuatro objetivos

Fcil acceso a fuentes de datos para reportes y anlisis.Herramientas de BI fciles de usar y soporte mejorado para anlisis de datos.Rpido de implementar.Datamart Fcil de administrar.Fuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWIBusiness IntelligenceSelf-Service BIBusiness IntelligenceAnalytic at WorksBusiness Intelligence

www.EasyBI.cl40Otros Conceptos de BIreas de BI: Administracin del Tiempo.Business IntelligenceLa prioridad sobre el tiempo la tienen las urgencias, luego los proyectos y finalmente las mejoras y proyectos internos del reaLas urgencias son parte importante del trabajo diarioBusiness IntelligenceModelos de ComparacinBI Maturity levels (IBM)Fuente: Business Intelligence Strategy, a Practical Guide for Achieving BI Excellence (IBM)Business IntelligenceModelos de ComparacinThe BI Competency Center Organizing for SuccessFuente: Gartner ResearchEntender el NegocioMejorar el NegocioCambiar el NegocioEntenderRetener y ApalancarNuevas fuentes de IngresosMetaObjetivoAlinear el NegocioEficiencia, consistencia, RentabilidadBusiness IntelligenceModelos de Comparacin: SAS, Business Analytics for the CIO

www.EasyBI.cl45Conclusiones