Ingmmurillo - Business Intelligence y Data Warehousing Con Pentaho
-
Upload
byron-boada -
Category
Documents
-
view
1.227 -
download
2
Transcript of Ingmmurillo - Business Intelligence y Data Warehousing Con Pentaho
CEC-EPN 2012
Instructor: Ing. Mauricio Murillo Rosero
Objetivos
Instrucciones SQL
Cronograma
Ejercicios
Conceptos
2
Comprender los conceptos generales de Data Warehousing (DWH) e Inteligencia de Negocios (BI) Comprender y aplicar la metodologa de Kimball para construir sistemas de DWH/BI Conocer la plataforma de BI Pentaho Construir procesos ETL (extraccin, transformacin y carga) usando la herramienta PDI (Pentaho Data Integration)
3
Realizar actividades de Inteligencia de Negocios usando las herramientas de la plataforma Pentaho Construir reportes usando PRD (Pentaho Report Designer) Construir cubos de anlisis usando PSW (Pentaho Schema Workbench)
4
Mdulo Mdulo I. Conceptos Generales
Contenido Inteligencia de Negocios (BI) Arquitecturas de BI Plataformas de BI Data Warehousing Arquitectura Flujo de Datos Anlisis y comprensin de la naturaleza de los datos Definicin de Requerimientos
Tiempo Aprox. (h) 2
Mdulo II. Caso de Estudio
2
5
Mdulo
Contenido
Tiempo Aprox. (h) 2
Mdulo III. Tcnicas de Dimensiones Modelamiento de Tablas de Hechos Datos Modelo Dimensional Mdulo IV. Diseo del Data Warehouse para el Caso de Estudio Mdulo V. Plataforma de BI Pentaho CE Modelo Lgico de Datos Modelo Fsico de Datos Arquitectura Instalacin y Configuracin Herramientas
2
4
6
Mdulo
Contenido
Tiempo Aprox. (h) 10
Mdulo VI. Actividades ETL Construccin del Data Uso de Spoon Warehouse usando PDI Creacin de Transformaciones Creacin de Trabajos Calendarizacin de Trabajos de Carga Mdulo VII. Construccin de reportes usando PRD (Pentaho Report Designer) Estructura de reportes Uso de parmetros Diseo y formato Agrupacin y agregacin de datos
5
7
Mdulo Mdulo VIII. Construccin de Cubos de Anlisis OLAP usando PSW (Pentaho Schema Workbench)
Contenido Arquitectura Pentaho Analysis Services Creacin de esquemas Mondrian Visualizacin de cubos Mondrian con JPivot
Tiempo Aprox. (h) 5
8
Inteligencia de Negocios = BI BI corresponde al conjunto de actividades de anlisis de datos histricos Permite comprender la situacin pasada, presente y futura de una compaa Apoya a la toma de decisiones estratgicas, tcticas y operativas de una compaa BI no es Data Warehousing
9
De acuerdo al nivel y a la complejidad de anlisis, las actividades de inteligencia de negocios pueden ser agrupadas en tres categoras:1. Reporteo 2. Procesamiento analtico en lnea (OLAP) 3. Minera de datos
10
Anlisis Descriptivo Reporteo (Reportes, Tableros) Anlisis OLAP (Cubos)
Anlisis Predictivo Minera de Datos
Pasado
Presente
Futuro
tiempo (t)
Objetivo Resolver rompecabezas del negocio
Objetivo Resolver misterios
11
La principal fuente de datos para las actividades de anlisis de BI es la bodega de datos (DWH, Data Warehouse) El conjunto de procesos que se encargan de crear, recuperar y consolidar los datos de los sistemas fuente al DWH se conoce como Data Warehousing
12
Un DWH es un sistema que recupera y consolida datos peridicamente de los sistemas fuente a un almacn de datos dimensional o normalizado. Usualmente guarda aos de historia y es consultado para inteligencia de negocios u otras actividades analticas Un Data Mart (DM) es un DWH para un tema o aplicacin especfica (Ventas, Reclamos, etc.)
13
Datos de EntradaRecupera Datos
Informacin de Salida
DWHConsolida Datos Sistemas Fuente Bodega de Datos
MATERIA PRIMA
PROCESO
PRODUCTO
Inteligencia de Negocios y Actividades Analticas
14
Toda la informacin est un solo lugar (Una sla fuente de la verdad) Informacin actualizada Acceso rpido No hay lmites de espacio (Ej. Archivos XLS) Contiene toda la historia de la compaa Fcil de comprender (Modelada en trminos del negocio) Contiene definiciones claras y uniformes Datos estandarizados
15
Problemas de calidad de datos, entre ellos: Datos Duplicados Datos Incompletos Datos Incorrectos Datos Conflictivos Datos Faltantes (Falla de Integridad Referencial) Valores nulos
Volumen de datos (1Pb) y rendimiento (Sol. ndices, ndices binarios, particiones, agregaciones, vistas materializadas)
16
Captura de Cambios de Datos (CDC) Consiste en identificar qu datos han sido insertados, modificados o borrados Puede ser Intrusiva (Triggers) y No Intrusiva (PDI, Merge Rows)
Requerimientos cambiantes (Un DWH Evoluciona)
17
Arquitectura
Sistema de Software
Monoltica, Cliente/Servidor, 3 Capas, N Capas Java, MS .NET
Plataforma
Arquitectura
Flujo de Datos SAP BusinessObjects, Oracle Hyperion, IBM Cognos, Microsoft, Pentaho
Sistema DWH/BI
Plataforma
18
19
Control y Auditoria
Fbrica de Informacin Corporativa (CIF)
METADATOS
Aplicacin BI
Data Mart 1 Aplicacin BI Sistemas Fuente ETL + Calidad de Datos DWH Data Mart N ETL
Data Marts Dependientes
rea de Almacenamiento
ETL
Enfoque TOP - DOWN20
Control y Auditoria
Arquitectura Multidimensional (MD)METADATOS
Data Marts Independientes
Aplicacin BI Sistemas Fuente ETL rea de Almacenamiento (STAGE) ETL + Calidad de Datos Data Mart 1
Aplicacin BI Data Mart N
Enfoque BOTTOM - UP
Data Warehouse Bus21
Sirve para copiar nicamente los datos que se requiere tal y como se encuentran en la fuente No afecta el rendimiento de la base de datos fuente Permite trabajar en un subconjunto de datos Permite ordenar e indexar los datos para optimizar los procesos ETL
22
Metadatos: datos sobre los datos Linaje de datos (Data Lineage): informacin sobre el origen y destino de los datos Tiempo de los datos (Data Timeliness): informacin sobre cundo cambi los datos y que viejos son Modelo de Datos
23
Caracterstica
Fbrica de Informacin Corporativa - Inmon
Arquitectura Multidimensional - Kimball
Tcnica de modelamiento de datos Enfoque Vista empresarial de datos Provee datos detallados Provee datos sumarizados Tiempo de implantacin Costo de implantacin
Relacional y Dimensional
Dimensional
TOP - DOWN Total S S Alto Alto
BOTTOM UP Parcial S S Bajo Bajo
24
Planeacin del Proyecto
Diseo Tcnico de la Arquitectura
Seleccin e Instalacin del Producto
Crecimiento
Definicin de Requerimientos del Negocio
Modelamiento Dimensional
Diseo Fsico
Diseo y Desarrollo ETL
Implantacin
Especificacin de Aplicaciones de BI
Desarrollo de Aplicaciones de BI
Mantenimiento
Gestin del Proyecto
25
Conocer las fuentes de datos, alcance, preguntas del negocio a responder, formatos de entrega de informacin, etc. Por lo menos en sta fase documentar lo siguiente:Entrada Tema Audiencia Propietario Necesidad del Usuario Descripcin rea o proceso de negocio Para quin es la solucin Quin ser el propietario de la solucin Qu necesitan los usuarios y cmo usarn la solucin
26
Entrada Preguntas a responder Beneficios del negocio Mecanismo de entrega Fuentes de informacin Fuentes de datos Estimacin
Descripcin Preguntas que sern respondidas por la solucin Qu ganar el negocio construyendo el DWH Emails, Grficos, Reportes, Tableros de Mando, Cubos de Datos, etc. A qu personas se puede preguntar sobre el negocio De qu sistemas y qu bases de datos se obtendrn los datos Estimacin de tiempo para desarrollar la solucin
27
Modelo Estrella El centro de una estrella consiste de una tabla conocida como tabla de HECHOS y los puntos de la estrella se los conoce como tablas de DIMENSIONES
28
Modelo Estrella
29
Dimensiones Una dimensin representa informacin de una entidad del negocio (Ej. Cliente, Producto, Vendedor, Local) Cualitativas Hechos Un hecho representa un evento del negocio (Ej. Valor Vendido, Comisin, Valor Flete) Cuantitativos Las filas son almacenadas al nivel ms bajo de granularidad30
Para poder consultar un modelo estrella se usa el siguiente SQL SELECT COL1, COL2,, COLN FROM HECHOS H JOIN DIM_1 D1 ON H.FK_DIM1 = D1.PK_DIM1 JOIN DIM_2 D2 ON H.FK_DIM2 = D2.PK_DIM2
31
Matriz de Hechos y Dimensiones Sirve para identificar dimensiones y hechos. Adems, para identificar Dimensiones Conformadas / CompartidasTiempo rdenes de compra Inventario rdenes de clientes Devoluciones X X X X X X Cliente Producto X X X X Distribuidor X X
32
Usar claves subrogadas (SK) 1 Dimensin, 1 Clave con tipo de dato numrico) Puede ser generada por una secuencia de la base de datos o por la herramienta ETL
Usar convenciones de nombres y de tiposPrefijo STG_ HIS_ DIM_ FACT_ AGG_ Alcance Para tablas de almacenamiento temporal Para tablas de archivos histricos Para tablas de dimensiones Para tablas de hechos Para tablas de agregaciones
33
Granularidad y Agregacin Granularidad corresponde al nivel de detalle almacenado en el DWH Almacenar los datos al nivel ms bajo de detalle posible Las agregaciones mejoran el rendimiento
Usar columnas de auditoria Hora y fecha de insercin Proceso de insercin Hora y fecha de actualizacin Proceso de actualizacin
34
Las 5 funciones bsicas de agregacin de SQL son: Mximo: max() Mnimo: min() Conteo: count() Suma: sum() Promedio: avg()
35
Modelar una dimensin para el tiempo y otra para la fecha Usar claves en el formato AAAAMMDD
Tener 1 registro de DESCONOCIDO (N/D) en cada dimensin en vez de NULLSK 0 Nombre Desconocido Telfono Desconocido DIM_CLIENTE Fecha Nacimiento 01/01/1970
36
La tcnica de Slowly Changing Dimensions permite identificar y guardar qu registros cambiaron. Existen los siguientes tipos:Tipo SCD Tipo 1 SCD Tipo 2 SCD Tipo 3 Descripcin Sobrescribe el registro. Soportada por PDI Agrega un registro con columnas que indican su validez. Soportada por PDI Consiste en agregar una columna por cada una que se quiera registrar el cambio
37
Sobrescribe el registro de una dimensinSituacin Actual SK 1 Identificacin 1728192211 Nombre Juan Prez Ciudad Quito
Nueva Situacin SK 1 Identificacin 1728192211 Nombre Juan Prez Ciudad Cuenca
38
Agrega un registro a la dimensin y 3 columnas: vlido desde, vlido hasta y versinSituacin ActualSK 1 Identificacin 1728192211 Nombre Juan Prez Ciudad Quito Vlido Desde 2012-01-01 Vlido Hasta 2099-12-31 1 Versin
Nueva SituacinSK 1 2 Identificacin 1728192211 1728192211 Nombre Juan Prez Juan Prez Ciudad Quito Cuenca Vlido Desde 2012-01-01 2012-01-25 Vlido Hasta 2012-01-25 2099-12-31 0 1 Versin
39
Agrega una columna por cada cambioSituacin Actual SK 1 Identificacin 1728192211 Nombre Juan Prez Ciudad Quito Ciudad Antigua Quito
Nueva Situacin SK 1 Identificacin 1728192211 Nombre Juan Prez Ciudad Cuenca Ciudad Antigua Quito
40
Dimensiones Monstruo (Particionamiento) Dimensiones Degeneradas (Nmero pliza, nmero pedido, nmero de reclamo) Copos de Nieve (Snowflake) Tablas de Hechos Consolidadas (Presupuesto + Actual) Modelo Constelacin
41
PSW PRD CDF
PDI
WEKA
42
Plataforma de BI Open Source Provee de herramientas de apoyo para todo el proceso de construccin del sistema DWH/BI Existen dos ediciones de Pentaho: Community (CE) y Enterprise (EE) La versin CE es totalmente Open Source orientada al aprendizaje y PYMES Pentaho puede ser descargado del siguiente link: http://sourceforge.net/projects/pentaho/files/
43
Herramienta Pentaho BI Server
Versin 3.8.0
Descripcin Servidor Central de Inteligencia de Negocios, Portal Web de Entrega de Informacin Organizacin de soluciones, creacin de xaction (Acciones de Secuencias) Creacin y ejecucin de procesos ETL Creacin y publicacin de metadatos para reportes Creacin y publicacin de reportes Creacin y publicacin de cubos para anlisis OLAP
Pentaho Design Studio (PDS)
4.0.0
Pentaho Data Integration (PDI) Pentaho Metadata Editor (PME) Pentaho Report Designer (PRD) Pentaho Schema Workbench (PSW)
4.2.1 4.1.0 3.8.2 3.3.0
44
45
46
47
Integracin de Datos: conjunto de actividades para llenar el DWH La integracin de datos se descompone 3 actividades Extraccin: Adquirir datos de 1 o ms fuentes Transformacin: Cambiar la forma y contenido de los datos Loading (Carga): cargar los datos en los repositorios y el DWH
48
Actividades de Extraccin Captura de cambio de datos (CDC) Almacenamiento temporal (Data Staging) Actividades de Transformacin Validacin de datos Limpieza de datos Decodificar y Renombrar (1->S, 0->No) Agregaciones Gestin y generacin de claves (SK)
49
Actividades de Carga (Loading) Carga de Tabla de Hechos Carga de tablas temporales Carga y mantenimiento de Tablas de Dimensiones
50
Las soluciones de PDI son construidas sobre 2 tipos diferentes de objetos: Transformaciones Trabajos (Jobs)
El corazn de PDI es el motor de integracin de datos de Pentaho (Data Integration Engine) PDI contiene las siguientes herramientas Spoon: GUI para crear transformaciones y trabajos Kitchen: Comandos para correr trabajos Pan: Comandos para correr transformaciones Karte: Ejecutar transformaciones y trabajos de forma remota51
52
Herramienta grfica para crear, editar y publicar reportes al servidor de BI de Pentaho Puede usar como fuente modelos de metadatos Los reportes son almacenados usando el formato .prpt (Pentaho Report) Basado en bandas y muy similar a SAP Crystal Reports
53
Las secciones (bandas) de un reporte en PRD son: Page Header/Footer: Cualquier contenido de sta seccin ser visto en cada pgina del reporte (Logos, Fecha, Nro. Pgina, etc.) Report Header/Footer: Cualquier contenido de sta seccin se mostrar una sola vez (Parmetros, Ttulo, Totales) Group Header/Footer: Se tiene por lo menos 1 grupo (Etiquetas, Subtotales)54
Details: Aqu van las filas individuales del resultado de una consulta. Tiene cabecera y pi de pgina No Data: Sirve para mostrar informacin cuando el resultado de la consulta est vaco Watermark: Marca de agua que ser impresa como fondo en cada pgina del reporte Para ocultar/mostrar bandas cambiar la propiedad hide-on-canvas que se encuentra en Attributes55
Elemento label text-field number-field date-field
Descripcin Texto esttico, etiquetas de columna Valores de texto de un conjunto de datos Valores numricos de una conjunto de datos Valores de fecha de un conjunto de datos
message-field Puede combinar texto, campos y funciones (Cliente: ${nombre} ${apellido}) image-field image ... Muestra imgenes desde un conjunto de datos Muestra una imagen local o desde una URL El resto sirven para crear grficos, bandas, subreportes, etc.
56
PRD puede tener 1 o n Data Sets pero slo 1 Data Set activo Comnmente el Data Set es una consulta a la base de datos a travs de JDBC Es posible crear la consulta (Query) de forma grfica (SQLeonardo) o escribiendo el SQL El Data Set puede ser obtenido tambin a travs de una consulta a los metadatos
57
Para agregar un parmetro, en la seccin Data hacer clic en Add a New Master-report Parameters Los parmetros puede ser trados de la base de datos (JDBC) o creados manualmente (Table) Para valores simples en la condicin WHERE de una consulta colocar = ${nombreparam} Para valores mltiples colocar IN (${nombreparam})58
El Row-Banding permite manejar 1 color diferente para las filas pares y otro para las impares Para habilitarlo ir a Format Row-Banding Seleccionar los colores y colocar el estado como InvisibleInvisible Color Visible Color
59
Grupos, cabeceras y resmenes Un Grupo permite organizar contenido en diferentes niveles En PRD siempre se crea un grupo por defecto Para editar grupos (Edit Groups) Es necesario ordenar los datos en las consultas (ORDER BY)
60
Para acceder a la funciones ir a Data Functions Las funciones de agregacin sirven para realizar funciones de agregacin sobre los datos de un grupo Las funciones son Globales (Summary, Grupos) y de Ejecucin (Running, Subgrupos) Deben tener un nombre nico Algunas funciones son Page of Pages, Sum, Count, Maximum, Minimum61
Para publicar un reporte en el servidor de BI de Pentaho, se tiene que ir a File Publish URL: http://localhost:8080/pentaho Ingresar con el usuario Administrador Escoger la ubicacin dentro de la solucin Ingresar la clave de publicacin (Publish Password) En el portal web de Pentaho, refrescar los metadatos Herramientas Actualizar Actualizar Metadata de Reporte62
Pentaho Analysis Services (PAS) provee las capacidades OLAP a la plataforma Pentaho PAS est compuesto por 4 componentes1. JPivot: interfaz grfica para trabajar con cubos OLAP 2. Mondrian ROLAP Engine: motor ROLAP 3. Schema Workbench: Herramienta visual para disear y probar cubos 4. Aggregate Designer: Herramienta visual para generar tablas agregadas
63
Esquema: Archivo XML, describe 1 o ms cubos multidimensionales
64
Multi Dimensional eXpressions Lenguaje creado para consultar bases de datos OLAP Estndar de facto desarrollado por Microsoft MDX es al modelo dimensional como SQL es al modelo relacional
65
Cubo Un cubo es una coleccin de mltiples DimensionesTupla (Interseccin Dim.)
MEDIDAS: Ventas Comisiones Etc.
Jos Quiroz Pedro Ponce
Cliente
Juan Prez
66
Analoga con el Modelo Estrella Dimensiones Cubo = Dimensiones Modelo Estrella Medidas Cubo = Hechos Modelo Estrella Visualizacin de un Cubo Se lo visualiza como una tabla cruzada (crosstab) o tabla pivot
67
Jos Quiroz Pedro Ponce
Cliente
Juan Prez
Cubo Representado como Tabla Cruzada
Nokia2010 2011 2012 2010
LG2011 2012 2010
Samsung2011 2012
Juan Prez Jos Quiroz Pedro Ponce X
Z
N
68
Jerarquas Las dimensiones de un cubo son organizadas en 1 o ms jerarquas (Hierarchy) Estructura tipo rbol Permite retraer datos del cubo de diferentes niveles de agregacin Se pueden tener mltiples jerarquas Ejemplo: Ao, Semestre, Mes (Dimensin Fecha)69
NIVELESTODOS
MIEMBROS
Todas Fechas Relacin Padre / Hijo
ANIO SEMESTRE MES
2010
2011
2012
S1
S2
S1
S2
S1
S2
1
2
3
10
11
12
[FECHA].[MES].[2] MDX70
Conexin a la base de datos ir a Options Connection... A travs de File New JDBC Explorer se podr visualizar las tablas y columnas del DWH Para crear un nuevo esquema ir a File New Schema Colocar un nombre que no tenga espacios en blanco ni caracteres especiales y guardar En View View XML se podr visualizar la representacin XML del esquema Slo se permite 1 esquema por conexin
71
Las tareas para crear un cubo OLAP usando PSW pueden resumirse en las siguientes: Crear un esquema Crear un cubo Escoger la tabla de hechos Agregar medidas
Crear dimensiones Editar la jerarqua por defecto Definir niveles de jerarqua Opcionalmente, agregar ms dimensiones
72
Creacin de un cubo Para crear un cubo, clic derecho sobre Schema Add Cube Colocar el nombre (Name) y el ttulo (Caption, lo que se mostrar en el portal) Dejar seleccionado cache, enabled y visible A un cubo se le asocia una tabla de hechos. Clic derecho sobre el cubo, Add Table para seleccionar la tabla de hechos73
Creacin de medidas (Measures) Sobre la tabla de hechos se agregan una o ms medidas, haciendo clic en el botn La primera medida, es la medida por defecto En la medida colocar el nombre (name), columna (column), aggregator (sum, max, min, avg, count, distinct count), tipo de datos (datatype) y ttulo (caption)
74
Creacin de dimensiones Clic derecho sobre el cubo, Add Dimension Para dimensiones fechas usar el tipo: TimeDimension para el resto usar StandardDimension Colocar el nombre (name) y la clave fornea (foreignKey)
75
Creacin de dimensiones En clave fornea seleccionar la clave fornea de la tabla de hechos (sk_fecha) Cuando se crea una dimensin, se crea una jerarqua por defecto
76
Edicin de la jerarqua por defecto Sobre la jerarqua, hacer clic derecho, Add Table, seleccionar la dimensin En la jerarqua colocar el nombre (name), marcar hasAll, nombre de todos los miembros (allMemberName), ttulo de todos los miembros (allMemberCaption) y la clave primaria de la dimensin (sk_fecha)
77
Definir niveles de jerarqua
Sobre la jerarqua, clic derecho, Add Level En el nivel definir el nombre (name), columna (column), tipo (type), tipo de nivel (levelType) Para niveles de fecha el tipo de nivel puede ser: TimeYears, TimeHalfYear, TimeHalfYears, TimeQuarters, TimeMonths, TimeWeeks, TimeDays Para el resto de niveles se usa Regular Crear las dimensiones, jerarquas y niveles que se requiera
78
Para probar que el esquema y cubo fueron creados correctamente, ir a File New MDX Query Colocar la siguiente consulta:select NON EMPTY {[Measures].[nombre_medida]} ON COLUMNS, NON EMPTY Hierarchize({[dim_fecha.default].[todos_los_anios] }) ON ROWS from [cubo_olap]
79
Para publicar un esquema, seleccionar el esquema e ir a File Publish... Colocar lo siguiente:URL = http://localhost:8080/pentaho Publish Password = pentaho User = joe Password = password
Seleccionar la solucin, colocar el nombre JNDI de la conexin Marcar Register XMLA Data Source para poder acceder desde el portal de Pentaho (New Analysis View)
80
Para visualizar un esquema de Mondrian creado desde PSW, en el portal de Pentaho, hacer clic sobre New Analysis View Las principales operaciones que se puede hacer sobre un cubo OLAP son: Drill Down/Up (Excavar) Slice (Cortar / Filtrar) Pivot (Pivotear, Intercambiar Ejes)
81
82
1. 2. 3. 4.
Crear el directorio c:\pentaho Copiar biserver-ce-3.8.0.zip Descomprimir biserver-ce-3.8.0.zip Asegurarse tener la siguiente estructura: c:\pentaho\biserver-ce-3.8.0\ administration-console (PAC) c:\pentaho\biserver-ce-3.8.0\biserver-ce (Servidor BI)PENTAHO_HOME = c:\pentaho\biserver-ce-3.8.0
83
5.
6. 7.
Ir al directorio c:\pentaho\biserver-ce3.8.0\biserver-ce Ejecutar el archivo start-pentaho.bat Abrir un navegador e ir al siguiente URL: http://localhost:8080/pentaho/
84
1. 2.
3.
4.
Abrir la consola de comandos (cmd) Ir al directorio %PENTAHO_HOME%\ biserver-ce\tomcat\bin Ejecutar el comando: service.bat install Pentaho Ir a services.msc para verificar que se instal el servicio Apache Tomcat Pentaho
85
1.
2.
Ir a %PENTAHO_HOME%\ biserverce\data\postgresql Copiar los scripts: create_repository_postgresql.sql, create_sample_datasource_postgresql.sql, create_quartz_postgresql.sql al directorio C:\Program Files\PostgreSQL\8.4\scripts\runpsql.bat
86
3. 4.
5.
6.
Ejecutar el programa runpsql.bat Ingresar las credenciales y ejecutar en la consola de comandos de Postgres el comando: \i create_repository_postgresql.sql Luego el comando \i create_sample_datasource_postgresql.sql Finalmente ejecutar los comandos: \connect postgres \i create_quartz_postgresql.sql87
7.
8. 9.
Ir al directorio %PENTAHO_HOME%\biserverce\tomcat\webapps\pentaho\META-INF Editar el archivo context.xml Cambiar las cadenas de conexin para el nuevo repositorio driverClassName = org.postgresql.Driver url = jdbc:postgresql://127.0.0.1:5432/hibernate validationQuery = select version();
88
10.
Copiar el archivo postgresql-8.4703.jdbc3.jar a los directorios: %PENTAHO_HOME%\biserver-ce\tomcat\lib %PENTAHO_HOME%\ administrationconsole\jdbc Ir al directorio %PENTAHO_HOME%\biserverce\pentaho-solutions\system\hibernate
11.
89
12.
Editar el archivo hibernate-settings.xml y cambiar la etiqueta system/hibernate/postgresql.hibernate.cfg.xml
13.
Ir al directorio %PENTAHO_HOME%\biserverce\pentaho-solutions\system y editar los archivos applicationContext-spring-securityjdbc.xml y applicationContext-spring-securityhibernate.properties
90
14.
Para JDBC y Hibernate usar las siguientes configuraciones:jdbc.driver=org.postgresql.Driver jdbc.url=jdbc:postgresql://127.0.0.1:5432/hibernate jdbc.username=hibuser jdbc.password=password hibernate.dialect=org.hibernate.dialect.PostgreSQLDialect
15.
Reiniciar Pentaho para aplicar la configuracin91
1.
2. 3.
Ir al directorio %PENTAHO_HOME% \biserver-ce\pentaho-solutions\system Editar el archivo publisher_config.xml En la etiqueta colocar:pentaho
92
1.
2. 3.
4. 5. 6.
Ir al directorio %PENTAHO_HOME%\ biserver-ce\pentahosolutions\system\smtp-email Editar el archivo email_config_gmail.xml Asignar los valores para las etiquetas: , y < mail.password> Renombrar el archivo a email_config.xml Reiniciar Pentaho Ir al reporte Burst Sales Report para probar (Usar IE)93
1.
2. 3.
Ir al directorio %PENTAHO_HOME%\administrationconsole\resource\config Editar el archivo console.xml Asignar los siguientes valores a las etiquetas y ../biserver-ce/pentahosolutions ../biserverce/tomcat/webapps/pentaho
94
1.
2. 3.
Ir al directorio %PENTAHO_HOME%\administration-console Ejecutar el archivo start-pac.bat Abrir un navegador de internet e ir al siguiente URL http://localhost:8099
95
1.
2.
3. 4. 5. 6. 7. 8.
Crear base de datos pdi_repo, usuario pentaho_user (Todos los permisos) Copiar el archivo pdi-ce-4.2.1.zip al directorio c:\pentaho Descomprimir el archivo y ejecutar Spoon.bat Agregar un nuevo repositorio Seleccionar Kettle Database Repository Crear una nueva conexin de nombre pdi_repo Crear repositorio de metadatos (Dry Run? No) Usar usuario admin / admin
96
1. 2.
3. 4. 5. 6.
En el directorio c:\pentaho, crear la carpeta src Crear un hola_mundo.txt con los siguientes datos: Nombre Leonardo Henry lvaro Ir a File New Transformation Ir a Design/Input Arrastrar Text File Input Renombrar Text File Input a Agregar Archivo En File, Agregar el archivo hola_mundo.txt
97
7.
8.
9.
10.
11.
En Transform arrastrar Add Constants. Definir 2 Constantes: mensaje (String) = Bienvenido a Pentaho exclamacion (String) = !!! Ir a Output arrastrar Text File Output, renombrar a Escribir Archivo Salida En FileName colocar c:\pentaho\src\hola_mundo_salida Get Fields y ordenar (mensaje, nombre, exclamacin) Verificar, Guardar y Ejecutar98
1.
2.
3.
4. 5.
Ir a Tools Repository Explore. En Connections agregar conexin a la base de datos stage. Usuario pentaho_user / password (Conexin Global) Crear nueva transformacin TRS_HOLA_MUNDO_BDD Ir a Design/Input arrastar Table Input y renombrar a Leer Tabla Entrada Insertar el SQL: SELECT * FROM alumno Arrastrar Add Constants y Crear 1 Constante saludo(String) = Bienvenido99
6. 7.
8. 9. 10. 11.
Ir a Output y arrastrar Table Output Seleccionar la conexin stage, marcar Truncate Table y Specify Database Fields En Target Table colocar holamundo En Database Fields hacer clic en Get Fields Hacer clic en SQL y ejecutar Validar transformacin, guardar y ejecutar
100
1. 2.
3. 4.
5.
6.
Ir a File New Job Colocar el nombre JOB_EJECUCION_HOLA_MUNDO Ir a General, Arrastrar START Luego Arrastrar Transformaciones, Specify By Reference y Seleccionar TRS_HOLA_MUNDO Repetir el paso 4 para TRS_HOLA_MUNDO_BDD Arrastrar Success y Mail101
7.
En Mail Configurar lo siguiente: SMTP Server = smtp.gmail.com Port = 587 Use Authentication = S Auth User = ingmmurillo.capacitacion Password = Use Secure Auth = S Secure Connection Type = TLS
102
1. 2.
3.
4.
Abrir una consola de comandos (cmd) Ir a c:\pentaho\pdi-ce-4.2.1\dataintegration Ejecutar el siguiente comando: Kitchen.bat /rep pdi_repo /user admin /pass admin /job JOB_EJECUCION_HOLA_MUNDO Finalmente, crear Tarea Calendarizada del SO (Ejecutar Kitchen con Argumentos Paso 3)103
1. 2. 3.
4.
5.
En Input, arrastar Generate Rows En Limit colocar 3652 (10 aos) Crear un campo de tipo Date de nombre fecha_inicial, formato yyyyMMdd y valor 20090101 En Transform arrastrar Add Sequence para generar las SKs. Name of Value = secuencia_dias, Counter Name = SEQ_DIM_FECHA, Start at Value = 0 Ir a Transform arrastrar Calculator104
7.
Crear los campos sk_fecha, anio, mes, da y fecha como se muestra en la siguiente tabla:
105
Campo v_fecha v_fecha_ str sk_fecha anio mes dia fecha
Calculation Date A + B Days Create a copy of field A Create a copy of field A Year of date A Month of date A Day of month of date A Create a copy of field A
Field A fecha_inicial v_fecha v_fecha_str v_fecha v_fecha v_fecha v_fecha
Field B secuencia_dias
Value Type Date String Integer Integer Integer Integer Date
Conversion Mask yyyyMMdd yyyyMMdd # # # # dd/MM/yyyy
106
8. 9.
10.
Ir a Output y arrastrar Table Output Seleccionar la tabla DIM_FECHA de la conexin al DWH, marcar Specify database fields para mapear los campos e ir a Enter Field Mapping Verificar y Ejecutar
107
1.
2.
3.
4.
Crear una nueva transformacin de nombre TRS_CARGA_DIM_SUCURSAL De Input, arrastrar Table Input. Usando la conexin stage, colocar el SQL: SELECT ID, NOMBRE, RESPONSABLE FROM STG_SUCURSAL_CIA Arrastrar de Data Warehouse, Combination lookup/update Usar la conexin dwh, y seleccionar Target Table = DIM_SUCURSAL108
5.
6. 7. 8.
9.
Hacer clic en Get Fields. El campo pk_sucursal asociarlo a id. Deben quedar pk_sucursal, nombre y responsable En Technical Key Field ingresar sk_sucursal Dejar el resto por defecto y clic en OK Arrastrar un Table Input, y con la conexin al DWH colocar el siguiente SQL: SELECT SK_SUCURSAL FROM DIM_SUCURSAL WHERE SK_SUCURSAL = 0; Arrastrar un Filter Rows con la condicin SK_SUCURSAL IS NULL109
10.
11. 12.
13.
14.
Arrastrar un SQL Script, usando la conexin al dwh, colocar el siguiente SQL: INSERT INTO DIM_SUCURSAL VALUES (0,'0','N/D','N/D'); Marcar Execute for each row y clic en OK Unir el filtro con el SQL Script para la condicin Result is TRUE Arrastrar un Dummy y unirlo con el filtro para la condicin Result is FALSE Guardar, validar y probar110
111
1.
2.
3.
Crear una nueva transformacin de nombre TRS_CARGA_DIM_CLIENTE Arrastrar un Table Input, usando la conexin stage colocar el siguiente SQL: SELECT ID,IDENTIFICACION,NOMBRE,APELLIDO,DIRE CCION FROM STG_CLIENTE De Data Warehouse, arrastrar el componente Dimension lookup / update y unirlo con el Table Input
112
4.
5. 6.
7.
8.
9.
En Dimension lookup/update, usar la conexin dwh, Target Table = dim_cliente En Technical Key Field, colocar SK_CLIENTE En Date range start field colocar FECHA_DESDE Marcar Use an alternative start date? Y seleccionar System Date En Table daterange end colocar FECHA_HASTA Hacer clic en Get Fields, en la pestaa de Key dejar mapeado slo pk_cliente con id113
10.
11.
12. 13. 14. 15.
Ir a la pestaa de Fields y hacer clic otra vez en Get Fields Para identificacion, nombre y apellido seleccionar Update en Type of dimension update Para direccion dejar Insert Hacer clic en SQL y ejecutar el script Arrastrar un Filter Rows y Validar, Guardar y Ejecutar
114
1.
2. 3.
4.
5.
Copiar el archivo prd-ce-3.8.2.zip al directorio c:\pentaho Descomprimir el archivo Ir a c:\pentaho\prd-ce-3.8.2\reportdesigner Copiar el archivo postgresql-8.4703.jdbc3.jar al directorio \lib\jdbc En \report-designer ejecutar reportdesigner.bat
115
1.
2. 3.
4.
5.
Copiar el archivo psw-ce-3.3.0.14703.zip al directorio c:\pentaho Descomprimir el archivo Ir a c:\pentaho\psw-ce3.3.0.14703\schema-workbench Copiar el archivo postgresql-8.4703.jdbc3.jar al directorio \drivers Ejecutar workbench.bat
116
1.
2. 3.
4. 5.
6.
Asegurarse que Pentaho BI Server est iniciado Abrir una consola de comandos (cmd) Ir a C:\pentaho\biserver-ce3.8.0\administration-console Ejecutar start-pac.bat Abrir un navegador e ir a http://localhost:8099 (admin/password) Ir a Administration / Database Connections
117
7.
Hacer clic en (+) Add Database ConnectionName = dwh Driver Class = org.postgresql.Driver User Name = dwh Password = pentaho_user URL = jdbc:postgresql://localhost:5432/dwh
8.
Finalmente hacer clic en Test
NOTA: el mismo nombre se tiene que usar en todas las aplicaciones de Pentaho
118
Wiki de Pentaho CE: http://wiki.pentaho.com/display/COM/Community+Wiki+Ho me [Adrin Sergio Pulvirenti, Mara Carina Roldn] Pentaho Data Integration 4 Cookbook. Packt Publishing Ltd. 2011 [Mara Carina Roldn] Pentaho 3.2 Data Integration Beginner's Guide. Packt Publishing Ltd. 2010
119
Ing. Mauricio Murillo [email protected]
http://ingmmurillo.blogspot.com
@ingmmurillo
120