Data warehouse

BASE DE DATOS

Maestro: Carlos Arturo Torres Gastelu

“Data warehouse”

Numero de Equipo: 5

Integrantes: Elvira Lázaro Irving

Yañez Flores Victor Hazel

proporciona una plataforma de almacenamiento de datos completa y permite crear y gestionar su almacén de datos, con una perspectiva

adaptable para lograr una mayor satisfacción a las organizaciones, ya que en esta nueva versión se mejoro la escalabilidad.

MICROSOFT SQL SERVER 2008 R2“DATA WAREHOUSE”

CARACTERÍSTICAS DE LA ESCALABILIDAD COSNTRUCCION Manage Deliver Insight

SQL Servidor Relacional SMBD

Declaración MERGE

Change data capture

Minimally logged INSERT

Backup compression Star join performance

Faster parallel query on partitioned tables

GROUPING SETS

Resource governor

Data compression

Partition-aligned indexed views

Integration Services Lookup performance

Pipeline performance

Analysis Services Backup MDX Query Performance: Block Computation

Query and Write-back Performance

Scalable Shared Database

Reporting Services Reporting scalability

Server scalability

• contiene avances importantes respecto a versiones anteriores, por lo que funciona mejor cuando se crea, gestiona y se consulta en los almacenes de datos de gran tamaño

ESTRELLA DE INGRESO “STAR JOIN”

• Con modelados dimensionalmente los almacenes de datos, una gran parte de su carga de trabajo suele consistir en lo que se conoce como la estrella de consultas de unión.

• Estas consultas siguen un patrón común que se une a la tabla de hechos con una o varias tablas de dimensiones, Además, suelen expresar las condiciones de filtro contra las columnas sin clave de las tablas de dimensiones y realizar una agregación en una columna de la tabla de hechos.

• La nueva tecnología empleada se basa en filtros de mapa de bits, también conocidos como filtros Bloom , que permite a SQL Server para eliminar las filas que no pueden obtener la tabla de hechos.

ESTRELLA DE INGRESO “STAR JOIN”

• Esto ahorra una considerable cantidad de tiempo de CPU en comparación con tecnologías de procesamiento de consultas que utilizan los productos de la competencia.

• La nueva estrella de optimización de combinación utiliza una serie de combinaciones hash.

• Ejecuta consultas y también reordena los mapas de bits durante la ejecución, poniendo la primera más prioritaria, de ahí la segunda más prioritaria, y así sucesivamente. Esto permite ahorrar más tiempo de CPU, porque una vez que una fila de una tabla llega a fallar, este checa de nuevo en el mapa de bits, y la fila se omite.

• El procesador de consultas en SQL Server aplica la optimización automática de consultas.

TABLA DE PARTICIONES PARALELA “PARTITIONED TABLE PARALLELISM”

• El paralelismo tabla particionada (PTP) ayuda a obtener el máximo poder del hardware donde aplicaciones de almacenamiento de datos suele reunir grandes cantidades de datos históricos en las tablas de hechos, que a menudo son divididas por la fecha.

• mejora el rendimiento de los planes de consultas en paralelo con las tablas de particiones mediante una mejor utilización de la capacidad de procesamiento del hardware existente


• La ejecución de Q1 y Q2 en SQL Server 2005 puede generar un comportamiento inesperado.

• La ejecución de Q1 y Q2 en SQL Server 2008 R2 resultados en una mejor utilización del hardware disponible, y por lo tanto un mejor rendimiento, así como el comportamiento más predecible.

ALINEADOS PARTICIÓN VISTAS INDEXADAS “PARTITION-ALIGNED INDEXED VIEWS”

• Permiten crear y gestionar los agregados de resumen en su almacén de datos relacionales de manera más eficiente, y utilizarlos en situaciones en las que no podría usarlos con eficacia antes, la mejora de rendimiento de las consultas en un escenario típico, que tiene una tabla que se divide por la fecha, las vistas indizadas se definen en esta tabla para acelerar las consultas.

• En esta mejora significativa sobre SQL Server 2005, donde se debe quitar todas las vistas indizadas se define en una tabla con particiones antes de usar el funcionamiento del interruptor de ALTER TABLE para cambiar una partición en o fuera de ella.

•En SQL Server 2008 R2 ofrece las ventajas de las vistas indizadas en tablas con particiones grandes, evitando al mismo tiempo el costo de la reconstrucción de los agregados en toda una tabla con particiones.

Estos beneficios incluyen el mantenimiento automático de los agregados

ALINEADOS PARTICIÓN VISTAS INDEXADAS “PARTITION-ALIGNED INDEXED VIEWS”

CONJUNTOS DE AGRUPACIÓN“GROUPING SETS”

• Permiten escribir una consulta que produce varias agrupaciones y devuelve un solo conjunto de resultados. El conjunto de resultados es equivalente a una UNION ALL de filas agrupadas de manera diferente.

• Permite escribir informes con varias agrupaciones con facilidad, con el rendimiento de las consultas mejorado.

“MERGE”• La instrucción MERGE le permite realizar varias manipulaciones de bases de datos, en una

tabla o vista dentro de una sola instrucción.

• La tabla o vista de destino está unido a una fuente de datos y las operaciones de DML se realizan en los resultados de la unión.

• La instrucción MERGE tiene tres cláusulas WHEN, cada una de ellas le permite realizar una acción específica de DML en una fila determinada en el conjunto de resultados:

1. WHEN MATCHED.- Por cada fila que existe tanto en el objetivo y la fuente, permite actualizar o eliminar la fila en la tabla de destino.

2. WHEN TARGET.- Por cada fila que existe en el origen pero no en el de destino, permite insertar una fila en el blanco.

3. WHEN SOURCE.- Por cada fila que existe en el destino pero no en la fuente, permite actualizar o eliminar la fila en la tabla de destino.

“MERGE”• En el contexto del almacenamiento de datos, la instrucción MERGE se utiliza para

efectuar operaciones INSERT eficiente y operaciones de actualización de Slowly Changing Dimensions (SCD) y para mantener la tabla de hechos en varios escenarios comunes.

• La instrucción MERGE tiene mejores características pero en SQL Server 2008 R2 también incluye una extensión de gran alcance para la instrucción INSERT que permite que se consumen las filas devueltas por la cláusula OUTPUT de una instrucción INSERT, UPDATE, DELETE o MERGE.

CAPTURA DE DATOS MODIFICADOS “CHANGE DATA CAPTURE”

• Proporciona un mecanismo eficaz para rastrear y recopilar datos de los cambios realizados en las tablas de usuario y le proporciona acceso a modificar los datos en un formato relacional fácil consumo.

• Normalmente, se utiliza en una base de datos operativos para capturar los cambios de movimiento posterior en el almacén de datos.

• Por lo tanto elimina la necesidad de utilizar métodos intrusivos, como desencadenadores de usuario, columnas de marca, etc.

CAPTURA DE DATOS MODIFICADOS “CHANGE DATA CAPTURE”

INSERTAR REGISTROS MÍNIMAMENTE“MINIMALLY LOGGED INSERT”

• Cuando se escriben datos en una base de datos, se escriben en el disco dos veces: una para el registro, y otra vez en la propia base de datos.

• Sin embargo, es posible escribir los datos en el disco una sola vez, en algunos casos importantes que involucran la inserción de datos en las tablas existentes, lo que acelera los procesos de ETL de manera significativa.

• Consiste en el registro de sólo la información que se requiere para revertir la transacción.

• Mejora, el rendimiento de las grandes operaciones a gran escala INSERTAR al reducir el número de registros a ser escrito y la cantidad de espacio de registro necesario para completar la operación.

COMPRESIÓN DE DATOS“DATA COMPRESSION”

• reduce el tamaño de tablas, índices o un subconjunto de las particiones de almacenamiento para poder reducir los datos redundantes.

• SQL Server ofrece dos tipos de compresión:

1. La compresión ROW.- permite el almacenamiento de tipos de longitud fija, en formato variable de almacenamiento.

2. La compresión PAGE.- reduce al mínimo, el almacenamiento de datos redundantes en la página mediante el almacenamiento de patrones de bytes, que ocurren comúnmente en la página y luego hacen referencia a estos valores en las columnas respectivas.

COMPRESIÓN DE RESERVA DE SEGURIDAD “BACKUP COMPRESSION”

• Reduce el tamaño de las copias de seguridad de SQL y ahorra en los medios de comunicación en disco para copias de seguridad de SQL.

• Esta reducción en el espacio y el tiempo a expensas de la utilización de ciclos de CPU.

• Pero se puede controlar la cantidad de CPU cuando es utilizado por las copias de seguridad utilizando el regulador de recursos.

REGULADOR DE RECURSOS“RESOURCE GOVERNOR”

• Permite controlar la cantidad de recursos de la CPU y la memoria asignada a diferentes partes de su carga de trabajo de la base de datos relacional.

• Se puede utilizar para evitar consultas fuera de control y de reservar recursos para una parte importante de su carga de trabajo.

• Objetivos principales

1. Monitoring.- permite el seguimiento del consumo de recursos por grupo de solicitudes.

2. Predictability.-Proporciona la ejecución previsible de las cargas de trabajo en un ambiente donde no hay contención de recursos.

REGULADOR DE RECURSOS“RESOURCE GOVERNOR”

3. Prioritization.- Habilita la priorización de las cargas de trabajo.

Hay tres nuevos recursos que son importantes para la gobernación del recurso, grupos de carga de trabajo, fondos de recurso, clasificación (y clasificador de funciones definidas por el usuario)

Grupo: Un grupo de carga de trabajo, o el grupo, son una categoría especificada de usuario de solicita lo que es similar según la clasificación gobierna que son aplicados a cada petición. El valor de un grupo está en la supervisión de conjunto de consumo de recurso y una política uniforme que es aplicada a todo solicita en un grupo. Un grupo define la política para sus miembros.

Fondo: Un fondo de recurso, o el fondo, representan una parte de los recursos físicos del servidor. Dependiendo sus ajustes, un fondo puede tener un tamaño fijo (sus ajustes de uso de recurso mínimos y máximos son iguales el uno al otro) o tienen una parte que es compartida entre múltiples fondos (su mínimo es menos que su máximo eficaz). "Compartido" en este caso simplemente quiere decir que los recursos van al fondo que solicita los recursos primero. En la configuración de falta todos los recursos son compartidos, así manteniendo la compatibilidad atrasada con la política de 2005 de Servidor SQL.

Clasificación: La clasificación es un juego de las reglas escritas por usuario que permiten al Gobernador de Recurso clasificar solicita en los grupos descritos antes. Es puesto en práctica por un escalar Despachan-SQL la función definida por usuario (UDF) que es designado como " un clasificador UDF " para el Gobernador de Recurso.

Estos conceptos son ilustrados en la figura siguiente:

MEJORAS DE SERVICIOS DE INTEGRACIÓN``INTEGRATION SERVICES IMPROVEMENTS’’

Haciendo ETL para mover datos de sus sistemas operacionales en su depósito de datos puede ser una tarea intensiva de tiempo. Para hacer este proceso más rápido, SQL el Servidor 2008 Servicios de Integración R2 (SSIS) introducen dos rasgos de adaptabilidad importantes: funcionamiento de consulta mejorado y funcionamiento de tubería de transformación mejorado.

Funcionamiento de consulta es el componente de Consulta en SSIS este corre más rápido, y es aún más fácil al programa que en el Servidor SQL 2005. Una consulta prueba si cada fila en una corriente de filas tiene una fila que hace juego en otro dataset. Una consulta se parece a una base de datos la operación de juntura.

FUNCIONAMIENTO DE TUBERÍA``PIPELINE PERFORMANCE’’

En el Servidor SQL 2008 R2 SSIS, varios hilos puede trabajar juntos para hacer el trabajo que fuerzan un hilo solo a hacer por sí mismo en el Servidor SQL 2005 SSIS. Esto puede darle una aceleración de vario-pliegue en el funcionamiento ETL.

En el Servidor SQL 2005 SSIS, el paralelismo de tubería son más de grano grueso. Cuando los usuarios tienen un paquete simple con uno o dos árboles de ejecución, hay sólo uno o dos procesadores usados, y el paquete no podría beneficiarse de una máquina de multiprocesador con más que unos procesadores. Incluso si los usuarios lógicamente hienden el flujo de datos por usando el multimolde, todos los caminos de salida de un multimolde pertenecen al mismo árbol de ejecución, y ellos son ejecutados en serie por el Servidor SQL 2005 SSIS la tarea de flujo de datos.

La figura siguiente muestra como el Servidor realzado SQL 2008 R2 el paralelismo de tubería trabaja.

MEJORAS DE SERVICIOS DE ANÁLISIS``ANALYSIS SERVICES IMPROVEMENTS’’SQL el Servidor 2008 Servicios de Análisis R2 (SSAS) dramáticamente mejoran la velocidad

de pregunta con el nuevo cómputo de bloque, contestar, y rasgos de funcionamiento de base de datos escalables compartidos. La posibilidad de gestión también se mejora con la capacidad de sostener bases de datos mucho más grandes.

MDX Pregunta Funcionamiento: Cómputo de Bloque

El cómputo de bloque mejorado en el Servidor SQL 2008 R2 SSAS acelera la pregunta de MDX que procesa principalmente por hacer el trabajo solamente para los valores no nulos en un espacio de cubo. Ningún tiempo es gastado evaluando células nulas. La idea clave detrás del cómputo sub espacial es la mejor introducida por contrastándolo con una evaluación de célula-por-célula "ingenua" de un cálculo. Considere un cálculo Rolling Sum que suma las ventas para el año anterior y el año corriente, y una pregunta que solicita el Rolling Sum hacia 2005 para todos los productos.

PREGUNTA Y CONTESTA FUNCIONAMIENTO``QUERY AND WRITE-BACK PERFORMANCE’’El funcionamiento de contesta las operaciones, y preguntas sobre contestan datos, es

mejorado en el Servidor SQL 2008 Servicios de Análisis R2. La célula contesta en Servicios de Análisis es la capacidad para usuarios finales para poner al día valores de célula en la hoja o niveles agregados. La célula contesta los empleos un especial contestan la partición por grupo de medida que almacena la diferencia (el delta) entre el valor de célula puesto al día y el valor original. Cuando una pregunta de MDX solicita datos de célula de este grupo de medida, el motor de almacenaje tiene acceso a todas las particiones incluyendo la partición contestaré y agrega los resultados para producir el valor de célula derecho.

En el Servidor SQL 2005 y liberaciones más tempranas, Servicios de Análisis requeridos contestan particiones para tener el almacenaje ROLAP. Esto es una causa común para publicaciones de funcionamiento

SERVICIOS DE ANÁLISIS RESERVA REALZADA``ANALYSIS SERVICES ENHANCED BACKUP’’En el Servidor SQL 2008 Servicios de Análisis R2 uno de los realces de funcionamiento que

usted encontrará es un nuevo subsistema de almacenaje de reserva. El subsistema de almacenaje de reserva ahora ha sido vuelto a escribir para tener el funcionamiento mayor en cuenta y la adaptabilidad. Los cambios son transparentes a su uso - ningún cambio de código es necesario para aprovecharlos.

El nuevo subsistema de almacenaje de reserva había introducido un nuevo formato a los archivos de reserva de Servicios de Análisis. La extensión de nombre del archivo no se ha cambiado. Sin embargo, el formato interno es diferente, entonces la reserva puede escalar bien para manejar bases de datos sobre un terabyte en el tamaño.

SQL el Servidor 2008 R2 la reserva de Servicios de Análisis es totalmente atrasado compatible con el Servidor SQL 2005 Servicios de Análisis. Esto le permite para restaurar bases de datos sostenidas en el Servidor SQL 2005.

BASE DE DATOS ESCALABLE COMPARTIDA ASSCALABLE SHARED DATABASE FOR ASSQL el Servidor 2008 Servicios de Análisis R2 apoyan esto con un rasgo llamó la base de

datos escalable compartida (SSD).

La escala hacia fuera puede aplicarse a varios argumentos y cargas de trabajo como el tratamiento, preguntas, datos y la dirección de escondrijo. La escala más común - hacia fuera el argumento para Servicios de Análisis debe extender la carga de pregunta a través de múltiples servidores en respuesta al número creciente de usuarios simultáneos. Esto ha sido alcanzado en el pasado por colocando una carga que equilibra la solución como la Carga de Red de Microsoft que Equilibra (NLB) la capacidad delante de múltiples servidores y reproduciendo de los datos físicos entre los servidores. La dirección de tal entorno plantea varios desafíos

La figura siguiente ilustra una configuración típica SSD.

REPORTAJE DE ADAPTABILIDAD``REPORTING SCALABILITY’’El Servidor SQL 2008 R2 el Reportaje de Servicios relatando el motor ha tenido una mejora

principal de la liberación previa, de modo que esto pueda dar informes mucho más grandes que ello podría antes. Aunque esto no sea expresamente una mejora de almacenaje de datos (es útil en el reportaje operacional también), es útil en algunos argumentos de almacenaje de datos. Si usted crea informes con cientos o miles de páginas, SQL el Servidor 2008 R2 Relatando Servicios le ayuda a dar los informes más rápido. Además, el tamaño del informe más grande que puede ser dado ha sido aumentado dramáticamente, considerando la misma configuración de hardware.

Adaptabilidad de Servidor

SQL el Servidor 2008 R2 Relatando Servicios no corre dentro del Servidor de Información De Internet (IIS). Esto puede manejar su propia memoria, y tiene sus propios límites de memoria. Esto permite que usted para configurar los ajustes de memoria tan SSRS pueda correr sobre el mismo ordenador más con eficacia con otros servicios, como el Servidor SQL.

PREGUNTAS DE RETROALIMENTACIÓN• Para que nos sirve la característica Partitioned Table Parallelism?

• Que es data warehouse?

• Para que nos sirve la caracteristica Merge?

• Caracteristicas del regulador de recursos?

• Cuales son los obejtivos principales del regulador de recursos?

Data warehouse

Education

Transcript of Data warehouse