Data mart-data-warehouse-data-mining

17
U N I V E R S I D A D A L A S P E R U A N A S TEMA: DATA MARK, DATA WAREHOUSE Y DATA MINING GRUPO: LUIS ALBERTO SANCHEZ YNGA. FELIPE YACTAYO AUDANTE. CRISTOPHER SALAS VALDEZ. DANIEL CUENCA BARRAGAN CURSO: SISTEMA DE INFORMACIÒN. CARRERA: ADMINISTRACION DE EMPRESAS Y NEGOCIOS INTERNACIONALES. VII CICLO

Transcript of Data mart-data-warehouse-data-mining

UNIVERSIDAD ALAS PERUANAS

TEMA: DATA MARK, DATA WAREHOUSE Y DATA MINING

GRUPO: • LUIS ALBERTO SANCHEZ YNGA.• FELIPE YACTAYO AUDANTE.• CRISTOPHER SALAS VALDEZ.• DANIEL CUENCA BARRAGAN

CURSO: SISTEMA DE INFORMACIÒN.

CARRERA:ADMINISTRACION DE EMPRESAS Y NEGOCIOS INTERNACIONALES.

VII CICLO

INTRODUCCIÓN

Las empresas tratan de utilizar la información acumulada por las operaciones diarias de la investigación de mercado y comercialización. Las empresas que han estado en el negocio por un tiempo se dan cuenta de que han acumulado enormes cantidades de datos en diversas bases de datos operacionales.

Por lo tanto, El Data Mining es el proceso de extraer información de diferentes bases de datos de la compañía y volver a organizarlo para fines distintos.

Ahora un Data Ware house es un lugar donde los datos pueden ser almacenados para la minería más conveniente. Esto generalmente será un sistema de ordenador rápido con gran capacidad de almacenamiento de datos.

Y un Data Mart es un sistema de índice y extracción. En lugar de traer todos los datos de la empresa en un solo almacén, el mercado de datos sabe qué datos cada base de datos contiene y cómo extraer información de múltiples bases de datos

DATA MART

Un Data mart es una versión especial de almacén de datos (data warehouse). Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples formas para que diversos grupos de usuarios realicen la explotación de los mismos de la forma más conveniente según sus necesidades.

El Data mart es un sistema orientado a la consulta, en el que se producen procesos batch de carga de

datos (altas) con una frecuencia baja y conocida. Es consultado mediante herramientas OLAP (On line Analytical Processing - Procesamiento Analítico en Línea) que ofrecen una visión multidimensional de

la información.

Sobre estas bases de datos se pueden construir EIS (Executive Information Systems,

Sistemas de Información para Directivos) y DSS (Decision Support Systems, Sistemas de

Ayuda a la toma de Decisiones).

*La dependencia de un DATA MART:Según la tendencia marcada por Inmon sobre los data warehouse, una data mart dependiente es un subconjunto lógico (vista) o un subconjunto físico (extracto) de un almacén de datos más grande, que se ha aislado por alguna de las siguientes razones:Se necesita para un esquema o modelo de datos espacial (por ejemplo, para reestructurar los datos para alguna herramienta OLAP).

*Prestaciones: Para descargar el data mart a un ordenador independiente para mejorar la eficiencia.*Seguridad: Para separar un subconjunto de datos de forma selectiva a los que queremos permitir o restringir el acceso.*Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos necesarios para poder incorporar una nueva aplicación en el Data Warehouse principal de la Empresa.*Demostración sobre el terreno: para demostrar la viabilidad y el potencial de una aplicación antes de migrarla al Data Warehouse de la Empresa.*Política: Razones internas de la organización para hacer esta división o separación de los datos del almacén de datos.

*Conceptos erróneos de los Data Marts:Al hablar de los data marts, es inevitable la comparación con los data warehouse y al final se acaba diciendo (o entendiendo). *Son más simples de implementar que un

Data Warehouse: FALSO, la implementación es muy similar, ya que debe proporcionar las mismas funcionalidades.

*Son pequeños conjuntos de datos y, en consecuencia, tienen menor necesidad de recursos: FALSO, una aplicación corriendo sobre un data mart necesita los mismos recursos que si corriera sobre un data warehouse.

Las consultas son más rápidas, dado el menor volumen de datos: FALSO, el menor volumen de datos se debe a que no se tienen todos los datos de toda la empresa, pero sí se tienen todos los datos de un determinado sector de la empresa,

DATA WAREHOUSE

¿QUÉ ES UN DATA WAREHOUSE?

Tras las dificultades de los sistemas tradicionales en satisfacer las necesidades informacionales, surge el concepto de Data Warehouse, como solución a las necesidades informacionales globales de la empresa. Este término acuñado por Bill Inmon, se traduce literalmente como Almacén de Datos. No obstante si el Data Warehouse fuese exclusivamente un almacén de datos, los problemas seguirían siendo los mismos que en los Centros de Información.

Definiciones de almacén de datos

*Definición de Bill InmonBill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define una data warehouse (almacén de datos).

*Orientado a temas.- Los datos en la base de datos están organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí.

*Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones.

*No volátil.- La información no se modifica ni se elimina, una vez almacenado un dato, éste se convierte en información de sólo lectura, y se mantiene para futuras consultas.

*Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes.

términos de las características

del repositorio de datos:

RALPH KIMBALL*Definición

Ralph Kimball es otro conocido autor en el tema de los data warehouse, define un almacén de datos como: "una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis". También fue Kimball quien determinó que un data warehouse no era más que: "la unión de todos los Data marts de una entidad". Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un almacén de datos.

*Una definición más amplia de almacén de datos

Las definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas para analizarlos y generar información, así como las diferentes formas para realizar la gestión de datos son componentes esenciales de un almacén de datos. Muchas referencias a un almacén de datos utilizan esta definición más amplia.

*Función de un almacén de datosEn un almacén de datos lo que se quiere es contener datos que son necesarios o útiles para una organización, es decir, que se utiliza como un repositorio de datos para posteriormente transformarlos en información útil para el usuario. En el funcionamiento de un almacén de datos son muy importantes las siguientes ideas: *Integración de los datos provenientes

de bases de datos distribuidas por las diferentes unidades de la organización y que con frecuencia tendrán diferentes estructuras (fuentes heterogéneas).

*Separación de los datos usados en operaciones diarias de los datos usados en el almacén de datos para los propósitos de divulgación, de ayuda en la toma de decisiones, para el análisis y para operaciones de control.

*Ventajas e inconvenientes de los almacenes de datosHay muchas ventajas por las que es recomendable usar un almacén de datos. Algunas de ellas son:

Poco volumen de datos

Mayor rapidez de consulta

Consultas SQL y/o MDX sencillas

Validación directa de la información

Facilidad para la historización de los datos

Las diferencias de un Data Warehouse con un sistema tradicional las podríamos resumir en el siguiente esquema:

DATA MINING

El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.

De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información.

Vea más diferencias

entre datos, información y conocimiento.

Aunque en data mining cada caso

concreto puede ser

radicalmente distinto al anterior, el

proceso común a todos ellos se

suele componer de cuatro etapas principales:

*Determinación de los

objetivos. Trata de la

delimitación de los objetivos que el cliente desea bajo la

orientación del especialista en data mining.

Análisis de los resultados. Ver

ifica si los resultados

obtenidos son coherentes y los coteja con los obtenidos

por los análisis estadísticos y

de visualización gráfica.

*Reprocesamiento de los datos. Se

refiere a la selección, la limpieza, el

enriquecimiento, la reducción

y la transformación de las bases de

datos.

*Determinación del

modelo. Se comienza realizando

unos análisis estadísticos de

los datos, y después se lleva a cabo

una visualización gráfica de los mismos para

tener una primera

aproximación.

*Técnicas de Data Mining

Como ya se ha comentado, las técnicas de la minería de datos provienen de la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.Las técnicas más representativas son:

Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. *El perceptrón.*El perceptrón multicapa.*Los mapas autoorganizados, también conocidos como redes de Kohonen.

Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.

Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas,Ejemplos:

• Algoritmo ID3.• Algoritmo C4.5.

Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.

Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; Ejemplos:

• Algoritmo K-means.• Algoritmo K-medoids.

Reglas de asociación.- Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.• Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos)

desconocido a priori, a partir de otros conocidos.• Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren

patrones y tendencias en los datos.

EJEMPLOS DE USO DE LA DATA MINING*Negocios

La minería de datos puede contribuir significativamente en las aplicaciones de administración empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando e-mails, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción. Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de la inversión, pero también reconocen que el número de modelos predictivos desarrollados puede crecer muy rápidamente.

En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría construir modelos separados para cada región y/o para cada tipo de cliente. También puede querer determinar qué clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes) y sólo enviar las ofertas a las personas que es probable que sean rentables.

Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minería de datos lo más automatizada posible.

Sánchez Ynga, Luis Alberto: Estos factos de apoyo y de ayuda almacenan datos, para una organización, es decir, que se utiliza como un repositorio de datos para posteriormente transformarlos en información útil para el usuario. Brindando así una información correcta a la gente indicada en el momento óptimo y en el formato adecuado, para poder tener una buena toma de decisión en el mundo competitivo.

Yactayo Audante, Felipe: Estas Herramientas Son Bien Útiles ya que no solo se utilizan para almacenar datos sino que las Empresas lo quieren utilizar para las ventas, marketing y planificación estratégica. En algunos casos una de las herramientas es la desfragmentación de una de ellas es más rápida en la utilización de datos pero lo malo es que no almacena mucho pero si es rápido en el resultado

Salas Valdez, Christopher Jefry: Este tipo de herramientas de apoyo, ayudan a dar a los usuarios acceso a los datos que ellos necesitan para analizarlos más a menudo. Estos sistemas de almacenamiento proveen los datos en una forma que concuerda la vista colectiva de los datos por un grupo de usuarios en un departamento o función de negocio, donde también se mejora el tiempo de respuesta al usuario final debido a la reducción en el volumen de información a ser accedido, estos “Datas” nos facilitan la provisión de datos apropiadamente estructurados para satisfacer los requerimientos de las herramientas de acceso de usuario final.

OPINIONES :