1154406-1366612 3845

TALLER DE ANALISIS DE SISTEMAS Y BASES DE DATOS

GERALDINE DIAZ MOLINA

MARIA FERNANDA VINASCO LEON

UNIVERSIDAD DEL VALLE SEDE ZARZAL

FACULTAD DE CIENCIAS DE LA ADMINISTRACION

ADMINISTRACION DE EMPRESAS

ZARZAL

2014

TALLER DE ANALISIS DE SISTEMAS Y BASES DE DATOS

GERALDINE DIAZ MOLINA

MARIA FERNANDA VINASCO LEON

MINERIA DE DATOS Y CONCEPTOS DE BASES DE DATOS

ING. JUAN CARLOS GALEANO G.

UNIVERSIDAD DEL VALLE SEDE ZARZAL

FACULTAD DE CIENCIAS DE LA ADMINISTRACION

ADMINISTRACION DE EMPRESAS

ZARZAL

2014

INTRODUCCION

En la actualidad es necesario conocer todas aquellas herramientas tecnológicas que de alguna manera están haciendo que la recopilación, reconocimiento y organización de los datos sea mucho más fácil tanto para las organizaciones como para las personas. Por medio del siguiente trabajo, se desarrollara un cuestionario, donde se darán a conocer los conceptos de aquellas herramientas tecnológicas que está enfrentando la globalización, y hace que el reconocimiento y el manejo de procesar datos sea un formato nuevo de utilización de herramientas de cómputo que permita obtener conocimiento de los datos superando problemas de complejidad, volumen, relaciones propias y externas entre los mismos datos. Una de las áreas de investigación que obtiene información de grandes volúmenes de datos es la Minería de Datos y esto ha permitido el desarrollo de esta área de investigación respecto de la capacidad de predicción en base al procesamiento de cantidades masivas de datos. Por otro lado, se tratara de retroalimentar y adquirir conocimiento en conceptos que se relacionan con cada una de las actividades diarias de las personas en el mundo, que de alguna manera generan una visión más grande de lo que en realidad estas herramientas implantan en los procesos que grandes industrias manejan con magnitud y que les ha proporcionado posicionamiento y valor agregado a estas.

TALLER

1. Explique en qué consiste la Minería de Datos, sus ventajas, desventajas, manejo, características y otros conceptos que usted considere importante.

R/: La minería de datos es el proceso de detectar la información procesable de los conjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos.

Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los modelos de minería de datos se pueden aplicar en escenarios como los siguientes:

Pronóstico: cálculo de las ventas y predicción de las cargas del servidor o del tiempo de inactividad del servidor.

Riesgo y probabilidad: elección de los mejores clientes para la distribución de correo directo, determinación del punto de equilibrio probable para los escenarios de riesgo, y asignación de probabilidades a diagnósticos y otros resultados.

Recomendaciones: determinación de los productos que se pueden vender juntos y generación de recomendaciones.

Búsqueda de secuencias: análisis de los artículos que los clientes han introducido en el carrito de la compra y predicción de posibles eventos.

Agrupación: distribución de clientes o eventos en grupos de elementos relacionados, y análisis y predicción de afinidades.

VENTAJAS:

Si bien la data mining se presenta como una tecnología emergente, posee ciertas

ventajas, como estas: Resulta un buen punto de encuentro entre los investigadores y las

personas de negocios.

Este punto hace referencia a que aparece nueva tecnología la cual muchas veces es adquirida por empresas grandes las cuales financian estos proyectos.

Ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios.

Prácticamente esto apoya al punto anterior ya que cuando un proyecto es bueno este es financiado por una empresa la cual adquiere más dinero del que invirtió y gracias a esta tecnología una empresa puede abrir otras oportunidades en el mercado.

Trabajar con esta tecnología implica cuidar un sin número de detalles debido a que el producto final involucra "toma de decisiones".

Tienes la tecnología y esta te abrió paso en el mercado, también esta crea un producto el cual tu estas ofreciendo, pero hay que ver que tan efectiva fue la implementación la empresa ¿va creciendo o decreciendo? , ha eso hace referencia el punto 3.

Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un sentido automatizado para identificar información clave desde volúmenes de datos generados por procesos tradicionales y de e-Business.

Permite a los usuarios dar prioridad a decisiones y acciones, mostrando factores que tienen un mayor en un objetivo, también muestra qué segmentos de clientes son desechables y qué unidades de negocio son sobrepasados y el ¿por qué?

Hace referencia a que gracias a Data Mining solo hay que preocuparse de las tomas de decisiones ya que gracias a esta tecnología va mostrando las diversas ventajas y desventajas como son algunas señaladas en este punto. (Punto 5)

Proporciona poderes de decisión a los usuarios del negocio que mejor entienden el problema y el entorno y es capaz de medir las acciones y los resultados de la mejor forma.

Gracias a Data Mining se pueden dividir los problemas en distintos sectores y esto provocara que en diversos sectores deba haber distintos grupos de trabajo especializados en el ámbito de ese problema para así optimizar el tiempo y recursos.

Genera Modelos descriptivos: en un contexto de objetivos definidos en los negocios permite a empresas, sin tener en cuenta la industria o el tamaño, explorar automáticamente, visualizar y comprender los datos e identificar patrones, relaciones y dependencias que impactan

en los resultados finales de la cuenta de resultados (tales como el aumento de los ingresos, incremento de los beneficios, contención de costes y gestión de riesgos).

Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas a través del proceso del Data Mining sean expresadas como reglas de negocio o modelos predictivos. Estos outputs pueden comunicarse en formatos tradicionales (presentaciones, informes, información electrónica compartida, embebidos en aplicaciones, etc.) para guiar la estrategia y planificación de la empresa.

DESVENTAJAS:

Requiere una gran inversión debido a que su correcta construcción no es tarea sencilla y consume muchos recursos, además, su misma implementación, implica desde la adquisición de herramientas de consulta y análisis, hasta la capacitación de los usuarios.

Existe resistencia al cambio por parte de los usuarios Los beneficios del almacén de datos son apreciados en el mediano y largo

plazo. Este punto deriva del anterior, y básicamente se refiere a que no todos nos usuarios confiaran en el DW en una primera instancia, pero si lo harán una vez que comprueben su efectividad y ventajas. Además, su correcta utilización surge de la propia experiencia.

Si se incluyen datos propios y confidenciales del cliente, proveedores, etc., el depósito de datos atentara contra la privacidad de los mismos, ya que cualquier usuario podrá tener acceso a ellos.

Infravaloración de los recursos necesarios para la captura, carga y almacenamiento de los datos

Infravaloración del esfuerzo necesario para su diseño y creación Incremento continuo de los requerimientos de los usuarios Subestimación de las capacidades que puede brindar la correcta utilización

del DWH y de las herramientas del BI en general.

MANEJO:

Selección del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el cálculo o proceso), como posiblemente al muestreo de los registros disponibles.

Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).

Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema, a este paso también se le conoce como preprocesamiento de los datos.

Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación.

Extracción de conocimiento, mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.

Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Si el modelo final no superara esta evaluación el proceso se podría repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentación se podrá repetir cuantas veces se considere necesario hasta obtener un modelo válido.

Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con márgenes de error admisibles) éste ya está listo para su explotación. Los modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de información de las organizaciones,

e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minería de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de análisis de la información hacen uso de este estándar.

Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las que centralizan información potencialmente útil de todas sus áreas de negocio. No obstante, actualmente está cobrando una importancia cada vez mayor la minería de datos desestructurados como información contenida en ficheros de texto, en Internet, etc.

2. Explique en qué consisten las bodegas de datos, sus ventajas, desventajas, manejo, características y otros conceptos que usted considere importantes.

En el contexto de la informática, un almacén de datos es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organización, más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos (especialmente OLAP, procesamiento analítico en línea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o para el que sea necesario.

En un almacén de datos lo que se quiere es contener datos que son necesarios o

útiles para una organización, es decir, que se utiliza como un repositorio de

datos para posteriormente transformarlos en información útil para el usuario. Un

almacén de datos debe entregar la información correcta a la gente indicada en el

momento óptimo y en el formato adecuado. El almacén de datos da respuesta a

las necesidades de usuarios expertos, utilizando Sistemas de Soporte a

Decisiones (DSS), Sistemas de información ejecutiva (EIS) o herramientas para

hacer consultas o informes. Los usuarios finales pueden hacer fácilmente

consultas sobre sus almacenes de datos sin tocar o afectar la operación del

sistema.

En el funcionamiento de un almacén de datos son muy importantes las siguientes

ideas:

Integración de los datos provenientes de bases de datos distribuidas por las

diferentes unidades de la organización y que con frecuencia tendrán diferentes

estructuras (fuentes heterogéneas). Se debe facilitar una descripción global y

un análisis comprensivo de toda la organización en el almacén de datos.

Separación de los datos usados en operaciones diarias de los datos usados

en el almacén de datos para los propósitos de divulgación, de ayuda en la

toma de decisiones, para el análisis y para operaciones de control. Ambos

tipos de datos no deben coincidir en la misma base de datos, ya que obedecen

a objetivos muy distintos y podrían entorpecerse entre sí.

Periódicamente, se importan datos al almacén de datos de los distintos sistemas

de planeamiento de recursos de la entidad (ERP) y de otros sistemas de software

relacionados con el negocio para la transformación posterior. Es práctica común

normalizar los datos antes de combinarlos en el almacén de datos mediante

herramientas de extracción, transformación y carga (ETL). Estas herramientas

leen los datos primarios (a menudo bases de datos OLTP de un negocio), realizan

el proceso de transformación al almacén de datos (filtración, adaptación, cambios

de formato, etc.) y escriben en el almacén.

Ventajas:

Proporciona información clave para la toma de decisiones empresariales.

Mejora la calidad de las decisiones tomadas.

Especialmente útil para el medio y largo plazo.

Son sistemas relativamente sencillos de instalar si las fuentes de datos y los objetivos están claros.

Muy útiles para el almacenamiento de análisis y consultas de históricos.

Proporciona un gran poder de procesamiento de información.

Permite una mayor flexibilidad y rapidez en el acceso a la información.

Facilita la toma de decisiones en los negocios.

Las empresas obtienen un aumento de la productividad.

Proporciona una comunicación fiable entre todos los departamentos de la empresa.

Mejora las relaciones con los proveedores y los clientes.

Permite conocer qué está pasando en el negocio, es decir, estar siempre enterado de los buenos y malos resultados.

Transforma los datos en información y la información en conocimiento

Permite hacer planes de forma más efectiva.

Reduce los tiempos de respuesta y los costes de operación.

Datawarehouse proporciona una información de gestiónaccesible, correcta, uniforme y actualizada. Proporciona un menor coste en la toma de decisiones, una mayor flexibilidad ante el entorno, un mejor servicio al cliente y permite el rediseño de los procesos.

Desventajas:

No es muy útil para la toma de decisiones en tiempo real debido al largo tiempo de procesamiento que puede requerir. En cualquier caso la tendencia de los productos actuales (junto con los avances del hardware) es la de solventar este problema convirtiendo la desventaja en una ventaja.

Requiere de continua limpieza, transformación e integración de datos.

Mantenimiento.

En un proceso de implantación puede encontrarse dificultades ante los diferentes objetivos que pretende una organización.

Una vez implementado puede ser complicado añadir nuevas fuentes de datos.

Requieren una revisión del modelo de datos, objetos, transacciones y además del almacenamiento.

Tienen un diseño complejo y multidisciplinar.

Requieren una reestructuración de los sistemas operacionales.

Tienen un alto coste.

Requieren sistemas, aplicaciones y almacenamiento específico.

Las empresas que utilizan data warehouse son fundamentalmente aquellas que manejan grandes volúmenes de datos relativos a clientes, compras, marketing, transacciones, operaciones como lo son las empresas de telecomunicaciones, transporte, Turismo, fabricación de bienes de consumo masivo etc.

CARACTERISTICAS DE UN DATA WAREHOUSE

Entre las principales se tiene:

Orientado al tema

Integrado

De tiempo variante

No volátil

Orientado a Temas

Una primera característica del data warehouse es que la información se clasifica con base a los aspectos que son de interés para la empresa. Siendo así, los datos tomados están en contraste con los clásicos procesos orientados a las aplicaciones.

El ambiente operacional se diseña alrededor de las aplicaciones y funciones tales como préstamos, ahorros, tarjeta bancaria y depósitos para una institución financiera. Por ejemplo, una aplicación de ingreso de órdenes puede acceder a los datos sobre clientes, productos y cuentas. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la aplicación.

En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos pueden ser clientes, productos, proveedores y vendedores. Para una universidad

pueden ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes, personal médico, medicamentos, etc.

Integración

El aspecto más importante del ambiente data warehousing es que la información encontrada al interior está siempre integrada.

La integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificación de estructuras consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros. .

A través de los años, los diseñadores de las diferentes aplicaciones han tomado sus propias decisiones sobre cómo se debería construir una aplicación. Los estilos y diseños personalizados se muestran de muchas maneras.

Se diferencian en la codificación, en las estructuras claves, en sus características físicas, en las convenciones de nombramiento y otros.

La capacidad colectiva de muchos de los diseñadores de aplicaciones, para crear aplicaciones inconsistentes, es fabulosa.

Codificación. Los diseñadores de aplicaciones codifican el campo GENERO en varias formas. Un diseñador representa GENERO como una "M" y una "F", otros como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como "masculino" y "femenino".

No importa mucho cómo el GENERO llega al data warehouse. Probablemente "M" y "F" sean tan buenas como cualquier otra representación. Lo importante es que sea de cualquier fuente de donde venga, el GENERO debe llegar al data warehouse en un estado integrado uniforme.

Por lo tanto, cuando el GENERO se carga en el data warehouse desde una aplicación, donde ha sido representado en formato "M" y "F", los datos deben convertirse al formato del data warehouse.

Medida de atributos. Los diseñadores de aplicaciones miden las unidades de medida de las tuberías en una variedad de formas. Un diseñador almacena los datos de tuberías en centímetros, otros en pulgadas, otros en millones de pies cúbicos por segundo y otros en yardas.

Al dar medidas a los atributos, la transformación traduce las diversas unidades de medida usadas en las diferentes bases de datos para transformarlas en una medida estándar común.

Cualquiera que sea la fuente, cuando la información de la tubería llegue al data warehouse necesitará ser medida de la misma manera.

Convenciones de Nombramiento.- El mismo elemento es frecuentemente referido por nombres diferentes en las diversas aplicaciones. El proceso de transformación asegura que se use preferentemente el nombre de usuario.

Fuentes Múltiples.- El mismo elemento puede derivarse desde fuentes múltiples. En este caso, el proceso de transformación debe asegurar que la fuente apropiada sea usada, documentada y movida al depósito.

Cualquiera que sea la forma del diseño, el resultado es el mismo - la información necesita ser almacenada en el data warehouse en un modelo globalmente aceptable y singular, aun cuando los sistemas operacionales subyacentes almacenen los datos de manera diferente.

Cuando el analista de sistema de soporte de decisiones observe el data warehouse, su enfoque deberá estar en el uso de los datos que se encuentre en el depósito, antes que preguntarse sobre la confiabilidad o consistencia de los datos.

De Tiempo Variante

Toda la información del data warehouse es requerida en algún momento. Esta característica básica de los datos en un depósito, es muy diferente de la información encontrada en el ambiente operacional. En éstos, la información se requiere al momento de acceder. En otras palabras, en el ambiente operacional, cuando usted acceda a una unidad de información, usted espera que los valores requeridos se obtengan a partir del momento de acceso.

Como la información en el data warehouse es solicitada en cualquier momento (es decir, no "ahora mismo"), los datos encontrados en el depósito se llaman de "tiempo variante".

Los datos históricos son de poco uso en el procesamiento operacional. La información del depósito por el contraste, debe incluir los datos históricos para usarse en la identificación y evaluación de tendencias.

1° La más simple es que la información representa los datos sobre un horizonte largo de tiempo - desde cinco a diez años. El horizonte de tiempo representado para el ambiente operacional es mucho más corto - desde valores actuales hasta sesenta a noventa días.

Las aplicaciones que tienen un buen rendimiento y están disponibles para el procesamiento de transacciones, deben llevar una cantidad mínima de datos si tienen cualquier grado de flexibilidad. Por ello, las aplicaciones operacionales tienen un corto horizonte de tiempo, debido al diseño de aplicaciones rígidas.

2° La segunda manera en la que se muestra el tiempo variante en el data warehouse está en la estructura clave. Cada estructura clave en el data warehouse contiene, implícita o explícitamente, un elemento de tiempo como día, semana, mes, etc.

El elemento de tiempo está casi siempre al pie de la clave concatenada, encontrada en el data warehouse. En ocasiones, el elemento de tiempo existirá implícitamente, como el caso en que un archivo completo se duplica al final del mes, o al cuarto.

3° La tercera manera en que aparece el tiempo variante es cuando la información del data warehouse, una vez registrada correctamente, no puede ser actualizada. La información del data warehouse es, para todos los propósitos prácticos, una serie larga de "snapshots" (vistas instantáneas).

Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden ser cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son alterados una vez hechos. En algunos casos puede ser no ético, e incluso ilegal, alterar los snapshots en el data warehouse. Los datos operacionales, siendo requeridos a partir del momento de acceso, pueden actualizarse de acuerdo a la necesidad.

No Volátil

La información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva más grande, esencial la manipulación básica de los datos que ocurre en el data warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualización de datos (en el sentido general de actualización) en el depósito, como una parte normal de procesamiento.

Hay algunas consecuencias muy importantes de esta diferencia básica, entre el procesamiento operacional y del data warehouse. En el nivel de diseño, la necesidad de ser precavido para actualizar las anomalías no es un factor en el data warehouse, ya que no se hace la actualización de datos. Esto significa que en el nivel físico de diseño, se pueden tomar libertades para optimizar el acceso a los datos, particularmente al usar la normalización y de normalización física.

Otra consecuencia de la simplicidad de la operación del data warehouse está en la tecnología subyacente, utilizada para correr los datos en el depósito. Teniendo que soportar la actualización de registro por registro en modo on-line (como es frecuente en el caso del procesamiento operacional) requiere que la tecnología tenga un fundamento muy complejo debajo de una fachada de simplicidad.

La tecnología permite realizar backup y recuperación, transacciones e integridad de los datos y la detección y solución al estancamiento que es más complejo. En el data warehouse no es necesario el procesamiento.

La fuente de casi toda la información del data warehouse es el ambiente operacional. A simple vista, se puede pensar que hay redundancia masiva de datos entre los dos ambientes. Desde luego, la primera impresión de muchas personas se centra en la gran redundancia de datos, entre el ambiente operacional y el ambiente de data warehouse. Dicho razonamiento es superficial y demuestra una carencia de entendimiento con respecto a qué ocurre en el data warehouse. De hecho, hay una mínima redundancia de datos entre ambos ambientes.

Se debe considerar lo siguiente:

Los datos se filtran cuando pasan desde el ambiente operacional al de depósito. Existe mucha data que nunca sale del ambiente operacional. Sólo los datos que realmente se necesitan ingresarán al ambiente de data warehouse.

El horizonte de tiempo de los datos es muy diferente de un ambiente al otro. La información en el ambiente operacional es más reciente con respecto a la del data warehouse. Desde la perspectiva de los horizontes de tiempo únicos, hay poca superposición entre los ambientes operacional y de data warehouse.

El data warehouse contiene un resumen de la información que no se encuentra en el ambiente operacional.

Los datos experimentan una transformación fundamental cuando pasa al data warehouse. La mayor parte de los datos se alteran significativamente al ser

seleccionados y movidos al data warehouse. Dicho de otra manera, la mayoría de los datos se alteran física y radicalmente cuando se mueven al depósito. No es la misma data que reside en el ambiente operacional desde el punto de vista de integración.

En vista de estos factores, la redundancia de datos entre los dos ambientes es una ocurrencia rara, que resulta en menos de 1%.

USOS DEL DATA WAREHOUSE

Los datos operacionales y los datos del data warehouse son accesados por usuarios que usan los datos de maneras diferentes.

Uso de Base de Datos Operacionales

Uso de

Data Warehouse

Muchos usuarios concurrentes Pocos usuarios concurrentes

Consultas predefinidas y actualizables

Consultas complejas, frecuentemente

no anticipadas.

Cantidades pequeñas de datos detallados

Cantidades grandes de datos detallados

Requerimientos de respuesta inmediata

Requerimientos de respuesta no críticos

Maneras diferentes de uso de datos

Los usuarios de un data warehouse necesitan acceder a los datos complejos, frecuentemente desde fuentes múltiples y de formas no predecibles.

Los usuarios que accedan a los datos operacionales, comúnmente efectúan tareas predefinidas que, generalmente requieren acceso a una sola base de datos de una aplicación. Por el contrario, los usuarios que accedan al data warehouse, efectúan tareas que requieren acceso a un conjunto de datos desde fuentes múltiples y frecuentemente no son predecibles. Lo único que se conoce (si es modelada correctamente) es el conjunto inicial de datos que se han establecido en el depósito.

Por ejemplo, un especialista en el cuidado de la salud podría necesitar acceder a los datos actuales e históricos para analizar las tendencias de costos, usando un conjunto de consultas predefinidas. Por el contrario, un representante de ventas podría necesitar acceder a los datos de cliente y producto para evaluar la eficacia de una campaña de marketing, creando consultas base o ad-hoc para encontrar nuevamente necesidades definidas.

Sólo pocos usuarios acceden a los datos concurrentemente

En contraste a la producción de sistemas que pueden manejar cientos o miles de usuarios concurrentes, al data warehouse acceda un limitado conjunto de usuarios en cualquier tiempo determinado.

Los usuarios generan un procesamiento no predecible complejo

Los usuarios del data warehouse generan consultas complejas. A veces la respuesta a una consulta conduce a la formulación de otras preguntas más detalladas, en un proceso llamado drilling down. El data warehouse puede incluir niveles de resúmenes múltiples, derivado de un conjunto principal, único, de datos detallados, para soportar este tipo de uso.

En efecto, los usuarios frecuentemente comienzan buscando en los datos resumidos y como identifican áreas de interés, comienzan a acceder al conjunto de datos detallado. Los conjuntos de datos resumidos representan el "Qué" de una situación y los conjuntos de datos detallados permiten a los usuarios construir un cuadro sobre "Cómo" se ha derivado esa situación.

Las consultas de los usuarios accedan a cantidades grandes de datos

Debido a la necesidad de investigar tendencias y evaluar las relaciones entre muchas clases de datos, las consultas al data warehouse permiten acceder a volúmenes muy grandes tanto de data detallada como resumida. Debido a los requerimientos de datos históricos, los data warehouses evolucionan para llegar a un tamaño más grande que sus orígenes operacionales (de 10 a 100 veces más grande).

Las consultas de los usuarios no tienen tiempos de respuesta críticos

Las transacciones operacionales necesitan una respuesta inmediata porque un cliente puede estar esperando una respuesta. En el data warehouse, por el contrario, tiene un requerimiento de respuesta no-crítico porque el resultado frecuentemente se usa en un proceso de análisis y toma de decisiones. Aunque

los tiempos de respuesta no son críticos, los usuarios esperan una respuesta dentro del mismo día en que es hecha la consulta.

Por lo general, los diferentes niveles de datos dentro del data warehouse reciben diferentes usos. A más alto nivel de esquematización, se tiene mayor uso de los datos.

La data más resumida, permite capturar los datos en forma más rápida y eficiente. Si en una tarea se encuentra que se hace mucho procesamiento a niveles de detalle del data warehouse, entonces se consumirá muchos recursos de máquina. Es mejor hacer el procesamiento a niveles más altos de esquematización como sea posible.

Para muchas tareas, el analista de sistemas de soporte de decisiones usa la información a nivel de detalle en un pre data warehouse. La seguridad de la información de detalle se consigue de muchas maneras, aun cuando estén disponibles otros niveles de esquematización. Una de las actividades del diseñador de datos es el de desconectar al usuario del sistema de soporte de decisiones del uso constante de datos a nivel de detalle más bajo.

El diseñador de datos tiene dos predisposiciones:

Instalar un sistema chargeback, donde el usuario final pague por los recursos consumidos

Señalar el mejor tiempo de respuesta que puede obtenerse cuando se trabaja con la data a un nivel alto de esquematización, a diferencia de un pobre tiempo de respuesta que resulta de trabajar con los datos a un nivel bajo de detalle.

3. ¿Qué es una base de datos centralizada?. Ejemplos y como se puede aplicar en conceptos de minería de datos o bodegas de datos?.

BASE DE DATOS CENTRALIZADA (BDC).

Es una base de datos almacenada en su totalidad en un solo lugar físico, es decir, es una base de datos almacenada en una sola máquina y una sola CPU, en donde los usuarios trabajan en terminales que sólo muestran resultados. Son aquellos que se ejecutan en un único sistema informático sin interaccionar con ninguna otra computadora.

CARACTERÍSTICAS DE LAS BASES DE DATOS

CENTRALIZADAS.

• Se almacena completamente en una localidad central, es decir, todos los componentes del sistema residen en un solo computador o sitio.

No posee múltiples elementos de procesamiento ni mecanismos de intercomunicación como las Bases de Datos Distribuidas.

• Los componentes de la Bases de Datos Centralizadas son los datos, el software del SGBD (Sistema de Gestión de Base de Datos) y los dispositivos de almacenamiento secundario asociados, como disco de almacenamiento en línea de la base de datos y cintas para las copias de seguridad.

• El problema de seguridad es inherentemente fácil en estos sistemas de bases de datos.

VENTAJAS E INCONVENIENTES

VENTAJAS DE LAS BASES DE DATOS CENTRALIZADAS.

• Se evita la redundancia. En sistemas que no usan Bases de Datos Centralizadas, cada aplicación tiene sus propios archivos privados o se encuentran en diferentes localidades.Esto a menudo origina enorme redundancia en los datos almacenados, así como desperdicio resultante del espacio de almacenamiento.

• Se evita la inconsistencia. Ya que si un hecho específico se representa por una sola entrada, la no-concordancia de datos no puede ocurrir.

• Pueden hacerse cumplir las normas establecidas. Con un control central de la base de datos, el Administrador de Base de Datos (DBA) puede garantizar que se cumplan todas las formas aplicables a la representación de los datos.

• Pueden aplicarse restricciones de seguridad. El Administrador de Base de Datos (DBA) puede:

Asegurar que el único medio de acceder la base de datos sea a través de los canales establecidos. Definir controles de autorización para que se apliquen cada vez que se intente el acceso a datos sensibles

• Puede conservarse la integridad. Que los datos se encuentren en una sola máquina ayuda a evitar la inconsistencia de los datos, por el mismo hecho de encontrarse en una sola máquina.El procesamiento de los datos ofrece un mejor rendimiento y resulta más confiable que en los sistemas distribuidos.

DESVENTAJAS DE LAS BASES DE DATOS CENTRALIZADAS.

• Los mainframes (computadora central) no ofrecen mejor proporción precio/rendimiento que los microprocesadores de los sistemas distribuidos.

• Cuando un sistema de Base de Datos Centralizada falla, se pierde toda la disponibilidad de procesamiento y sobre todo de la información confiada al sistema.

• En caso de un desastre o catástrofe, la recuperación es difícil de sincronizar.

• Las cargas de trabajo no se pueden difundir entre diferentes computadoras, ya que los trabajos siempre se ejecutarán en la misma máquina.

• No se puede añadir poder de cómputo en pequeños incrementos, debido a lo complicado de esta operación.

Ejemplo:

Nombre de Evento: Puerta se Cerró

Detalle: Ninguno.

Foto: En todos los proyectos de seguridades expuestos en la materia de graduación se ha definido el uso de captura de imágenes por medio de cámaras, para ciertos eventos se incluye la imagen asociada.

4. Que es una base de datos distribuida?

Son un grupo de datos que pertenecen a un sistema pero a su vez esta repartido entre ordenadores de una misma red, ya sea a nivel local o cada uno en una diferente localización geográfica, cada sitio en la red es autónomo en sus capacidades de procesamiento y es capaz de realizar operaciones locales y en cada uno de estos ordenadores debe estar ejecutándose una aplicación a nivel global que permita la consulta de todos los datos como si se tratase de uno solo.

CENTRALIZADO DISTRIBUIDOControl Centralizado: un solo DBA Control Jerárquico: DBA global y DBA

localIndependencia de datos: organización de los datos es transparente para el programador.

Transparencia en la distribución: Localización de los datos es un aspecto adicional de independencia de datos.

Reducción de redundancia: Una sola copia de datos que se comparta

Replicación de datos: Copias múltiples de datos que incrementa la localidad y la disponibilidad de datos.

Estructuras físicas completas para accesos eficientes

No hay estructuras intersitios: Uso de optimización global para reducir transparencia de datos.

Seguridad Problemas de seguridad intrínsecos.

5. Que es clustering, grid computing?

El término clúster (del inglés cluster, "grupo" o "racimo") se aplica a los conjuntos o conglomerados de computadoras construidos mediante la utilización de hardwares comunes y que se comportan como si fuesen una única computadora.

La tecnología de clústeres ha evolucionado en apoyo de actividades que van desde aplicaciones de supercómputo y software de misiones críticas, servidores web y comercio electrónico, hasta bases de datos de alto rendimiento, entre otros usos.

El cómputo con clústeres surge como resultado de la convergencia de varias tendencias actuales que incluyen la disponibilidad de microprocesadores económicos de alto rendimiento y redes de alta velocidad, el desarrollo de herramientas de software para cómputo distribuido de alto rendimiento, así como la creciente necesidad de potencia computacional para aplicaciones que la requieran.

Simplemente, un clúster es un grupo de múltiples ordenadores unidos mediante una red de alta velocidad, de tal forma que el conjunto es visto como un único ordenador, más potente que los comunes de escritorio.

Los clústeres son usualmente empleados para mejorar el rendimiento y/o la disponibilidad por encima de la que es provista por un solo computador típicamente siendo más económico que computadores individuales de rapidez y disponibilidad comparables.

De un clúster se espera que presente combinaciones de los siguientes servicios:

Alto rendimiento

Alta disponibilidad

Balanceo de carga

Escalabilidad

La construcción de los ordenadores del clúster es más fácil y económica debido a su flexibilidad: pueden tener todos la misma configuración de hardware y sistema operativo (clúster homogéneo), diferente rendimiento pero con arquitecturas y sistemas operativos similares (clúster semihomogéneo), o tener diferente hardware y sistema operativo (clúster heterogéneo), lo que hace más fácil y económica su construcción.

La computación grid es una tecnología innovadora que permite utilizar de forma coordinada todo tipo de recursos (entre ellos cómputo, almacenamiento y aplicaciones específicas) que no están sujetos a un control centralizado. En este sentido es una nueva forma de computación distribuida, en la cual los recursos pueden ser heterogéneos (diferentes arquitecturas, supercomputadores, clusters...) y se encuentran conectados mediante redes de área extensa (por ejemplo Internet). Desarrollado en ámbitos científicos a principios de los años 1990, su entrada al mercado comercial siguiendo la idea de la llamada Utility computing supone una importante revolución.

El término grid se refiere a una infraestructura que permite la integración y el uso colectivo de ordenadores de alto rendimiento, redes y bases de datos que son propiedad y están administrados por diferentes instituciones. Puesto que la colaboración entre instituciones envuelve un intercambio de datos, o de tiempo de computación, el propósito del grid es facilitar la integración de recursos computacionales. Universidades, laboratorios de investigación o empresas se asocian para formar grid para lo cual utilizan algún tipo de software que implemente este concepto.

En la computación grid, las redes pueden ser vistas como una forma de computación distribuida donde un “supercomputador virtual” está compuesto por una serie de computadores agrupados para realizar grandes tareas.

La computación grid ofrece muchas ventajas frente a otras tecnologías alternativas. La potencia que ofrece multitud de computadores conectados en red usando grid es prácticamente ilimitada, además de que ofrece una perfecta integración de sistemas y dispositivos heterogéneos, por lo que las conexiones entre diferentes máquinas no generarán ningún problema. Se trata de una solución altamente escalable, potente y flexible, ya que evitarán problemas de falta de recursos (cuellos de botella) y nunca queda obsoleta, debido a la posibilidad de modificar el número y características de sus componentes.

Estos recursos se distribuyen en la red de forma transparente pero guardando unas pautas de seguridad y políticas de gestión de carácter tanto técnico como económico. Así pues, su objetivo será el de compartir una serie de recursos en la red de manera uniforme, segura, transparente, eficiente y fiable, ofreciendo un único punto de acceso a un conjunto de recursos distribuidos geográficamente en diferentes dominios de administración. Esto nos puede llevar a pensar que la computación Grid permite la creación de empresas virtuales. Es importante saber

que una grid es un conjunto de máquinas distribuidas que ayudan a mejorar el trabajo sobre software pesados.

6. Cuál es la importancia de las bases de datos para los sistemas de información?

Una base de datos proporciona a los usuarios el acceso a datos, que pueden visualizar, ingresar o actualizar, en concordancia con los derechos de acceso que se les hayan otorgado. Se convierte más útil a medida que la cantidad de datos almacenados crece.

Una base de datos puede ser local, es decir que puede utilizarla sólo un usuario en un equipo, o puede ser distribuida, es decir que la información se almacena en equipos remotos y se puede acceder a ella a través de una red.

La principal ventaja de utilizar bases de datos es que múltiples usuarios pueden acceder a ellas al mismo tiempo. Las bases de datos son una colección de información de cualquier tipo perteneciente a un mismo contexto y almacenado sistemáticamente para su posterior uso. En este sentido un tarjetero de recetas, un catálogo de fichas bibliográficas, un archivo de inventario en el archivero de una oficina, los registros de calificaciones escolares de un estudiante, etc. Casi toda colección de información puede convertirse en una base de datos. Una base de datos computarizada: es una colección de información almacenada de forma organizada en un computador. Las bases de datos son necesarias para Facilitar: - El almacenamiento de grandes cantidades de información. - La recuperación rápida y flexible de información. - La organización y reorganización de la información. - La impresión y distribución de información en varias formas. Programa de base de datos: Es una herramienta de software para organizar el almacenamiento y la recuperación de esa información. Las bases de datos se aplican en las industrias, bancos locales y nacionales, compañías manufactureras, empresas e instituciones, redes de bancos, etc. Desde computadoras personales y en situaciones más complejas donde se requiere que muchos usuarios compartan la información, utilizan computadoras multiusuario ya sea, mainframes, minis o redes.

7. Explique en qué consiste SQL, sus ventajas, desventajas, manejo,

características y otros conceptos que usted considere importante

El lenguaje de consulta estructurado o SQL (por sus siglas en inglés Structured Query Language) es un lenguaje declarativo de acceso a bases de

datos relacionales que permite especificar diversos tipos de operaciones en ellas. Una de sus características es el manejo del álgebra y el cálculo relacional que permiten efectuar consultas con el fin de recuperar de forma sencilla información de interés de bases de datos, así como hacer cambios en ellas.

CARACTERISTICAS GENERALES DEL SQL

El SQL es un lenguaje de acceso a bases de datos que explota la flexibilidad y potencia de los sistemas relacionales y permite así gran variedad de operaciones.

Es un lenguaje declarativo de "alto nivel" o "de no procedimiento" que, gracias a su fuerte base teórica y su orientación al manejo de conjuntos de registros —y no a registros individuales— permite una alta productividad en codificación y la orientación a objetos. De esta forma, una sola sentencia puede equivaler a uno o más programas que se utilizarían en un lenguaje de bajo nivel orientado a registros. SQL también tiene las siguientes características:

Lenguaje de definición de datos: El LDD de SQL proporciona comandos para la definición de esquemas de relación, borrado de relaciones y modificaciones de los esquemas de relación.

Lenguaje interactivo de manipulación de datos: El LMD de SQL incluye lenguajes de consultas basado tanto en álgebra relacional como en cálculo relacional de tuplas.

Integridad: El LDD de SQL incluye comandos para especificar las restricciones de integridad que deben cumplir los datos almacenados en la base de datos.

Definición de vistas: El LDD incluye comandos para definir las vistas.

Control de transacciones: SQL tiene comandos para especificar el comienzo y el final de una transacción.

SQL incorporado y dinámico: Esto quiere decir que se pueden incorporar instrucciones de SQL en lenguajes de programación como: C++, C, Java, PHP, Cobol, Pascal y Fortran.

Autorización: El LDD incluye comandos para especificar los derechos de acceso a las relaciones y a las vistas.

Tipos de Datos

Algunos de los tipos de datos básicos de SQL son:

Date: una fecha de calendario que contiene el año (de cuatro cifras), el mes y el día.

Time: La hora del día en horas minutos segundos (el valor predeterminado es 0).

Timestamp: la combinación de Date y Time.

Optimización

Como ya se dijo antes, y suele ser común en los lenguajes de acceso a bases de datos de alto nivel, el SQL es un lenguaje declarativo. O sea, que especifica qué es lo que se quiere y no cómo conseguirlo, por lo que una sentencia no establece explícitamente un orden de ejecución.

El orden de ejecución interno de una sentencia puede afectar seriamente a la eficiencia del SGBD, por lo que se hace necesario que éste lleve a cabo una optimización antes de su ejecución. Muchas veces, el uso de índices acelera una instrucción de consulta, pero ralentiza la actualización de los datos. Dependiendo del uso de la aplicación, se priorizará el acceso indexado o una rápida actualización de la información. La optimización difiere sensiblemente en cada motor de base de datos y depende de muchos factores.

Existe una ampliación de SQL conocida como FSQL (Fuzzy SQL, SQL difuso) que permite el acceso a bases de datos difusas, usando la lógica difusa. Este lenguaje ha sido implementado a nivel experimental y está evolucionando rápidamente

FUNCIONES DE SQL:

Propiedad SELECT: hace la selección en una tabla de la BD.

SELECT *FROM datos

Esta sentencia seleccionaría todos, absolutamente todos los registros dentro de la tabla datos.

SELECT * FROM datos WHERE usuario= 'juan'

Seleccionaríamos todos los registros dentro de la tabla datos que tengan como usuarios a “juan”.

Propiedad INSERT INTO: Agrega un nuevo registro a la tabla elegida

INSERT INTO datos (usuario) VALUES ('corsa')

Insertaremos en la tabla datos en la columna usuario, un registro nuevo.

INSERT INTO datos (usuario, edad) VALUES ('corsa',20)

Aquí insertamos 2 registros al mismo tiempo.

Propiedad DELETE: Borrar registros de nuestra tabla

DELETE FROM datos WHERE usuario= 'pedrito'

Borramos los registros donde el usuario sea “pedrito”.

DELETE FROM datos WHERE usuario= 'Mario' AND edad=16

Borramos solo los usuarios de nombre Mario que tenian 16 años.

Propiedad UPDATE: actualiza registros, modificando datos ya exixtentes.

UPDATE datos SET usuario= 'pedrito'

Esta modificación renombrara todos los usuarios a “pedrito”.

UPDATE datos SET usuarios= 'Mario' WHERE edad=16

Modificamos solo los registros que tenían 16 años. Ahora todos los usuarios de 16 años se llaman “Mario”.

VENTAJAS DE SQL

Es un estándar para el manejo de datos en un manejador de base de datos relacional

Es no sensitivo, esto quiere decir que no importa si pones en mayúsculas o minúsculas el comando o instrucción te lo reconocerá.

Es imperativo, no necesariamente secuencial aunque tenga un ordenamiento.

Es de fácil comprensión. Es un lenguaje de alto nivel para datos, esto es con una sola instrucción

afecta a varios registros en tiempo real.

DESVENTAJAS DEL SQL

Es un lenguaje simple que si se requiere mayores implementaciones esta limitado a la explotación de datos.

Se dice que es estándar pero cuando se combina con tipos de datos estándares hay pequeñas diferencias que debilitan esta opción.

Depende para ser seguro de que tan seguro sea el manejador de base de datos relacional que lo este implementando.

8. Explique cómo aplica y en que influye la inteligencia artificial en los nuevos

Sistemas de bases de datos.

La Inteligencia Artificial trata de conseguir que los ordenadores simulen en cierta manera la inteligencia humana. Se acude a sus técnicas cuando es necesario incorporar en un sistema informático, conocimiento o características propias del ser humano.

Las definiciones de Inteligencia Artificial han evolucionado tal es así que los autores como Rich & Knight (1994), Stuart (1996), quienes definen en forma general la IA como la capacidad que tienen las máquinas para realizar tareas que en el momento son realizadas por seres humanos; otros autores como Nebendah (1988), Delgado (1998), arrojan definiciones más completas y las definen cómo el campo de estudio que se enfoca en la explicación y emulación de la conducta inteligente en función de procesos computacionales basadas en la experiencia y el conocimiento continuo del ambiente.

Características de la IA

Una de sus características es que incluye varios campos de desarrollo, como la robótica, la comprensión y traducción de lenguajes, el reconocimiento y aprendizaje de palabras de máquinas o los variados sistemas computacionales expertos, que son los encargados de reproducir el comportamiento humano en una sección del conocimiento.

Tales tareas reducen costos y riesgos en la manipulación humana en áreas peligrosas, mejoran el desempeño del personal inexperto y el control de calidad en el área comercial

Las áreas de investigación de la IA

Son muchas las áreas de la A I que se investigan hoy día. Entre ellas, tenemos las siguientes:

• La representación del conocimiento, que busca en el descubrimiento de métodos expresivos y eficientes describir información sobre aspectos del mundo real.

• Los métodos de aprendizaje automático, que extienden las técnicas estadísticas con el fin de posibilitar la identificación de un amplio rango de tendencias generales a partir de un conjunto de datos de entrenamiento.

• El campo de la planificación, que enfrenta el desarrollo de algoritmos que construyen y ejecutan automáticamente secuencias de comandos primitivos con el fin de alcanzar ciertas metas de alto nivel.

• Los trabajos en el área de razonamiento posible, que hacen uso de principios estadísticos para desarrollar codificaciones de información incierta.

• El estudio de las arquitecturas de agentes, que busca la integración de otras áreas de la I A con el objeto de crear agentes inteligentes, entidades robustas capaces de comportamiento autónomo y en tiempo real.

• La coordinación y colaboración multiagentes, que ha permitido el desarrollo de técnicas para la representación de las capacidades de otros agentes y la especificación del conocimiento necesario para la colaboración entre ellos.

• El desarrollo de ontologías, que persigue la creación de catálogos de conocimiento explícito, formal y multipropósito, que puedan ser utilizados por sistemas inteligentes.

• Los campos de procesamiento de voz y lenguaje, que buscan la creación de sistemas que se comunican con la gente en su lenguaje.

• La síntesis y comprensión de imágenes, que conduce a la producción de algoritmos para el análisis de fotografías, diagramas y videos, así como también de técnicas para el despliegue visual de información cuantitativa y estructurada.

Áreas de aplicación de la IA

Pero también hay áreas de aplicación. En efecto, estos procesos de la AI se aplican en los sistemas reales en una gran variedad de ramas y problemas:

• Gestión y control: análisis inteligente, fijación de objetivos.

• Fabricación: diseño, planificación, programación, monitorización, control, gestión de proyectos, robótica simplificada y visión computarizada.

• Educación: adiestramiento práctico, exámenes y diagnóstico.

• Ingeniería: diseño, control y análisis.

•Equipamiento: diseño, diagnóstico, adiestramiento, mantenimiento, configuración, monitorización y ventas.

• Cartografía: interpretación de fotografías, diseño, resolución de problemas cartográficos.

• Profesiones: abogacía, medicina, contabilidad, geología, química.

• Software: enseñanza, especificación, diseño, verificación, mantenimiento.

• Sistemas de armamento: guerra electrónica, identificación de objetivos, control adaptativo, proceso de imágenes, proceso de señales.

• Proceso de datos: educación, interface en lenguaje natural, acceso inteligente a datos y gestores de bases de datos, análisis inteligente de datos.

• Finanzas: planificación, análisis, consultoría.

9. Explique cuál es la importancia de la integración de las bases de datos a los

Nuevos modelos de inteligencia de negocio.

La Inteligencia de Negocios es el término y procura caracterizar una amplia variedad de tecnologías, plataformas de software, especificaciones de aplicaciones y procesos. El objetivo primario de la a Inteligencia de Negocios es contribuir a tomar decisiones que mejoren el desempeño de la empresa y promover su ventaja competitiva en el mercado. En resumen, la Inteligencia de Negocios faculta a la organización a tomar mejores decisiones más rápidas. Este concepto se requiere analizar desde tres perspectivas: Hacer mejores decisiones

más rápido, convertir datos en información, y usar una aplicación relacional para la administración.

Con respecto a la primera perspectiva, el objetivo primario de la Inteligencia de Negocios es contribuir a tomar decisiones que mejoren el desempeño de la empresa y promover su ventaja competitiva en el mercado. La Inteligencia de Negocios faculta a la organización a tomar mejores decisiones más rápidas. En relación con la conversión de datos en información la Inteligencia de Negocios se orienta a establecer el "puente" que una las grandes cantidades de datos y la información que los tomadores de decisiones requieren cotidianamente. Para ello se emplean "indicadores de desempeño clave" destinados a colectar información de las métricas que afectan unidades particulares de la empresa así como al todo de la misma

La Inteligencia de Negocios puede describirse como una aplicación relacional para la administración, como un estado organizacional o una filosofía de administración. En resumen la Inteligencia de Negocios se caracterizada por: Buscar hechos cuantitativos medibles y objetivos acerca de la empresa, usar métodos y tecnologías para el análisis de hechos, desarrollar modelos que expliquen la causa-efecto de las relaciones entre las acciones operacionales y los efectos que estas han alcanzado las metas, y experimentar con aplicaciones alternativas y supervisar los resultados que sirven de retroalimentación.

10. Explique que son los Big Date.

Big data es el término inglés que designa los conjuntos de datos de gran tamaño y generalmente desestructurados que resultan difíciles de manejar usando las aplicaciones de bases de datos convencionales.

Algunos ejemplos de big data son los siguientes: las consultas y resultados de los motores de búsqueda, los datos de las redes sociales (como los tuits), los datos meteorológicos, los datos astronómicos, la vigilancia militar, los datos económicos y bursátiles, los historiales médicos, los experimentos físicos (Gran Colisionador de Hadrones), los archivos fotográficos, la radio y la televisión, los vídeos (CCTV y YouTube) y los datos sobre transacciones.

Se espera que el fenómeno big dataimpulse las rentabilidades de toda una generación de nuevas empresas informáticas con capitalizaciones de varios miles de millones de dólares. Es el segmento del mercado de los sistemas de información que más crece en todo el mundo. Los analistas creen que el mercado potencial total está valorado en 100.000 millones de dólares

Empresas como General Electric,IBM, Oracle, Microsoft, SAP y Symantechan invertido mucho en centros de procesamiento de datos diseñados para interpretar big data. Estas empresas están dispuestas a pagar una prima para contratar a los profesionales más brillantes. Oracle, Microsoft, IBM y SAP han gastado conjuntamente más de 15.000 millones de dólares en adquisiciones de empresas tecnológicas especializadas en herramientas de inteligencia de negocio. Hay puestos para programadores, estadísticos, analistas cuantitativos, econometristas y analistas de extracción de datos. El mercado de los grandes conjuntos de datos tiene su propia cadena de suministro y permite beneficiarse a las empresas, tanto si están especializadas en hardware o infraestructuras como en software o servicios.

La capacidad tecnológica con que cuentan estas compañías es impresionante y ya son capaces de generar resultados beneficiosos para las empresas clientes que contratan sus servicios. Los datos de los sensores colocados en los motores aeronáuticos podrían estudiarse, por ejemplo, para mejorar el consumo de combustible de un avión de pasajeros. El análisis de datos también puede ser ventajoso para el sector del petróleo y el gas, ya que puede contribuir a encontrar formas de prolongar la vida útil de los campos petrolíferos y gasistas y la recuperación de los recursos naturales. Cara al futuro, estas grandes empresas tecnológicas están en una buena posición para desarrollar lucrativos negocios de consultoría basados en su capacidad para analizar grandes conjuntos de datos.

11. ¿Qué implica no tener una base de datos o sistemas de información para

una empresa (reflexión)?.

Al paso de años la humanidad ha encontrado la manera de almacenar información, ya sea por considerarla como una simple actividad o por tener en cuenta la importancia que tiene. Por todas las partes del mundo podemos encontrar información que pasa de generación en generación hasta que se pierde, pero no toda la información se considera como un simple recuerdo, podemos encontrar información de nuestros pasados que nos dice como eran aquellos tiempos o hasta información de gran impacto para todo aquel que viva en este planeta. Sin duda alguna la información nos a hecho crecer como personas a toda la humanidad entera, gracias a ella sabemos de donde venimos y como hemos estado evolucionando siempre apoyándonos de información que nos dice lo que podemos o no podemos hacer para lograr el éxito que buscamos, de igual forma, toda organización por mas pequeña que sea, necesita saber su pasado y su

presente, la situación actual en la que se encuentra y con que cuenta para afrontar el futuro.

La información es un recurso vital para toda organización, y el buen manejo de esta puede significar la diferencia entre el éxito o el fracaso para todos los proyectos que se emprendan dentro de un organismo que busca el crecimiento y el éxito.

Dentro de cualquier organización la información fluye día con día, y cada actividad genera mas información que puede apoyar las distintas tareas que se llevan a cabo para su buen funcionamiento. En todos los departamento de todas las organizaciones se genera información, como lo son el los departamento de recursos humano, finanzas, contabilidad, limpieza, producción y todos los departamentos mas que se imaginen. La información se genera debido a las actividades que se llevan a cabo en cada departamento y el éxito de estos mismos depende de la visión que se tenga y en que se apoyen para lograr las metas establecidas, sin duda alguna, el apoyo en la información que se genera dentro de ese departamento es una base sumamente sustentable y creíble para tomarse en cuanta para posibles tareas.

Los datos históricos de una empresa pueden marcar el camino a seguir para las tareas que se lleven a cabo dentro de la organización, estos datos no son sino información almacenada y procesada para su interpretación y para ser tomada en cuenta como una guía a seguir de lo que se debe de hacer y lo que no se debe de hacer según experiencias de la misma empresa. Cualquier empresa que no registe sus actividades, constantemente se verá en los mismo errores una y otra vez hasta que se percate de cuál es el error y lo documente para su utilización en un futuro.

El manejo de la información es fundamental para cualquier empresa, con ello puede lograr un alto nivel competitivo dentro del mercado y obtener mayores niveles de capacidad de desarrollo. El manejo de información nos permite identificar cuáles son nuestras fortalezas con las que contamos y cuáles son nuestras debilidades y sectores vulnerables como organización. Teniendo en cuenta que se sabe con certeza cuales son nuestras debilidades y fortalezas se puede tener una planeación más alcanzable y factible, podemos identificar donde se tiene que trabajar más y que parte de nuestra empresa necesita mayor atención. Esto nos ayudara a tener un control más amplio sobre el funcionamiento de todas las actividades de la organización.

CONCLUSIONES

Con los avances tecnológicos y los nuevos mecanismos que se usan, es preciso decir que cada uno de estos es de vital importancia a la hora de relacionar y organización información desde altos niveles hasta los más bajos, dicho proceso le proporciona a las empresas y a las personas mejorar sus estilos de análisis a la hora de tomar decisiones y generar estrategias dentro de un proceso requerido.

La organización de los datos se reconoce hoy día como un factor importante a la hora de conocer todos los aspectos de planeación y estudio de los entornos de una empresa, con herramientas como la minería de datos que basa sus principales funciones en la recopilación de grandes cantidades de datos, donde de alguna manera genera ventajas en las empresas o personas que recurran a dicha herramienta, pues de esta se desprenden grandes actividades de mercadotecnia, matemáticas o financieras, estratégicas, entre otras que facilitan el manejo de la información dentro de un proceso de reconocimiento como tal de lo requerido por la persona o la entidad.

El objetivo final del adecuado uso de las herramientas antes conceptualizadas, como la bodega de datos, el big data, y todos los sistemas de bases de datos, le proporcionan a quien requiera de ellos optimizar costos y de algún mondo maximizar sus utilidades; cabe también resaltar que en todo proceso de uso frecuente se arriesgaran a perdidas, pero todo depende de la finalidad de la herramienta a usar.

BIBLIOGRAFIA

Wikipedia.org

Documentos PDF de la web

msdn.microsoft.com

1154406-1366612 3845

Documents

Transcript of 1154406-1366612 3845