Tend. analisis de datos a n. mundial sl

Post on 11-Jul-2015

215 views 3 download

Transcript of Tend. analisis de datos a n. mundial sl

Guatemala, 19 de Noviembre 2012Guatemala, 19 de Noviembre 2012

DR. MARIO MELGARDR. MARIO MELGAR

““Tendencias del Análisis de Tendencias del Análisis de Datos a Nivel Mundial”Datos a Nivel Mundial”

Conferencia presentada en el Curso de:Conferencia presentada en el Curso de: Métodos de Investigación Cuantitativa Métodos de Investigación Cuantitativa Doctorado en Ciencias Agrícolas y Doctorado en Ciencias Agrícolas y Ambientales Facultad de AgronomíaAmbientales Facultad de Agronomía Universidad de San Carlos de GuatemalaUniversidad de San Carlos de Guatemala

ContenidoContenido

BIG DATA ENFOQUES DATA SCIENCE MINERÍA DE

DATOS VISUALIZACIÓN

The next five years will produce more research data than has been produced in all of previous human history, presenting researchers with daunting discovery challenges.The data deluge was highlighted and deepened by monumental big bang and astronomy projects such as the Large Hadron Collider and the planned Square Kilometre Array, said Ross Wilkinson, executive director of the Monash University-based Australian National Data Service.

The European Union's collider would produce a petabyte of data each month, while the data generation of the SKA was so mind-boggling that the term exobyte had been coined to describe its data output.

"An exabyte is 1000 petabytes; a petabyte is 1000 terabytes; a terabyte is 1000 gigabytes and a gigabyte is 1000 megabytes," Dr. Wilkinson said."You can read about 2GB of text, or about as much text that can fit on two CDs, in a lifetime, so it's really scary numbers."

SOURCE: THE AUSTRALIAN, APRIL 29, 2009

NOMBRE TAMAÑO

BYTE 1

KBYTE 1000

MEGABYTE 1 000 000

GYGABYTE 1 000 000 000

TERABYTE 1 000 000 000 000

PETABYTE 1 000 000 000 000 000

EXABYTE 1 000 000 000 000 000 000

ZETTABYTE 1 000 000000000000000000

UNIDAD VALOR/EJEMPLO

Byte Es la unidad elemental de información que puede guardar un carácter: letra, número o signo

2 kilobytes Una página

5 megabytes Obras completas de Shakespare; 30 segundos de video.

100 megabytes Radiografia Digital.

500 megabytes CD

1 gigabyte (GB) Sinfonía en sonido de alta fidelidad.

2 gigabytes 20 metros de estantería de libros, lo que una persona puede leer en toda su vida

20 gigabytes Archivos de audio de la obra de Beethoven

Terabyte (TB) 1000 GB

1 terabyte Todas las películas radiográficas de un hospital de alta tecnología.50000 árboles transformados en papel e impresos.

10 terabytes Colección impresa de la biblioteca del Congreso de EE.UU.

Petabytes (PB) 1000 TB

2 petabytes Todas las bibliotecas de investigación académica de EE.UU.

Exabyte (EB) 10000 PB

5 exabytes Todas las palabras dichas alguna vez por los seres humanos.

ZettabyteFuente: Ambrosi, H. 2008. La Verdad de las Estadisticas. Ediciones Lumiere.

1000 Exabytes

1. Internet2. Celulares3. NASA4. Astronomía5. Universo6. Genómica7. Física8. Imágenes Médicas9. AT&T, WALMART, etc.

The Conversation Prism Infographichttp://jess3.com/the-conversation-prism-v3/

2008 MySQL Conference & Expo

Jacek Becla, SLAC

212008 MySQL Conference & Expo Jacek Becla, SLAC

Science & Petabytes

� 4 PB in 2005 (images)

NASA: Earth Observing System

222008 MySQL Conference & Expo Jacek Becla, SLAC

Science & Petabytes

� Huge telescopes� Multi-gigapixel cameras� Getting ready for…

– Trillions of observations– 50+ PB of images

– 20+ PB database

Astronomy

232008 MySQL Conference & Expo Jacek Becla, SLAC

Untangling the Universe

� Overlapping� Moving� Disappearing� Highly correlated

Astronomy: It’s All About “Astronomical Objects”

Needle in haystack Spatial correlations Time series

Needle in haystack Spatial correlations Time series

Needle in haystack Spatial correlations Time series

242008 MySQL Conference & Expo Jacek Becla, SLAC

Science & Petabytes

� Trying to put together database of all known DNA sequences

� Multi-petabytes

Genomics

25

How does the human genome stack up?

Organism Genome Size (Bases) Estimated Genes

Amoeba dubia (ameba) 670 billion ?

Porocentrum micans (protista) 245 billion 92,000

Pez leopardo (Propterus aethiopicus) 130 billion ?

Caña de azúcar (S. officinarum) 7.4 billion 35,000

Human (Homo sapiens) 3 billion 25,000

Laboratory mouse (M. musculus) 2.6 billion 30,000

Mustard weed (A. thaliana) 100 million 25,000

Roundworm (C. elegans) 97 million 19,000

Fruit fly (D. melanogaster) 137 million 13,000

Yeast (S. cerevisiae) 12.1 million 6,000

Bacterium (E. coli) 4.6 million 3,200

Human immunodeficiency virus (HIV) 9700 9

26

Examples of Large Data Sets:Genomics

• 25,000 genes in human genome

• 3 billion bases

• 3 Gigabytes of genetic data

272008 MySQL Conference & Expo Jacek Becla, SLAC

Understanding Dynamics of Biological Processes

Needle in haystack Correlations Time series

29

30

31

32

33

34

35

36

37

38

39

40

41

422008 MySQL Conference & Expo Jacek Becla, SLAC

Science & Petabytes

� ½ PB/sec– Small fraction saved

� Trillions of collisions� 15 PB/year

– Starting later this year

High Energy Physics: LHC

43

44

Examples of Large Data Sets:Credit card transactions

• 142 billion transactions in 2004 in US alone

• 115 Terabytes of data transmitted to processing center in 2004

45

Examples of Large Data Sets:Phone call billing records

• 250M calls/day

• 60G calls/year

• 40 bytes/call

• 2.5 Terabytes/year

462008 MySQL Conference & Expo Jacek Becla, SLAC

0

50

100

150

2000 2005 2010 2015 2020 2025

year

PB

Science, Industry & Petabytes

?GoogleYahoo!

Microsoft

AT&TWalmart

EBayFacebookfew others

Enfoques

Competitive Edger or Colossal Migraine?

InfoVis 51

Big Challenge

• How do we make sense of it?• How do we harness this data in decision-

making processes?

Enfoques para el Manejo de los Datos

53

1. Empresas Especializadas en Gerencia de Datos

2. Data Science3. Minería de Datos4. Visualización

Grandes Empresas

IBMMicrosoftOracleSAPIMBSASEtc. …Están surgiendo cientos…

Enfoques para el Manejo de los Datos

81

1. Empresas Especializadas en Gerencia de Datos

2. Data Science3. Minería de Datos4. Visualización

Data Science: An Introduction/A History of Data Science

Chapter Summary

Data Science is a composite of a number of pre-existing disciplines. It is a young professional and academic discipline. The term was first coined in 2001. Its popularity has exploded since 2010, pushed by the need for teams of people to analyze the big data that corporations and governments are collecting. The Google search engine is a classic example of the power of data science.

Discussion

Data science is a discipline that incorporates varying degrees of Data Engineering, Scientific Method, Math, Statistics, Advanced Computing, Visualization, Hacker mindset, and Domain Expertise. A practitioner of Data Science is called a Data Scientist. Data Scientists solve complex data analysis problems.

Origins

The term "Data Science" was coined at the beginning of the 21st Century. It is attributed to William S. Cleveland[1] who, in 2001, wrote "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics."[2] About a year later, the International Council for Science: Committee on Data for Science and Technology[3] started publishing the CODATA Data Science Journal beginning April 2002.[4] Shortly thereafter, in January of 2003, Columbia University began publishing The Journal of Data Science .

El “Ecosistema” de los datos

Data Mining: Confluence of Multiple Disciplines

ANÁLISIS UNIVARIADO ASOCIACIÓN ENTRE VARIABLES

Análisis multivariado

Variables Cualitativas

Variables Cuantitativas

Cualitativas con

cualitativas

Cualitativas con cuantitativas

Cuantitativas con cuantitativas

FrecuenciasProporciones Gráficas de barrasGráficas de pastelPictogramasGráficas de puntosPirámides

Distr. De frecuenciasHistogramasGráficas de tallos y hojasGráficas de cajasGráficas de normalidadMedidas de: - Tendencias central - Dispersión - Percentiles

Tablas de ContingenciaGráficas de barras

Tablas de clasificaciónGráficas de medias

Diagrama de dispersión3 D

Gráficas de HistogramasCaras de ChernoffEstrellasFlechasGlifosMatriz de correlaciones

Temas tratados en el libro digital. http://www.statsoft.com/textbook

Temas tratados en el libro digital. http://www.statsoft.com/textbook

VARIABLES CUANTITATIVAS VARIABLES CUALITATIVAS

POBLACIONES Contínuas Discretas Binominal Multinomial

Una t Wilcoxon Binomial, Z X²

Dos independientes

t Mann-Whitney Irwin-FisherExacta FisherX², Z

Dos dependientes t Wilcoxon McNemar Stuart

Tres o más independientes

F ANDEVA D.C.A.Una vía

Contrastes

Kruskal-Wallis

Contrastes

X²Contrastes

X²Contrastes

Tres o más dependientes

F ANDEVAD.C.A.Dos vías

Contrastes

Friedman

Contrastes

Cochran

Contrastes

Friedman (Ordinal)

Dependencia

Relación

Regresión

Pearson

Wilcoxon

SpearmanHipergeométrica0

Análisis Multivariado• Conjunto de técnicas para el análisis estadístico de datos,

obtenidas a través de la medición de varias variables sobre cada individuo o unidad estudiada.

• Esas variables están correlacionadas.

UNIDAD Variables a explicar o dependientes

Variables Explicativas o independientes

Y1, Y2, . . . . . . . . . . . .Yɋ

X1, X2, . . . . . .. . . . .Xƿ

U1

U2

.

.

.Un

ESTRUCTURA DE LOS DATOS PROVENIENTES DE UN

ESTUDIO

Variables dependientes

Variables independientes

Cualitativa Cuantitativa

1 variable >1 variable 1 variable >1 variable

Ninguna Binomial Chi-cuadradoMedidas de asociación

T Matriz de correlacionesComponentesPrincipalesAnálisis de factoresAnálisis Cluster

Cualitativa1

>1

Chi-cuadradoExactaFischer

Log-LinearModelos

Log-LinearModelosRegresiónLogística

Log-Linearmodelos

RegresiónLogística

Análisis discriminante

RegresiónLogística

Análisis discriminante

Cuantitativa1

>1

TAnálisis de varianza

T² HotellingAnálisis de varianzaMultivariado

Análisis de varianza

Análisis de varianzaMultivariado

Regresión linealRegresión no linealCorrelación

Regresión multivariadaCorrelación canónica

Regresión múltiple

Regresión multivariadaCorrelación canónicaPath Analysisestructurales

SAS

SQL

XL Miner

Visualización

InfoVis 119

Example

Example courtesyof Chris North

Which state has the highest income?Is there a relationship between income and education?Are there any outliers?

Questions:

InfoVis 120

Visualize the Data

Per Capita Income

Col

lege

Deg

ree

%

InfoVis 121

Atlanta Flight Traffic

AJC

InfoVis 122

London Subway

• Tabla periodica

1252008 MySQL Conference & Expo Jacek Becla, SLAC

Summary� Data avalanche� Need scalable,

sophisticated tools

� You are facing it too

Credit: ncids.org

HANS

BienvenidosCENGICAÑA

Visión:Ser líderes en generar cambios tecnológicos para

incrementar la competitividad de la Agroindustria Azucarera en la región.

02/03/2012

Dr. Mario Melgar

Evolución de la productividad Evolución de la productividad GuatemalaGuatemala

60 65 70 75 80 85 90 95 00 05 100

1

2

3

4

5

6

7

8

9

10

11

TAH

Año

Quinquenio TCH % Sac TAH

1959/60* 53 9.70 5.20

1960/65 57 9.34 5.34

1965/70 62 9.24 5.76

1970/75 74 8.83 6.58

1975/80 77 8.49 6.54

1980/85 76 9.10 6.58

1985/90 71 9.66 6.90

1990/95 82 10.10 8.32

1995/00 85 10.42 8.87

2000/05 90 11.33 10.17

2005/10 94 10.75 10.05

Rendimiento de Azúcar/TAH 1960-2010

Evolución de análisis de Evolución de análisis de productividad de la productividad de la

Agroindustria Azucarera Agroindustria Azucarera GuatemaltecaGuatemalteca

Factores relacionados con el Factores relacionados con el rendimiento de un cultivorendimiento de un cultivo

y = f (A, G, M)y = f (A, G, M)

Y = RendimientoY = RendimientoA = AmbienteA = AmbienteG = GenéticaG = GenéticaM = ManejoM = Manejo

Fuente: Altieri, M. 1987. Agroecology. Westview Press. 227 p.

TCHTCHTAHTAH$/H$/H

AmbientalesAmbientales

GenéticosGenéticos

ManejoManejo

Zona agroecológica (1-44)Zona agroecológica (1-44)Finca (1 – nFinca (1 – n11))Lote (1 – nLote (1 – n22) (total 14,000)) (total 14,000)

Variedad (67)Variedad (67)No. de corteNo. de corteMes de cosechaMes de cosecha

Ingenio (1-8)Ingenio (1-8)

FertilizaciónFertilización

Riegos (1-4)Riegos (1-4)

Madurantes (1-6)Madurantes (1-6)

Edad de cosechaEdad de cosecha

Balance hídricoBalance hídricoGrupos de sueloGrupos de suelo

N (1-7)N (1-7)P (1-4)P (1-4)K (1-4)K (1-4)S (1-3)S (1-3)

VARIABLES VARIABLES RESPUESTARESPUESTA FACTORESFACTORES

AnálisisAnálisis

Sistemas de Sistemas de Información Información GeográficaGeográfica

Bases de Bases de datosdatos

Análisis Análisis detallado detallado de de variedadesvariedades

MapasMapas

Estadística descriptiva Estadística descriptiva (Gráficos, cuadros)(Gráficos, cuadros)

Estadística inferencialEstadística inferencialMinería de datosMinería de datos

ZAE, finca, lote, ZAE, finca, lote, Mes de cosechaMes de cosechaFactores de manejoFactores de manejo

BASE DE DATOS DE EXCEL PARA COMPARTIR

Menú Principal Formularios de Comparación

Menú Principal Gráficos Productividad

Fuente: LMC Sugar Technical Performance - Executive Summary-Sma605 September 2008Fuente: LMC Sugar Technical Performance - Executive Summary-Sma605 September 2008

Indicadores de Competitividad

Al 02/05/2010

USA

Thailand

swazilandia

Sudan

Sudáfrica

México

India

Guatemala

Colombia

China

Brasil (N.E.)

Brasil (C.S.)

Australia

6

11

16

21

26

31

36

6 7 8 9 10 11 12 13 14 15 16

Rendimiento azúcar (TAH)

Azú

car

prod

ucid

a po

r to

nela

da d

e ca

paci

tdad

de

mol

iend

a (t

ib a

zúca

r/to

n ca

paci

dad)

11.5

9.4

6.5

9.5

14.6

12.2

7.9

9.3

6.6

10.8

13.9

7.3

9.1

13.15

Gráficos por países, períodos por quinquénios: Gráficos por países, períodos por quinquénios: 19881988

País TAH

Utilización de la

Capacidad

Área Sembrada

Australia 9.80 12.60 352,023.00Brasil (C.S.) 8.60 15.00 2,585,063.00Brasil (N.E.) 5.80 15.40 1,287,453.00China 4.80 9.40 881,000.00Colombia 11.10 24.40 140,297.00Guatemala 6.99 8.80 84,333.00India 7.10 12.50 3,072,052.00México 8.00 10.00 535,884.00South Africa 5.70 19.90 408,743.00Swaziland 23.90 36,014.00Thailand 5.30 7.80 559,638.00

USA 9.30 10.60 344,436.00

Gráficos por países, períodos por quinquénios: Gráficos por países, períodos por quinquénios: 19981998

País TAH

Utilización de la

Capacidad

Área Sembrada

Australia 11.60 17.40 420,572.00Brasil (C.S.) 9.90 18.30 3,250,190.00Brasil (N.E.) 6.30 12.00 1,105,856.00China 6.80 9.50 915,878.00Colombia 12.50 27.90 178,687.00Guatemala 10.30 12.50 151,540.00India 8.00 13.60 3,836,021.00México 9.10 12.70 570,322.00South Africa 4.90 15.70 397,026.00Swaziland 13.60 22.00 38,182.00Thailand 6.40 8.40 963,256.00

USA 8.80 10.60 391,873.00

Gráficos por países, períodos por quinquénios: Gráficos por países, períodos por quinquénios: 20082008

País TAH

Utilización de la

Capacidad

Área Sembrada

Australia 11.50 16.70 453,316.00Brasil (C.S.) 10.40 22.70 5,035,284.00Brasil (N.E.) 7.40 17.00 1,120,375.00China 9.50 13.20 1,128,841.00Colombia 14.60 31.80 199,910.00Guatemala 12.20 15.90 197,600.00India 7.90 12.20 4,294,400.00México 9.30 14.80 686,855.00South Africa 6.60 23.50 426,738.00Swaziland 13.90 24.30 50,720.00Thailand 7.30 8.60 1,070,630.00

USA 9.10 11.40 393,744.00

CONCLUSIONES1. A nivel mundial esta ocurriendo literalmente una explosión de datos, tanto a

nivel social (redes sociales, comunicación digital, etc.), a nivel comercial (internet, tarjetas de crédito, etc.) a nivel científico (astronomía, física, genómica, medicina, etc.). A este fenómeno se le a denominado “BIG DATA”. Se menciona ya no solo gigabytes sino Tera, peta y exabytes y hasta zettabytes.

2. Se están desarrollando constantemente tecnologías para la recolección (sensores, imágenes, etc.) Almacenamiento (datawarehouse, nube, etc), análisis y visualización de los datos. Los datos deben convertirse en información y estos en conocimiento.

3. Todos los países, sectores, empresas o personas, que quieran obtener un valor agregado de este diluvio de datos, deben de prepararse para utilizar la tecnologías apropiadas.

4. El Big Data Análisis que es la aplicación de técnicas avanzadas de análisis para conjuntos de grandes volúmenes de datos, esta generando el surgimiento de cientos de empresas asociadas: Microsoft, Oracle, SAP, Tableau, Teradata, SAS, Cloudera, MySQL, Hadoop, Cassandra, Data Miner , Cubenube, etc.

5. Esta surgiendo una nueva ciencia denominada “La Ciencia de los Datos”, que reúne disciplinas como: Ingeniería de datos, método científico, matemáticas, estadística, computación avanzada, visualización y experiencia en áreas especificas para resolver problemas de análisis de datos. Data Science requiere trabajo multidisciplinario.

CONCLUSIONES ESPECIFICASDE LA AGROINDUSTRIA AZUCARERA

GUATEMALTECA

1. En cada uno de los eslabones de la cadena de valor de la agroindustria (campo, fabrica, transporte y comercialización) esta creciendo el volumen de datos que se generan, algunos ingenios han contratado empresas especificas para el manejo de los datos: Automatización, manejo integral de toda la información: Pantaleón (SAP), La Unión (BIOSALC), Magdalena(ORACLE), etc.

2. Para el manejo de información tecnológica de las áreas de trabajo de CENGICAÑA, se esta desarrollando la base de datos institucional con aportes principalmente del área de análisis de productividad, sistemas de información para agricultura de precisión (SIAP), Sistema de información meteorológica (SIM) y CENGIDOC. Para el desarrollo de la base de datos institucional cada área deberá aportar la información respectiva y actualizarse en el uso de las tecnologías de información.

Muchas gracias

Foto: Paulo Stupiello