Ciencia de datos - CIO Update 2016

25
Ciencia de datos: Aprendiendo lo básico Roberto Muñoz, PhD Astronomer and Data Scientist Pontificia Universidad Católica de Chile github.com/rpmunoz

Transcript of Ciencia de datos - CIO Update 2016

Ciencia  de  datos:  Aprendiendo  lo  básico

Roberto  Muñoz,  PhDAstronomer  and  Data  ScientistPontificia  Universidad  Católica de  Chile

github.com/rpmunoz

Roberto  Muñoz github.com/rpmunoz

Evolución  procesamiento  de  datos

• 1890:  Se  usa  la  máquina  tabuladora  de  Hollerith  para  procesar los datos del  censo de  EE.UU.

• 1951:  Se  diseña  el  primer  computador  electrónico  con  fines  comerciales,  UNIVAC  I.

CómputoManual

CómputoAutomático

CómputoAutomático

CómputoElectrónico

Roberto  Muñoz github.com/rpmunoz

Costo  del  cómputo• Desde  la  invención  de  los  computadores  electrónicos,  tanto  el  precio  como  el  tamaño  han  disminuido  sostenidamente.

Roberto  Muñoz github.com/rpmunoz

Tsunami  de  datos

• Durante las últimas décadas la sociedad en suconjunto se ha digitalizado.

• Mayor capacidad de cómputo y tecnología másasequible han permitido un crecimiento explosivode los datos.

Fuente: Oracle, 2012

Los datos crecen a unatasa anual del 40%.

Se estima una producciónde 45 ZB para el 2020.

Roberto  Muñoz github.com/rpmunoz

Comunidad  Open  Source

• Una mayor variedad y cantidad de datos traeconsigo nuevos desafíos.

• Desarrollo continuo de herramientas y métodospara analizar los datos.

• Transición de software empaquetado y comerciala uno desarrollado por comunidad open source.

Roberto  Muñoz github.com/rpmunoz

Casos  notables

nyc-­taxi-­datauber-­tlc-­foil-­response

Análisis de  uso  de  Taxis  y  Uber  en  NYCOpen  Data+Open Source

Fuente: FiveThirtyEight

Roberto  Muñoz github.com/rpmunoz

Casos  notables

datausa

Análisis de  datos  públicos  de  USAOpen  Data+Open Source

Fuente: The New York Times

Roberto  Muñoz github.com/rpmunoz

Evolución  del  Analytics

1968 1973 1974 1981

1991199320062015Release  0.17

Roberto  Muñoz github.com/rpmunoz

¿Qué  es  la  Ciencia  de  datos?

• La Ciencia de datos o Data Science es un campointerdisciplinario que se ocupa de los procesos ysistemas usados en la extracción de conocimientoa partir del análisis de datos.

• Se dice interdisciplinario pues requiereconocimientos de los campos de la computación,matemáticas y estadística.

Programación Estadística Data  Science

Roberto  Muñoz github.com/rpmunoz

¿Cambio  de  paradigma?

• Los datos digitales y las tecnologías hancambiado la manera en cómo vivimos y cómoentendemos el mundo.

• Jim Gray, investigador deMicrosoft y pionero en bases dedatos introdujo el concepto delcuarto paradigma.

• Era experimental, teórica,computacional y últimamente laEra del dato.

Roberto  Muñoz github.com/rpmunoz

Carácter interdisciplinario

Diagrama de  Venn  para  Data  ScienceDrew  Conway  (2010)

HabilidadesProgramaciónExploración de datosSoluciones creativas

ConocimientosMatemáticasEstadística

ExperticiaEspecializaciónConocimiento   de  campo

Roberto  Muñoz github.com/rpmunoz

¿Qué  hace  un  Data  Scientist?

• Profesional que posee las herramientas y losconocimientosnecesarios para:– Recolectar y filtrar datos de diversas fuentes– Explorar de manera efectiva un set de datos– Obtener información valiosa oculta en los datos– Construirmodelos que permitan tomar decisionesinformadas.

Data Scientist: Persona que es mejor en estadística quecualquier ingeniero de software y que es mejor eningeniería de software que cualquier estadístico.

Roberto  Muñoz github.com/rpmunoz

Conocimientos  y  Habilidades

• Formación universitaria en las áreas deIngeniería y Ciencias Naturales. Idealmentetienen Magister y PhD.

• Poseen conocimientos de Matemáticas,Estadística y Programación computacional.

• Se caracterizan por su curiosidad intelectual,son capaces de diseñar experimentos ycomunicar de manera efectiva los resultados.

Roberto  Muñoz github.com/rpmunoz

Roles  en  la  Organización

Roberto  Muñoz github.com/rpmunoz

Trabajo en equipo

Fuente: DataCamp

Roberto  Muñoz github.com/rpmunoz

Tipos  de  datos

• Los datos son el punto de partida para todoanálisis.

• Tipos de datos de acuerdo a organización– Estructurados: Están altamente organizados.Se almacenan en una base de datos relacional.

BD

Roberto  Muñoz github.com/rpmunoz

Tipos  de  datos

– No estructurados: Son datos crudos y no estánorganizados. Deben ser procesados ytransformados para luego ser almacenados enuna base de datos.

Roberto  Muñoz github.com/rpmunoz

Lenguajes  de  programación

• Los lenguajes más usados por la comunidad deData Science son Python y R. Se estima quePython tiene más de 30M de usuarios y R más de16M.

• R es más funcional y los módulos de análisisestadísitico vienen incorporados.

• Python es más orientado a objetos y debencargarse módulos para hacer análisis.

Roberto  Muñoz github.com/rpmunoz

Visualizaciones

• Las visualizaciones juega un rol importante entodo el proceso de análisis de datos. Permitenexplorar los datos, examinar resultados ycomparar cualitativamente los modelos.

Edad

Númeropersonas

Anscombe’s quartet

Roberto  Muñoz github.com/rpmunoz

Construcción de  modelos

• La construcción y validación de modelos sones clave para los objetivos.

• Permiten entender el comportamiento delsistema, definir cantidades de interés, buscaroutliers en los datos y últimamente haceranálisis predictivo.

Roberto  Muñoz github.com/rpmunoz

Esquema simple  Data  Science

Roberto  Muñoz github.com/rpmunoz

Recursos  en  Internet

http://www.datasciencecentral.com

http://blog.kaggle.com

http://www.kdnuggets.com

https://www.quora.com/topic/Data-­Science

Roberto  Muñoz github.com/rpmunoz

Tutorial  análisis de  datos

• Usaremos un  notebook  de  Jupyter y  Python  3  para  mostrar  parte  del  proceso  que  se  hace  en  Data  Science.

• El  notebook  de  Python  se  puede  descargar  desde  la  carpeta  CIO2016 en  github.com/rpmunoz/datascience

Gracias

Roberto  Muñoz github.com/rpmunoz

Bibliografía

• A  very  short  history  of  Data  Science• From  Data  Mining  to  Knowledge  Discovery  in  Databases

• A  Project-­‐Based  Case  Study  of  Data  Science  Education