Frustration-Reduced PySpark: Data engineering with DataFrames
Machine learning y data science con scikit learn y pyspark
-
Upload
jose-manuel-ortega-candel -
Category
Data & Analytics
-
view
1.095 -
download
1
Transcript of Machine learning y data science con scikit learn y pyspark
Machine learning y data science con scikit-learn y pysparkhttps://www.udemy.com/machine-learning-y-data-science-con-scikit-learn-y-pyspark
Aprende las principales técnicas de machine learning y ciencia de datos para aplicarlas en proyectos con python
Introducción a la ciencia de datos y machine learning
● Definición de ciencia de datos● Definición de machine learning● Introducción al aprendizaje automático● Tipos de aprendizaje automático● Aprendizaje supervisado vs no supervisado● Problema del sobreentrenamiento● Pasos para construir un modelo de machine learning
Librerías para tratamiento de datos con python
● Librerías de Python para machine learning:Numpy, SciPy, Pandas
● Instalación anaconda + jupyter notebook● Conjunto de datasets● Introducción a pandas● Librerías de visualización de datos con python● Ejemplos prácticos tratamiento de datos con pandas● Ejemplos prácticos visualización de datos● Otras librerías de machine learning con python
Scikit-learn como librería de machine learning
● Introducción a scikit-learn● Instalación y módulos● LinearRegression como algoritmo de regresión lineal● LogisticRegression como algoritmo de regresión logística● DecissionTreeClassifier y RandomForestClassifier como
algoritmos de árboles de decisión● SVM como algoritmo de máquinas de vectores de soporte
Scikit-learn como librería de machine learning● Implementación del algoritmo SVM en scikit-learn● KNeighborsClassifier como algoritmo de clasificación
supervisada vecinos más cercanos● Implementación de KNeighborsClassifier en scikit-learn● Clustering y aprendizaje no supervisado● K-means como algoritmo de clustering● Implementación de K-means en scikit-learn● Ejemplo con Iris / Titanic Dataset
Pyspark como librería de big data y data science
● Introducción a Apache Spark● Módulos de Apache Spark● Spark para Científicos de Datos● Instalación de Apache Spark● Instalar y ejecutar Pyspark con docker● Introducción a Pyspark● Consola interactiva en pyspark● SparkContext y esqueleto de una aplicación con pyspark
Pyspark como librería de big data y data science
● Datasets y RDD con pyspark● Crear un RDD en python con pyspark● Operaciones sobre un RDD● Transformaciones sobre un RDD● SparkSubmit para la ejecución de scripts python● Map-reduce con pyspark● Contador de palabras con pyspark● Palabras más frecuentes de un texto con pyspark● Lectura ficheros csv,json con pyspark
Pyspark como librería de big data y data science
● Trabajando con Spark SQL y dataframes● MLlib como módulo de machine learning con pyspark● Clustering con pyspark.Algoritmo Kmeans● Ejemplo clasificación Spam con mLlib