Data Science, Big Data and Analytics: Present and Future

Perspectives from Academia, Industry and Consulting

Zoran Bursac, PhD, MPH

Josh Callaway, MS, MPH

Fernando Lopez, MS, PhD Candidate

Health care, business, technology -> data

Big data -> voluminous data sets (structured or unstructured)

Produced every day all around us

Analytics -> examining data to detect patterns

Big Data Analytics and Data Science

Different sources, different sizes

High variety, volume, velocity

Online networks, web pages, audio/video, social media,

Techniques-> machine learning, data mining,

natural language processing, statistics

Extraction, preparation, storage/warehousing,

blending, analytics

Real-time Benefits

Healthcare

Banking

Energy

Consumer

Education

Current Trends and Common Data Science ToolsProcess, Perform and Visualize

Data sourcing -> Hadoop HDFS

Data storing -> Oracle, MySql

Data conversion -> Sqoop

Data transformation ->

Exploratory analysis -> Elastic

search, knime

Model building -> R, SAS, Python,

Visualization -> Tableau, ggplot2

Model execution -> Hadoop, Java,

Spark, C#

Version control -> Git, BitBucket IDE -> Rstudio

Text for coding -> Jupyter Notebook,

R Shiny

Free Open Source

Hadoop->distributed processing of large data

across clusters

Hive->warehouse to manage large data in

distributed SQL storage

Kafka->real time pipeline of streaming

Pig->large data analytics

R, Rstudio, ggplot-> analytics and data

visualization

Python, Julia -> high level programming with efficient algorithms and

speed for large data processing

Jupyter notebook -> manage documents

such as code, explanatory and shared

RapidMiner -> data preparation, machine learning and model

deployment

Do you need to know all? NO

Hadoop R SQL Python Hive Pig etc…

• Cirillo and Valencia (2019). Machine learning algorithms for multi-view data analysis. Data from multiple sources (genomic, proteomic, metabolomic) used to identify associations within and between multiple sets of patients, and generate models for patient clustering.

Big data analytics for personalized medicine and pharmacogenomics

The Latest Buzzwords

Data science

Artificial intelligence

Machine learning

Data mining Big data

Data warehouse Data lake Cloud

computing Hadoop Internet of things

Local Environment

diagnosis.csv

demographic.csv

lab.csv medication.csv

procedure.csvRStudio Local

insertDB.R

AWS RDS MySQLTables

demographicdiagnosis

labproceduremedication

AWS EC2 InstanceShiny Server

AWS EC2 InstanceMicrosoft R Open

Online Published Web Apps with URLsModel

Results

results.csv

insertDB.R

www.Kaggle.com

Diabetes

Step 1. Local

Environment

Step 2. Insert into

Remote Database

Step 3. SQL Database

Step 4. R Shiny Web App

Local Storage

Text Files (.txt) Comma Separated Value Files (.csv)

Excel Database (.xlsx)

Microsoft Access Database (.accdb)

Remote Storage

Dropbox Google Sheets

AWS S3 Bucket

Cloud Database• MySQL• MongoDB• PostgreSQL• NoSQL• Oracle

Cloud Platforms

Microsoft Azure

DigitalOcean

Distributed Computing Technology

All processing jobs (scripts; i.e. R, Python, Scala, etc.) are divvied up among all available processing units (computers, cores, threads, etc.)

Hadoop

Microsoft R Open

Multithreaded Performance

Machine Learning

Microsoft Azure Power BI

Analytics on big data

Data warehouse

Real-time analytics

Solution Architectures

at Sanitas

Population Health Management for Healthcare

Local Storage

BUSINESS INTELLIGENCE STRATEGYSanitas USA

Data Sources

IT Alignment

SANITAS USA – Strategic plan

Data Governance

- Standards and Policies - Data Quality (DQ) - Data Security and Privacy - Architecture/Integration - DW and Business Intelligence (BI) - Self-service Architectures

Data Types

ETL/ELT workflows Cloud data warehouse

Ensure Data Quality

Dashboards, KPIs and Metrics

eCW Report Delivery

Reports

Security, Roles and Audit

Visualize and Report

Operations

Information Analysis for Business unitsClinical – Financial - Operational

Visualized Analytics

Training and Predictive Experimentation

Hadoop, Spark, Hive, LLAP, Kafka, Storm, R

Apache Spark-based analytics

ML StudioExperiment

ML StudioDataset

ML StudioModel Train

ML StudioModel Score

ML StudioModel

Evaluation

Power BI

Rejoinder

Data -> our biggest asset Emphasis on “good” data

Processing streams -> wrangling, carpenting

Storage –> lakes, warehousing, data bases

Analytics -> mining, machine learning

Output -> new knowledge, information, inferences

Feed back to the users -> gather more data

Question to the global audience

• What are your needs and where are you currently with respect to?

• Data collection, quality, storage, analytical and computing power

• Where is data coming from, single or multiple sources

• Who is maintaining data quality and fidelity• Do you have adequate storage with proper

security; planning for the future• Are you investing in resources and trained

personnel with data science skills

Data Science, Big Data and Analytics: Present and Future

Documents

Transcript of Data Science, Big Data and Analytics: Present and Future

Data Analytics with MATLAB - itpcas.ac.cnlib.itpcas.ac.cn/documents/18/0/Data+Analytics+MATLAB.pdfMATLAB Analytics work with business and engineering data 1. 6 Data Analytics Workflow

Data Analytics Concepts - Polo Club of Data Sciencepoloclub.gatech.edu/.../CSE6242-8-DataMiningConcepts.pdfCSE6242 / CX4242: Data & Visual Analytics Data Analytics Concepts Duen Horng

DATA ANALYTICS Big Data & Analytics

Data decisions better - brand-day.ru · 2019-10-18 · Data Preparation Data Lakes Predictive Analytics Cloud ABI ugh Time Text Analytics Social Analytics Data Analytics Services

Big Data Analytics Infrastructure For Dummies, IBM · PDF file• How Big Data Analytics is ... is. Big Data Analytics Infrastructure For Dummies data. Big Data Analytics Infrastructure

MSc Data Analytics. - UCLan Cypruscomputing.uclancyprus.ac.cy/factsheets/MScData... · such as Data Analytics Business Consultant, Data Analytics Architect, Data Engineer, Data Solution

MIS2502: Data Analytics Advanced Analytics - Introduction

E6893 Big Data Analytics Lecture 2: Big Data Analytics ...

Big Data Analytics – Advanced Analytics

Chapter 1 Introductionlagrange.math.siu.edu/Olive/linmodch1.pdfMachine learning, data mining, big data, analytics, business analytics, data analytics, and predictive analytics are

Data Analytics and Visualization Workshop … · 09/04/2019 · Data Analytics • Data Visualization • Data Science • Big Data • Predictive Analytics • Machine Learning

E6893 Big Data Analytics Lecture 4: Big Data Analytics ...

MIS2502: Data Analytics Advanced Analytics - Introduction.

Idiro Analytics - Analytics & Big Data

Analytics and Big Data Analytics

MOBILE EQUIPMENT DATA ANALYTICS - CMIC · 6/5/2019 · MOBILE EQUIPMENT DATA ANALYTICS PROJECT Mobile Equipment Analytics Big Data -> Advanced Data Analytics -> Information -> Decisions

HANDS-ON DATA ANALYTICS ANALYTICS WORKSHOP

The Present & Future of Data Analytics - YAP Melbourne · The Present & Future of Data Analytics - YAP Melbourne 20 July 2017 Genevieve Hayes Analytics & Actuarial Manager VMIA ...

Data Science-Data Analytics

Introduction to Health Care Data Analytics...Introduction to Health are Data Analytics ourse Syllabus ontinued Data Analytics Tools and Techniques 1. Define data analytics terms 2.