داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی...
-
Upload
constance-banks -
Category
Documents
-
view
246 -
download
0
Transcript of داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی...
![Page 1: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/1.jpg)
داده های عظیم در دوران پساژنوم
Big Data in Post Genome Era
مهدی صادقیپژوهشگاه ملی مهندسی ژنتیک و زیست فناوری
پژوهشکده علوم زیستی، پژوهشگاه دانش های بنیادی
![Page 2: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/2.jpg)
![Page 3: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/3.jpg)
4
The Problem of Big Data
Volume
Velocity of process
Variability
![Page 4: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/4.jpg)
Motivation
• Recent developments in biotechnology have allowed the high-throughput data generation from biological samples
• We have lots and lots of data about all aspects of biology (although still mostly about humans)
• How can we make sense of all this data?– Analyse the data to extract new knowledge about
the biology Data Mining
![Page 5: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/5.jpg)
1973Sharp, Sambrook, Sugden
Gel Electrophoresis Chamber, $250
1958 Matt Meselson &
Ultracentrifuge, $500,000
The Problem of Big Data in Biology hopefully comfortable enough to minimize the technology
and focus on the biology.
![Page 6: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/6.jpg)
![Page 7: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/7.jpg)
Human Genome:$2.7 Billion, 11 Years
Human Genome: $900, 6 Hours
2012:Oxford Nanopore
MiniION
2003: ABI 3730 Sequencer
The Problem of Big Data in Biology A decade’s progress
![Page 8: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/8.jpg)
9
2010: 5K$, a few days
2009: Illumina, Helicos40-50K$
Sequencing the Human Genome
Year
Log
10(p
rice)
201020052000
2012<1000$, <24 hrs
2008: ABI SOLiD60K$, 2 weeks
2007: 4541M$, 3 months
2001: Celera100M$, 3 years
2001: Human Genome Project2.7G$, 11 years
![Page 9: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/9.jpg)
The Problem of Big Data in Biology
![Page 10: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/10.jpg)
A Super-Moore’s Law
![Page 11: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/11.jpg)
So what data can we generate?
• Biological data can be generated at many different levels– Genomics (DNA)– Transcriptomics (RNA)– Proteomics (proteins)–Metabolomics (small compounds)– Lipidomics (lipids)
• Hundreds of –omics have been catalogued
![Page 12: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/12.jpg)
The Problem of Big Data in Biology
High Throughput Phenotyping
The large amount of sequencebased data need balancingwith equally powerful phenotypicdata.
Phytomorph Project (Univ. Wisconsin)
•$70K for 30 cameras•200 movies of root growth•4GB/day of images for processing
![Page 13: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/13.jpg)
Data to Networks to Biology
![Page 14: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/14.jpg)
Protein Interaction Network
![Page 15: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/15.jpg)
Aims
• First Data organization researchers access to existing information submit new entries
• Second develop tools and resources that aid in the analysis of data
• Third interpret the results in a biologically meaningful manner.
![Page 16: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/16.jpg)
Theoretical CS
interdisciplinary
MolecularBiology
Machine LearningData Mining
Information Management
Biophysics
Bioinformatics
Biochemistry
Applied Mathematics & Statistics
Biology Computer Science
![Page 17: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/17.jpg)
General Types of “….Informatics techniques…..”
• Databases– Building, Querying– Object DB
• Text String Comparison– Text Search– 1D Alignment– Significance Statistics
• Finding Patterns– AI / Machine Learning– Clustering– Datamining
• Geometry– Robotics– Graphics (Surfaces, Volumes)– Comparison and 3D Matching
(Vision, recognition)• Physical Simulation
– Newtonian Mechanics– Electrostatics– Numerical Algorithms– Simulation
![Page 18: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/18.jpg)
Algorithmic vs. Statistical Perspectives
Computer Scientists • Data: are a record of everything that happened. • Goal: process the data by positing a model to find interesting patterns and associations.• Methodology: Develop approximation algorithms under different models of data access since the goal is typically computationally hard.
Statisticians (and Natural Scientists)• Data: are a particular random instantiation of an underlying process describing unobserved patterns in the world.• Goal: is to extract information about the world from noisy data.• Methodology: Make inferences (perhaps about unseen events) by positing a model that describes the random variability of the data around the deterministic or stochastic model.
![Page 19: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/19.jpg)
Major Application : Finding Homologs
![Page 20: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/20.jpg)
Major Application :Designing Drugs
• Understanding How Structures Bind Other Molecules (Function)• Designing Inhibitors• Docking, Structure Modeling
(From left to right, figures adapted from Olsen Group Docking Page at Scripps, Dyson NMR Group Web page at Scripps, and from Computational Chemistry Page at Cornell Theory Center).
![Page 21: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/21.jpg)
Pharmacogenomics
Everybody is different
The Right Drug
To The Right Patient
For The Right Disease
At The Right Time
![Page 22: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/22.jpg)
Big changes in the past ... and future
Consider the creation of:
• Modern Physics Management Science
• Computer Science Transistors and Microelectronics
• Molecular Biology Biotechnology
•These were driven by new measurement techniques and technological advances, but they led to:
big new (academic and applied) questions
• new perspectives on the world
• lots of downstream applications
We are in the middle of a similarly big shift!
![Page 23: داده های عظیم در دوران پساژنوم Big Data in Post Genome Era مهدی صادقی پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری پژوهشکده](https://reader033.fdocuments.us/reader033/viewer/2022061602/5697c0151a28abf838ccde67/html5/thumbnails/23.jpg)