SELENfest 2012
-
Upload
alejandra-gonzalez-beltran -
Category
Documents
-
view
109 -
download
5
description
Transcript of SELENfest 2012
Alejandra González-‐Beltrán, PhD
Senior Software Engineer, ISATeam Oxford e-‐Research Centre, University of Oxford
Oxford, UK
SELENfest 2012 – CIFASIS, UNR, 19 Diciembre 2012
Metadatos en biociencia: posibilitando la invesQgación reproducible y reuQlizable
El contexto
Source of the figure: EBI website
tox/pharma
env
health
agro
La biociencia es mulQ-‐dominio
El contexto
Source of the figure: EBI website
tox/pharma
env
health
agro
Petabytes de datos La biociencia es mulQ-‐dominio
Petabytes de datos
El contexto
Source of the figure: EBI website
tox/pharma
env
health
agro
La biociencia es mulQ-‐dominio
Metadatos experimentales en notas de laboratorio
Ioannidis et al., Repeatability of published microarray gene expression analyses. Nature Gene*cs 41(2), 149-‐55 (2009) doi:10.1038/ng.295
Ioannidis et al., Repeatability of published microarray gene expression analyses. Nature Gene*cs 41(2), 149-‐55 (2009) doi:10.1038/ng.295
h]p://www.nature.com/news/2011/110111/full/469139a.html
h]p://www.nature.com/news/2011/110111/full/469139a.html
h]p://www.economist.com/node/21528593
h]p://www.nature.com/news/2011/110111/full/469139a.html
h]p://www.economist.com/node/21528593 h]p://www.nyQmes.com/2011/07/08/health/research/08genes.html
Analogía de la lata de conservas basada en comentario por Norman Morrison y converQda de ontologías
a metadatos.
Descripción de experimentos… metadatos
• Fragmentación de formatos (e.g. MAGE-‐Tab, PRIDE-‐XML, SRA-‐XML)
• Los disQntos formatos capturan disQnta información… … pero hay muchas cosas comunes
• Las terminologías que se usan para describir los experimentos varían mucho…
Variadas comunidades de expertos… …variadas normas y estándares
reportar la misma Información esencial
usar la misma palabra para referirse a las mismas cosas
permiten que los datos se transmitan entre sistemas
h]p://xkcd.com/927/
Variadas comunidades de expertos… …variadas normas y estándares
reportar la misma Información esencial
usar la misma palabra para referirse a las mismas cosas
permiten que los datos se transmitan entre sistemas
Desafíos: falta de interacción y coordinación, fragmentación y cubrimiento desparejo…
dificulta la interoperabilidad
VO!
miame!MIAPA!
MIRIAM!MIQAS!MIX!
MIGEN!
CIMR!MIAPE!
MIASE!
MIQE!
MISFISHIE….!
REMARK!
CONSORT!
MAGE-Tab!GCDML!
SRAxml!SOFT! FASTA!
DICOM!
MzML!SBRML!
SEDML…!
GELML!
ISA-Tab!
CML!
MITAB!
AAO!CHEBI!
OBI!
PATO! ENVO!MOD!
BTO!IDO…!
TEDDY!
PRO!XAO!
DO
Estándares de reporte de datos en expansión…
GIATE!
+ 130
Es(mated
+ 150
Source: MIBBI, EQ
UATO
R
+ 303
Source: BioPortal Databases, annotaQon, curaQon tools
miame!MIAPA!
MIRIAM!MIQAS!MIX!
MIGEN!
CIMR!MIAPE!
MIASE!
MIQE!
MISFISHIE….!
REMARK!
CONSORT!
MAGE-Tab!GCDML!
SRAxml!SOFT! FASTA!
DICOM!
MzML!SBRML!
SEDML…!
GELML!
ISA-Tab!
CML!
MITAB!
AAO!CHEBI!
OBI!
PATO! ENVO!MOD!
BTO!IDO…!
TEDDY!
PRO!XAO!
DO
VO!GIATE!
Estándares de reporte de datos en expansión…
Cuáles son lo suficientemente
maduros para usar o recomendar su uso?
Trabajo con plantas, son los estándares relevantes sólo para
aplicaciones biomédicas?
Cuál es el criterio para evaluar su estado y valor?
Cómo puedo involucrarme en
proponer extensiones o modificaciones?
Qué herramientas y bases de datos
implementan qué estándares?
Uso tecnologías de secuenciación, qué
estándares son relevantes para mí?
Qué formatos soportan “listas de
información mínima”
espécificas?
Pero… cómo podemos saber cuáles son los estándares y sus interrelaciones
• AsisQr en la anotación/descripción y administración de datos experimentales en el origen
• Considerar datos de estudios de alto rendimiento usando una o más tecnologías ómicas u otras tecnologías
• PermiQr a los usarios adoptar los estándares de reporte definidos por la comunidad (formatos, listas de verificación y ontologías)
• Facilitar comparQr los datos, reusarlos, comparar y reproducir los experimentos, remiQr datos a repositorios públicos internacionales
inves(ga(on study assay
El ecosistema
ISA software suite: supporting standards-compliant experimental annotation and enabling curation at the community level Rocca-Serra et al, 2010 Bioinformatics
Towards interoperable bioscience data Sansone et al, 2012 Nature Genetics
El ecosistema
Formato flexible y de propósito general Formato tabular (vs XML) AgnósQco del dominio Captura metadatos de experimentos ómicos y de experimentos tradicionales (e.g. clínica química e histología)
powered by ncbo annotatorvisualise helpsuggesttagterms clear all
spreadsheet-like interfaceautomated ontology tagging
QR code generator
publication searcher
ontology search
visualization
file chooser
Permite reportar y editar la descripción del experimento usando Google Spreadsheets.
Se pueden usar Google Spreadsheets en cobinación con planQlas ISA-‐Tab (generadas importando un
archivo Excel en ISAconfigurator) y OntoMaton (para búquedas de ontologías y eQquetado) para describir
la invesQgación.
Ontology Search and Tagging in Google Spreadsheets
-‐ collaboraQve annotaQon -‐ distributed groups of users -‐ version control & history
Permite crear planQllas detallando los pasos a reportar para disQntos Qpos de invesQgaciones, que conformen con los
estándares definidos por la comunidad (listados en ), e.g. configurar los campos para que sean (i)
conceptos de una o más ontologías, (ii) texto (con/sin verificación con expresiones regulares), (iii) números, etc.
Con los archivos ISA-‐Tab podemos llevar a cabo el análisis de los datos, converQr a RDF/OWL u otros formatos para enviarlos/comparQrlos a repositorios locales o remotos.
• Paquete en lenguaje R, disponible en BioConductor 2.11
h]p://bioconductor.org/packages/release/bioc/html/Risa.html
• Clase ISAtab • Lee archivos ISAtab en objetos ISAtab y permite guardar los archivos ISAtab
• Construye objetos xcmsSet (paquete xcms) a parQr de ensayos de espectrometría de masas
• Permite incrementar los archivos ISAtab después del análisis
• código fuente & issue tracking
h]ps://github.com/ISA-‐tools/Risa
• El paquete faahKO v. 2.12 conQene archivos ISAtab que describen el experimento faahkoISA = readISAta(find.package("faahKO")) assay.filename <-‐ faahkoISA["assay.filenames"][[1]] xset = processAssayXcmsSet(faahkoISA, assay.filename) … updateAssayMetadata(faahkoISA, assay.filename,"Derived Spectral Data File","faahkoDSDF.txt" )
• Un ejemplo usando los paquetes de BioConductor Risa, xcms y CAMERA en el experimento MTBLS2 se pueden encontrar en:
Metabolights – an open access general-purpose repository for metabolomics studies and associated meta-data Haug et al, 2012 Nucleic Acids Research
Sintaxis ISA transformaciones subyacentes entre materiales y datos
Protocol REF
Input Material or Data Node
Output Material or Data Node
Parameter Value […]
Characteris@cs[…] Factor Value[…]
Characteris@cs[…] Factor Value[…]
33
Web semánQca
• SemánQca de “mundo abierto” • Conjunto de lenguajes de representación (RDF, RDFS, OWL, …)
• RDF (Resource DescripQon Framework) – recomendación del – Modelo basado en grafos para el intercambio de datos en la Web
– Tripletas <subject> <predicate> <object> <lipoprotein> <parQcipates_in> <inflammatory response> <PRO:212342352> <BFO_0000056> <GO:0006954>
Web semánQca
• RDFS (RDF Schema) y OWL (Web Ontology Language): lenguajes para definición de vocabularios, describen datos en RDF – Recomendaciones – RDFS permite expresar, e.g., Qpo, dominio, sub-‐propiedades
– OWL = RDFS + otros constructores (e.g. operaciones de conjuntos)
– OWL basado en lógica descripQva, disQntos “perfiles” de acuerdo a la complejidad de razonamiento
Datos enlazados (linked data)
h]p://i1.cpcache.com/product/597992118/5_star_linked_open_data_mug.jpg?side=Back&height=350&width=350
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. h]p://lod-‐cloud.net/
• Hacer explícita la semánQca de ISAtab, incluyendo los conceptos de materiales, enQdades de datos y procesos
• Aprovechar las anotaciones semánQcas disponibles en archivos ISAtab
• Extender la sintaxis ISA con nuevos elementos (e.g. grupos de tratamiento), facilitando la comprensión y capacidades de consulta sobre el diseño de experimentos
• Facilitar la integración de datos, el razonamiento, descubrimiento de nuevo conocimiento
Archivos ISAtab como datos enlazados
• Conectar con “la nube” de datos enlazados • Colaboraciones con Toxbank ( ) y el “W3C Health Care & Life Sciences Interest Group” (HCLSIG)
ISAtab dataset Parser
ISA Mapping Parser
ISAtab Graph Analysis
ISA-‐OBO-‐mapping
material enQty
processed material
InformaQon content enQty
material processing
has specified input
has specified input
has specified input
has specified output
has specified output
has specified output
derives from
derives from
derives from
type
type
type
type
type
type
sample collecQon
extracQon
mass spectrometry
./cdf/KO/ko15.CDF
KO1_extract
KO1
Saghantelian_1
Incrementando el nivel de estructuración…
Notas en cuadernos de laboratorio (información para humanos)
Planillas de cálulo & tablas (metadatos ISAtab)
Hechos como sentencias RDF (información para máquinas)
…para disQntas audiencias
core organizaQon in the
UK Node
Implementación en Harvard
ISA
h]p://discovery.hsci.harvard.edu/
45
Implementación en EBI
h]p://www.ebi.ac.uk/metabolights
Metabolights – an open access general-purpose repository for metabolomics studies and associated meta-data Haug et al, 2012 Nucleic Acids Research
El ecosistema
@isatools @biosharing Isa-‐tools.org isacommons.org biosharing.org
faahKO dataset • Available in BioConductor • Subset of the original data on global metabolite profiling
• LC/MS peaks from the spinal cords of 6 wild-‐type and 6 FAAH (fa]y acid amyde hydrolase) knockout mice
Saghatlian et al. Biochemistry. 2004
faahKO invesQgaQon -‐ Define key enQQes (e.g. factors, protocols, parameters) -‐ Grouping of studies -‐ Relate studies and assays
faahKO study
NEWT UniProt Taxonomy Database Mouse Genome InformaQcs
-‐ Subjects studied: source(s), sampling methodology, characterisQcs -‐ treatments/manipulaQons performed to prepare the specimens
faahKO study
Mouse Adult Gross Anatomy
-‐ Subjects studied: source(s), sampling methodology, characterisQcs -‐ treatments/manipulaQons performed to prepare the specimens
faahKO assay -‐ measurement type, e.g. metabolite profiling -‐ technology, e.g. mass spectrometry