SELENfest 2012

53
Alejandra GonzálezBeltrán, PhD Senior Software Engineer, ISATeam Oxford eResearch Centre, University of Oxford Oxford, UK SELENfest 2012 – CIFASIS, UNR, 19 Diciembre 2012 Metadatos en biociencia: posibilitando la invesQgación reproducible y reuQlizable

description

In Spanish.

Transcript of SELENfest 2012

Page 1: SELENfest 2012

Alejandra  González-­‐Beltrán,  PhD  

Senior Software Engineer, ISATeam Oxford  e-­‐Research  Centre,  University  of  Oxford  

 Oxford,  UK

SELENfest  2012  –  CIFASIS,  UNR,  19  Diciembre  2012  

Metadatos  en  biociencia:  posibilitando  la  invesQgación  reproducible  y  reuQlizable  

Page 2: SELENfest 2012

El  contexto  

Source  of  the  figure:  EBI  website  

tox/pharma  

env  

health  

agro  

La  biociencia  es  mulQ-­‐dominio  

Page 3: SELENfest 2012

El  contexto  

Source  of  the  figure:  EBI  website  

tox/pharma  

env  

health  

agro  

Petabytes  de  datos  La  biociencia  es  mulQ-­‐dominio  

Page 4: SELENfest 2012

Petabytes  de  datos  

El  contexto  

Source  of  the  figure:  EBI  website  

tox/pharma  

env  

health  

agro  

La  biociencia  es  mulQ-­‐dominio  

Metadatos  experimentales  en  notas  de  laboratorio  

Page 5: SELENfest 2012

Ioannidis   et   al.,   Repeatability   of   published   microarray  gene  expression  analyses.  Nature  Gene*cs  41(2),  149-­‐55  (2009)  doi:10.1038/ng.295    

Page 6: SELENfest 2012

Ioannidis   et   al.,   Repeatability   of   published   microarray  gene  expression  analyses.  Nature  Gene*cs  41(2),  149-­‐55  (2009)  doi:10.1038/ng.295    

Page 7: SELENfest 2012

h]p://www.nature.com/news/2011/110111/full/469139a.html  

Page 8: SELENfest 2012

h]p://www.nature.com/news/2011/110111/full/469139a.html  

h]p://www.economist.com/node/21528593  

Page 9: SELENfest 2012

h]p://www.nature.com/news/2011/110111/full/469139a.html  

h]p://www.economist.com/node/21528593   h]p://www.nyQmes.com/2011/07/08/health/research/08genes.html  

Page 10: SELENfest 2012

Analogía  de  la  lata  de  conservas  basada  en  comentario  por    Norman  Morrison  y  converQda  de  ontologías  

a  metadatos.  

Page 11: SELENfest 2012

Descripción  de  experimentos…                          metadatos  

•  Fragmentación  de  formatos                (e.g.  MAGE-­‐Tab,  PRIDE-­‐XML,  SRA-­‐XML)  

•  Los  disQntos  formatos  capturan  disQnta  información…          …  pero  hay  muchas  cosas  comunes  

•  Las  terminologías  que  se  usan  para  describir  los    experimentos  varían  mucho…  

Page 12: SELENfest 2012

Variadas  comunidades  de  expertos…                      …variadas  normas  y  estándares    

reportar  la  misma  Información  esencial    

usar  la  misma  palabra  para  referirse  a  las  mismas  cosas  

permiten  que  los  datos  se  transmitan  entre  sistemas  

Page 13: SELENfest 2012

h]p://xkcd.com/927/  

Page 14: SELENfest 2012

Variadas  comunidades  de  expertos…                      …variadas  normas  y  estándares    

reportar  la  misma  Información  esencial    

usar  la  misma  palabra  para  referirse  a  las  mismas  cosas  

permiten  que  los  datos  se  transmitan  entre  sistemas  

Desafíos: falta de interacción y coordinación, fragmentación y cubrimiento desparejo…

dificulta la interoperabilidad

Page 15: SELENfest 2012

VO!

miame!MIAPA!

MIRIAM!MIQAS!MIX!

MIGEN!

CIMR!MIAPE!

MIASE!

MIQE!

MISFISHIE….!

REMARK!

CONSORT!

MAGE-Tab!GCDML!

SRAxml!SOFT! FASTA!

DICOM!

MzML!SBRML!

SEDML…!

GELML!

ISA-Tab!

CML!

MITAB!

AAO!CHEBI!

OBI!

PATO! ENVO!MOD!

BTO!IDO…!

TEDDY!

PRO!XAO!

DO  

Estándares  de  reporte  de  datos  en  expansión…  

GIATE!

Page 16: SELENfest 2012

+  130    

Es(mated  

+  150    

Source:  MIBBI,    EQ

UATO

R  

+  303    

Source:  BioPortal  Databases,    annotaQon,  curaQon    tools  

miame!MIAPA!

MIRIAM!MIQAS!MIX!

MIGEN!

CIMR!MIAPE!

MIASE!

MIQE!

MISFISHIE….!

REMARK!

CONSORT!

MAGE-Tab!GCDML!

SRAxml!SOFT! FASTA!

DICOM!

MzML!SBRML!

SEDML…!

GELML!

ISA-Tab!

CML!

MITAB!

AAO!CHEBI!

OBI!

PATO! ENVO!MOD!

BTO!IDO…!

TEDDY!

PRO!XAO!

DO  

VO!GIATE!

Estándares  de  reporte  de  datos  en  expansión…  

Page 17: SELENfest 2012

Cuáles  son  lo  suficientemente  

maduros  para  usar  o  recomendar  su  uso?  

Trabajo  con  plantas,  son  los  estándares  relevantes  sólo  para  

aplicaciones  biomédicas?  

Cuál  es  el  criterio  para  evaluar  su  estado  y  valor?  

Cómo  puedo  involucrarme  en  

proponer  extensiones  o  modificaciones?  

Qué  herramientas  y  bases  de  datos  

implementan  qué  estándares?  

Uso  tecnologías  de  secuenciación,  qué  

estándares  son  relevantes  para  mí?  

Qué  formatos  soportan  “listas  de  

información  mínima”  

espécificas?  

Pero…    cómo  podemos  saber  cuáles  son  los  estándares  y  sus  interrelaciones  

Page 18: SELENfest 2012
Page 19: SELENfest 2012

•  AsisQr  en  la  anotación/descripción  y  administración  de  datos  experimentales  en  el  origen  

•  Considerar  datos  de  estudios  de  alto  rendimiento  usando  una  o  más  tecnologías  ómicas  u  otras  tecnologías  

•  PermiQr  a  los  usarios  adoptar  los  estándares  de      reporte  definidos  por  la  comunidad  (formatos,  listas  de  verificación  y  ontologías)  

•  Facilitar  comparQr  los  datos,  reusarlos,  comparar  y  reproducir  los  experimentos,  remiQr  datos  a  repositorios  públicos  internacionales  

inves(ga(on  study  assay  

Page 20: SELENfest 2012

                         El  ecosistema          

Page 21: SELENfest 2012

ISA software suite: supporting standards-compliant experimental annotation and enabling curation at the community level Rocca-Serra et al, 2010 Bioinformatics

Towards interoperable bioscience data Sansone et al, 2012 Nature Genetics

                         El  ecosistema          

Page 22: SELENfest 2012

Formato  flexible  y  de  propósito  general  Formato  tabular  (vs  XML)  AgnósQco  del  dominio  Captura  metadatos  de  experimentos  ómicos  y  de  experimentos  tradicionales  (e.g.  clínica  química  e  histología)  

Page 23: SELENfest 2012
Page 24: SELENfest 2012
Page 25: SELENfest 2012
Page 26: SELENfest 2012

powered by ncbo annotatorvisualise helpsuggesttagterms clear all

spreadsheet-like interfaceautomated ontology tagging

QR code generator

publication searcher

ontology search

visualization

file chooser

Page 27: SELENfest 2012

Permite  reportar  y  editar  la  descripción  del  experimento  usando  Google  Spreadsheets.    

 Se  pueden  usar  Google  Spreadsheets  en  cobinación  con  planQlas  ISA-­‐Tab  (generadas  importando  un  

archivo  Excel  en  ISAconfigurator)  y  OntoMaton  (para  búquedas  de  ontologías  y  eQquetado)  para  describir  

la  invesQgación.  

Page 28: SELENfest 2012

Ontology  Search  and  Tagging  in  Google  Spreadsheets  

-­‐  collaboraQve  annotaQon  -­‐  distributed  groups  of  users  -­‐  version  control  &  history    

Page 29: SELENfest 2012

Permite  crear  planQllas  detallando  los  pasos  a  reportar  para  disQntos  Qpos  de  invesQgaciones,  que  conformen  con  los  

estándares  definidos  por  la  comunidad  (listados  en                                                    ),  e.g.  configurar  los  campos  para  que  sean  (i)  

conceptos  de  una  o  más  ontologías,  (ii)  texto  (con/sin  verificación  con  expresiones  regulares),  (iii)  números,  etc.  

Page 30: SELENfest 2012

Con  los  archivos  ISA-­‐Tab  podemos  llevar  a  cabo  el  análisis  de  los  datos,  converQr  a  RDF/OWL  u  otros  formatos  para    enviarlos/comparQrlos  a  repositorios  locales  o  remotos.  

Page 31: SELENfest 2012

•  Paquete  en  lenguaje  R,  disponible  en  BioConductor  2.11    

h]p://bioconductor.org/packages/release/bioc/html/Risa.html  

•  Clase  ISAtab  •  Lee  archivos  ISAtab  en  objetos  ISAtab  y  permite  guardar  los  archivos  ISAtab    

•  Construye  objetos  xcmsSet  (paquete  xcms)  a  parQr  de  ensayos  de  espectrometría  de  masas  

•  Permite  incrementar  los  archivos  ISAtab  después  del  análisis  

•                                                             código  fuente  &  issue  tracking            

h]ps://github.com/ISA-­‐tools/Risa    

Page 32: SELENfest 2012

•  El  paquete  faahKO  v.  2.12  conQene  archivos  ISAtab  que  describen  el  experimento          faahkoISA  =  readISAta(find.package("faahKO"))          assay.filename  <-­‐  faahkoISA["assay.filenames"][[1]]          xset  =  processAssayXcmsSet(faahkoISA,  assay.filename)          …          updateAssayMetadata(faahkoISA,  assay.filename,"Derived  Spectral  Data  File","faahkoDSDF.txt"  )  

•  Un  ejemplo  usando  los  paquetes  de  BioConductor  Risa,  xcms  y  CAMERA  en  el  experimento  MTBLS2  se  pueden  encontrar  en:  

Metabolights – an open access general-purpose repository for metabolomics studies and associated meta-data Haug et al, 2012 Nucleic Acids Research

Page 33: SELENfest 2012

   Sintaxis  ISA    transformaciones  subyacentes  entre  materiales  y  datos  

Protocol  REF  

Input  Material  or  Data  Node  

Output  Material  or  Data  Node  

Parameter  Value  […]  

Characteris@cs[…]  Factor  Value[…]  

Characteris@cs[…]  Factor  Value[…]  

33  

Page 34: SELENfest 2012

Web  semánQca  

•  SemánQca  de  “mundo  abierto”  •  Conjunto  de  lenguajes  de  representación  (RDF,  RDFS,  OWL,  …)  

•  RDF  (Resource  DescripQon  Framework)  –   recomendación  del    – Modelo  basado  en  grafos  para  el  intercambio  de  datos  en  la  Web  

– Tripletas   <subject>  <predicate>  <object>    <lipoprotein>  <parQcipates_in>  <inflammatory  response>    <PRO:212342352>  <BFO_0000056>  <GO:0006954>  

Page 35: SELENfest 2012

Web  semánQca  

•  RDFS  (RDF  Schema)  y  OWL  (Web  Ontology  Language):  lenguajes  para  definición  de  vocabularios,  describen  datos  en  RDF  –  Recomendaciones    –  RDFS  permite  expresar,  e.g.,  Qpo,  dominio,  sub-­‐propiedades    

– OWL  =  RDFS  +  otros  constructores  (e.g.  operaciones  de  conjuntos)  

– OWL  basado  en  lógica  descripQva,  disQntos  “perfiles”  de  acuerdo  a  la  complejidad  de  razonamiento  

Page 36: SELENfest 2012

Datos  enlazados  (linked  data)  

h]p://i1.cpcache.com/product/597992118/5_star_linked_open_data_mug.jpg?side=Back&height=350&width=350  

 

Linking  Open  Data  cloud  diagram,  by  Richard  Cyganiak  and  Anja  Jentzsch.  h]p://lod-­‐cloud.net/  

Page 37: SELENfest 2012

•  Hacer  explícita  la  semánQca  de  ISAtab,  incluyendo  los  conceptos  de  materiales,  enQdades  de  datos  y  procesos  

•  Aprovechar  las  anotaciones  semánQcas  disponibles  en  archivos  ISAtab  

•  Extender  la  sintaxis  ISA  con  nuevos  elementos  (e.g.  grupos  de  tratamiento),  facilitando  la  comprensión  y  capacidades  de  consulta  sobre  el  diseño  de  experimentos  

•  Facilitar  la  integración  de  datos,  el  razonamiento,  descubrimiento  de  nuevo  conocimiento  

Page 38: SELENfest 2012

Archivos  ISAtab  como  datos  enlazados  

•  Conectar  con  “la  nube”  de  datos  enlazados  •  Colaboraciones  con  Toxbank  (                                )     y   el   “W3C   Health   Care   &   Life   Sciences   Interest  Group”  (HCLSIG)  

Page 39: SELENfest 2012

ISAtab  dataset  Parser  

ISA  Mapping  Parser  

ISAtab  Graph  Analysis  

Page 40: SELENfest 2012

ISA-­‐OBO-­‐mapping  

Page 41: SELENfest 2012

material  enQty  

processed    material  

InformaQon  content  enQty  

material    processing  

has  specified  input  

has  specified  input  

has  specified  input  

has  specified  output  

has  specified  output  

has  specified  output  

derives  from  

derives  from  

derives  from  

type  

type  

type  

type  

type  

type  

sample    collecQon  

extracQon  

mass  spectrometry  

./cdf/KO/ko15.CDF  

KO1_extract  

KO1  

Saghantelian_1  

Page 42: SELENfest 2012

Incrementando  el  nivel  de  estructuración…  

Notas  en  cuadernos  de  laboratorio  (información  para  humanos)  

Planillas  de  cálulo  &  tablas  (metadatos  ISAtab)  

Hechos  como  sentencias  RDF  (información  para  máquinas)  

…para  disQntas  audiencias  

Page 43: SELENfest 2012

core  organizaQon  in  the  

UK  Node  

Page 44: SELENfest 2012

Implementación en Harvard

ISA

h]p://discovery.hsci.harvard.edu/    

Page 45: SELENfest 2012

45

Implementación en EBI

h]p://www.ebi.ac.uk/metabolights    

Metabolights – an open access general-purpose repository for metabolomics studies and associated meta-data Haug et al, 2012 Nucleic Acids Research

Page 46: SELENfest 2012

                         El  ecosistema          

Page 47: SELENfest 2012

@isatools  @biosharing  Isa-­‐tools.org          isacommons.org        biosharing.org  

Page 48: SELENfest 2012
Page 49: SELENfest 2012

faahKO  dataset  •  Available  in  BioConductor  •  Subset  of  the  original  data  on  global  metabolite  profiling  

•  LC/MS  peaks  from  the  spinal  cords  of  6  wild-­‐type  and  6  FAAH  (fa]y  acid  amyde  hydrolase)  knockout  mice  

Saghatlian  et  al.  Biochemistry.  2004  

Page 50: SELENfest 2012

faahKO  invesQgaQon  -­‐    Define  key  enQQes  (e.g.  factors,    protocols,  parameters)  -­‐  Grouping  of  studies  -­‐  Relate  studies  and  assays  

Page 51: SELENfest 2012

faahKO  study  

NEWT  UniProt  Taxonomy  Database  Mouse  Genome  InformaQcs  

-­‐  Subjects  studied:  source(s),  sampling  methodology,  characterisQcs  -­‐  treatments/manipulaQons  performed    to  prepare  the  specimens    

Page 52: SELENfest 2012

faahKO  study  

Mouse  Adult  Gross  Anatomy  

-­‐  Subjects  studied:  source(s),  sampling  methodology,  characterisQcs  -­‐  treatments/manipulaQons  performed    to  prepare  the  specimens    

Page 53: SELENfest 2012

faahKO  assay  -­‐  measurement  type,  e.g.  metabolite  profiling  -­‐  technology,  e.g.  mass  spectrometry