Introduction à la bioinformatique Ce cours est supporté par Chemical Computing Group & Jonathan...
-
Upload
felice-ramos -
Category
Documents
-
view
112 -
download
4
Transcript of Introduction à la bioinformatique Ce cours est supporté par Chemical Computing Group & Jonathan...
Introduction à la bioinformatique
Ce cours est supporté par
Chemical Computing Group
&Jonathan Pevsner (JHU)
Ce qu’est la bioinformatique
• Interface entre la biologie et l’ordinateur
• Analyse de proteines, gènes et génomes à l’aide d’algorithmes et de banques de données
• Génomique : analysis de génomes. Donner un sens aux milliards de paires de bases de DNA qui sont séquencées
[1] Élaborer un modèle de transcription. Où et quand un gène va s’exprimer
[2] Prédire les épissages alternatifs du RNA
[3] Établir les voies de transduction ; prédire la réponse cellulaire à un stimulus
[4] Déterminer les codes de reconnaissance entre protein:DNA, protein:RNA, protein:protein
[5] Prédire ab initio la structure des protéines
Principaux défis de la discipline
[6] Design de petites molécules (inhibiteurs)
[7] Expliquer l’évolution des protéines.
[8] Expliquer la spéciation.
[9] Développer des manières systématiques de décrire la fonction des gène et des proteines.
DNA RNA phenotypeprotein
DNA RNA
cDNAESTsUniGene
phenotype
genomicDNAdatabases
protein sequence databases
protein
GenBankEMBL DDBJ
EBIEuropean
BioinformaticsInstitute
3 Banques publiques majeures de DNA
NCBINational
Center forBiotechnology
Information
Japan
>100,000 espèces sont représentéesdans GenBank
tt espèces 128,941
virus 6,137
bactéries 31,262
archaea 2,100
eucariotes 87,147
Homo sapiens (6.9 millions entrées)Mus musculus (5.0 millions)Zea mays (896,000)Rattus norvegicus (819,000)Gallus gallus (567,000)Arabidopsis thaliana (519,000)Danio rerio (492,000)Drosophila melanogaster (350,000)Oryza sativa (221,000)
Organismes les plus séquencésdans Genbank
National Center for BiotechnologyInformation (NCBI)
www.ncbi.nlm.nih.gov
PubMed • National Library of Medicine (serv. de recherche)
• 11 millions citations ds MEDLINE• liens vers journaux online• PubMed tutorial (via “Education” side bar)
BLAST• Basic Local Alignment Search Tool• Outil NCBI pour recherche de similarité• analyse banques de DNA et protéines• > 80,000 recherches par jour
OMIM•Online Mendelian Inheritance in Man•catalogue des désordres génétiques chez Hs•edité par Dr. Victor McKusick & al. JHU
TaxBrowser• browser pour divisions principales des organismes (archaea, bacteries, eucariotes, virus)• informations taxonomiques• données moleculaires sur organismes disparus
Structure• Molecular Modelling Database (MMDB)
• structures de Protein Data Bank (PDB)• Cn3D (a 3D-structure viewer)• vector alignment search tool (VAST)
[1] LocusLink (RefSeq)[2] Entrez (Unigene, Nucléotides., Protéines, Gènes et Génomes)[3] EBI et Ensembl[4] ExPASy Sequence Retrieval System (EXpert Protein Analysis SYstem))
Plusieurs façons d’accéder à la séquence d’un gène ou d’une protéine
[1] LocusLink with RefSeq
LocusLink : un bon point de départInfos sur chaque gène ou protéine à partieDe plusieurs banques.
RefSeq : numéro d’accèssion unique pourchaque DNA (NM_006744) ou protéine (NP_007635)
RefSeq: séq. la plus stable (consensus)
Ce qu’est un accession number ?
Étiquette qui identifie une séquence. Série de lettres et/ou chiifres qui correspondent à une séquence moléculaire.
Exemples (pour retinol-binding protein, RBP4):
X02775 GenBank genomic DNA sequenceNT_030059 Genomic contig
N91759.1 An expressed sequence tag (1 of 170)NM_006744 RefSeq DNA sequence (from a transcript)
NP_007635 RefSeq proteinAAC02945 GenBank proteinQ28369 SwissProt protein1KT7 Protein Data Bank structure record
protein
DNA
RNA
À propos de RefSeq
RefSeq ne donne qu’un seul # accès pour un gène ou une protéine.
Il peut y avoir des centaines de # accès à un gène dans GenBank mais il n’y en aura qu’un seul dans RefSeq (plusieurs s’il existe des épissages variables.
???
pour Mme NCBI sur
gène
protéine
Entrez intègre les éléments suivants:
UniGeneProjet qui vise à assigner un cluster de
séquences à un seul gène
Pour RBP4 il a un seul # accès Hs.418083
Qui donne la liste de toutes les entrées GenBank pour cette protéine (incluant EST)
Plug the figures …
and press …