Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf ·...

29
Laboratorio di Bioinformatica I Banche dati Banche dati Parte 1 Dott. Sergio Marin Vargas (2014 / 2015)

Transcript of Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf ·...

Page 1: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Laboratorio di Bioinformatica I

Banche datiBanche datiParte 1

Dott. Sergio Marin Vargas (2014 / 2015)

Page 2: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Introduzione a NCBI

National Center for Biotechnology Information (NCBI)

http://www.ncbi.nlm.nih.gov/

Page 3: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

NCBI Databases

Page 4: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

NCBI Databases e Servizi

Page 5: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

International Nucleotide Sequence Database Collaboration

http://www.insdc.org/

http://www.ddbj.nig.ac.jp/

Le sequenze su NCBI

http://www.ebi.ac.uk/enahttp://www.ncbi.nlm.nih.gov/genbank/

Le sequenze su NCBI (GenBank) sono

Sincronizzate con l’ENAdell’EBI (EMBL-Bank) e

con DDBJ

Page 6: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Cosa troviamo in NCBI

Banche dati (alcuni esempi):

• GenBank: database primario di sequenze nucleotidiche (NIH geneticsequence database - National Institutes of Health)

• RefSeq: database non ridondanti di sequenze genomiche, di trascritti e

proteiche.

• PubMed and PubMed Central: accesso alla letteratura biomedica• PubMed and PubMed Central: accesso alla letteratura biomedica

• Omin: collezione di geni umani e fenotipi genetici

Servizi (alcuni esempi):

• Entrez (Gquery): interrogazioni incrociate ai diversi databases di NCBI

• BLAST: servizio di ricerche alle banche dati di sequenze mediante algoritmo

BLAST.

• VAST: servizio di ricerche per similarità di struttura

• Software and databases for download

Page 7: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Esercizio 1 Gquery (Entrez)

� Aprire il browser e andare alla pagina iniziale di NCBI:

http://www.ncbi.nlm.nih.gov/

� Individuare i database in NCBI che sono stati visti nella teoria:

� Eseguire una ricerca con la parola “hiv-1” (specie)

Quanti taxa ci sono?� Quanti taxa ci sono?

� Quante sequenze nucleotidiche?

� Quante proteine?

� Di queste, quante con struttura risolta?

� Quanti geni e quanti cluster UniGene?

� Si noti il rapporto tra UniGene e EST

� Perché ci sono più record in Gene che in UniGene se Gene è più curato di UniGene (suggerimento: leggere cosa è UniGene) ?

Page 8: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Esercizio 1: Gquery

Page 9: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Esercizio 1: Risultato Gquery (Entrez)

Page 10: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Risultato di una ricerca NCBI

� Aprire il browser e andare alla pagina iniziale di NCBI:

http://www.ncbi.nlm.nih.gov/

� Eseguire una ricerca con la parola “beta globin” (proteina)

� Analizzare il risultato della ricerca nel database “Protein”

Page 11: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Risultato in Entrez di NCBI

Page 12: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Opzioni di

visualizzazione Nome banca dati Stringa di ricerca Opzioni di

download

Risultati trovati

(records)

NCBI: struttura del risultato di una ricerca

Filtri attivi (se

ce ne sono)

Un risultato

(record)

Page 13: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Filtri (con la

spunta quelli

attivi)

NCBI: struttura del risultato di una ricerca

In quali organismi

sono stati trovati

proteine “beta globin”

Altre banche

dati in NCBI

Stringa di

ricerca

dettagliata

Page 14: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

NCBI: Ricerca avanzataRicerca avanzata

Filtri attivi

Inserimento

manuale di

stringhe di

ricerca

Costruttore di

ricerche

Ricerche

precedenti

Page 15: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

NCBI: Ricerca avanzata

Per avere l’elenco di

Permette di specificare i campi dei record da usare per la ricerca, di combinarli con operatori logici e di combinare anche ricerche recedenti (History).

Campi da ricercare

Per avere l’elenco di

tutti i possibili valoriOperatore logico

Una ricerca precedente può essere indicata con “#n”. Così si combina con altre opzioni di ricerca o con altre ricerche (e.g. #5 AND #23)

Page 16: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Esercizio 2 Ricerca su NCBI

� Ripetere la ricerca per “beta globin” sul database Gene.

� Aggiungere un filtro solo per homo sapiens

� Come cambia la stringa in “search details”?

� Filtrare solo i “geni codificanti proteine”

� Eliminare l’ultimo Filtro

� Recuperare il record per HBB hemoglobin, beta

[Homo sapiens] (con ID 3043) e aprirlo

� Su quale cromosoma ci troviamo?

� Quanti riferimenti bibliografici ci sono?

� Quante interazioni sono registrate?

� Individuare l’annotazione di Gene Ontology (GO)

� Qual è il codice refseq del mRNA e proteina?

Page 17: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Ricerca di una sequenza nucleotidica

Molti batteri si sono evoluti acquisendo una resistenza agli antibiotici.

Un esempio è il Mycobacterium tuberculosis, agente responsabile della

tubercolosi.

La domanda che ci si pone è:

Esercizio 3 Ricerca su NCBI

Ci sono sequenze nucleotidiche nel Mycobacterium tuberculosis con

la caratteristica “Penicillin-binding”?

Passi:

1. Cercare nella banca dati Nucleotide tutte le sequenze per “Penicillin

binding” (notare le virgolette che indicano la stringa e non le due parole

singolarmente). Quanti item (record) ci sono ?

2. Cercare solo le sequenze di Mycobacterium tuberculosis.

3. Vogliamo solo sequenze non ridondanti e ben annotate (refseq). Quanti

record troviamo ?

Page 18: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

NCBI – Estrazione di sequenze

nucleotidiche

� Vogliamo scaricare (fare download) le sequenze

nucleotidiche dei trascritti del recettore della transferrina

(TFR1) per l’uomo, una proteina coinvolta nell’assorbimento

del ferro nelle cellule (malattia emocromatosi).

� Cominciamo ricercando sul dal database Nucleotide. � Cominciamo ricercando sul dal database Nucleotide.

� Limitiamo la ricerca ad homo sapiens.

� Limitiamo la ricerca solo al database RefSeq.

� Limitiamo la ricerca solo ai trascritti (mRNA).

� In “Display Settings” selezionare “FASTA”

� In “Send” selezionare “Complete Record” e “File”

Page 19: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Formato FASTA x Nucleotidi

>gi|189458818|ref|NM_001128148.1| Homo sapiens transferrin receptor (TFRC), transcript variant 2, mRNAACGCACAGCCCCCCTGGGGGCCGGGGGCGGGGCCAGGCTATAAACCGCCGGTTAGGGGCCGCCATCCCCTCAGAGCGTCGGGATATCGGGTGGCGGCTCGGGACGGAGGACGCGCTAGTGTTCTTCTGTGTGGCAGTTCAGAATGATGGATCAAGCTAGATCAGCATTCTCTAACTTGTTTGGTGGAGAACCATTGTCATATACCCGGTTCAGCCTGGCTCGGCAAGTAGATGGCGATAACAGTCATGTGGAGATGAAACTTGCTGTAGATGAAGAAGAAAATGCTGACAATAACACAAAGGCCAATGTCACAAAACCAAAAAGGTGTAGTGGAAGTATCTGCTATGGGA

Intestazione Sequenza

Nucleotidica

AATGCTGACAATAACACAAAGGCCAATGTCACAAAACCAAAAAGGTGTAGTGGAAGTATCTGCTATGGGACTATTGCTGTGATCGTCTTTTTCTTGATTGGATTTATGATTGGCTACTTGGGCTATTGTAAAGGGGTAGAACCAAAAACTGAGTGTGAGAGACTGGCAGGAACCGAGTCTCCAGTGAGGGAGGAGCCAGGAGAGGACTTCCCTGCAGCACGTCGCTTATATTGGGATGACCTGAAGAGAAAGTTGTCGGAGAAACTGGACAGCACAGACTTCACCGGCACCATCAAGCTGCTGAATGAAAATTCATATGTCCCTCGTGAGGCTGGATCTCAAAAAGATGAAAATCTTGCGTTGTATGTTGAAAATCAATTTCGTGAATTTAAACTCAGCAAAGTCTGGCGTGATCAACATTTTGTTAAGATTCAGGTCAAAGACAGCGCTCAAAACTCGGTGATCATAGTTGATAAGAACGGTAGACTTGTTTACCTGGTGGAGAATCCTGGGGGTTATGTGGCGTATAGTAAGGCTGCAACAGTTACTGGTAAACTGGTCCATGCTAATTTTGGTACTAAAAAAGATTTTGAGGATTTATACACTCCTGTGAATGGATCTATAGTGATTGTCAGAGCAGGGAAAATCACCTTTGCAGAAAAGGTTGCAAATGCTGAAAGCTTAAATGCAATTGGTGTGTTGATATACATGGACCAGACTAAATTTCCCATTGTTAACGCAGAACTTTCATTCTTTGGACATGCTCATCT....

Page 20: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

NCBI – Estrazione di sequenze

proteiche

� Vogliamo scaricare (fare download) le sequenze proteiche

del recettore della transferrina (TFR1), ma che abbiano la

struttura risolta e siano complessati (legati) a un qualsiasi

ligando.

� Cominciamo ricercando sul dal database Protein. � Cominciamo ricercando sul dal database Protein.

� Limitiamo la ricerca solo al database PDB (quelli con

struttura risolta).

� In ricerca avanzata cerchiamo per “TFR1” e “complex” in

tutti i campi

� In “Display Settings” selezionare “FASTA”

� In “Send” selezionare “Complete Record” e “File”

Page 21: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Formato FASTA x Proteine

>gi|48425720|pdb|1SUV|B Chain B, Structure Of Human Transferrin Receptor-transferrin Complex

LYWDDLKRKLSEKLDSTDFTSTIKLLNENSYVPREAGSQKDENLALYVENEFREFKLSKVWRDQHFVKIQ

VKDSAQNSVIIVDKNGRLVYLVENPGGYVAYSKAATVTGKLVHANFGTKKDFEDLYTPVNGSIVIVRAGK

ITFAEKVANAESLNAIGVLIYMDQTKFPIVNAELSFFGHAHLGTGDPYTPGFPSFNHTQFPPSRSSGLPN

IPVQTISRAAAEKLFGNMEGDCPSDWKTDSTCRMVTSESKNVKLTVSNVLKEIKILNIFGVIKGFVEPDH

YVVVGAQRDAWGPGAAKSGVGTALLLKLAQMFSDMVLKDGFQPSRSIIFASWSAGDFGSVGATEWLEGYL

SSLHLKAFTYINLDKAVLGTSNFKVSASPLLYTLIEKTMQNVKHPVTGQFLYQDSNWASKVEKLTLDNAA

Intestazione

SSLHLKAFTYINLDKAVLGTSNFKVSASPLLYTLIEKTMQNVKHPVTGQFLYQDSNWASKVEKLTLDNAA

FPFLAYSGIPAVSFCFCEDTDYPYLGTTMDTYKELIERIPELNKVARAAAEVAGQFVIKLTHDVELNLDY

EEYNSQLLSFVRDLNQYRADIKEMGLSLQWLYSARGDFFRATSRLTTDFGNAEKTDRFVMKKLNDRVMRV

EYHFLSPYVSPKESPFRHVFWGSGSHTLPALLENLKLRKQNNGAFNETLFRNQLALATWTIQGAANALSG

DVWDIDNEF

Sequenza Proteica

Page 22: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

� Vogliamo cercare la sequenza nucleotidica e

amminoacidica della rodopsina (rhodopsin), il pigmento

visivo che innesca la visione nei vertebrati

� Cominciamo dal database Nucleotide. Quante sequenze ci sono per la

ricerca “rhodopsin”?

� Limitare la ricerca al database RefSeq. Quanti record ci sono?

Esercizio 4 Estrazione di sequenza

Nucleotidica

Limitare la ricerca al database RefSeq. Quanti record ci sono?

� Limitiamo la ricerca ad homo sapiens (human), usando l’opzioneadvanced search. Quante sequenze nucleotidiche trova?

� Visualizziamo l’entry “Homo sapiens chromosome 3, GRCh38 Primary Assembly”. Quante bp (base pair) ci sono nella sequenza?

� Visualizziamo l’entry “Homo sapiens rhodopsin (RHO), RefSeqGeneon chromosome 3”. Quante bp ci sono nella sequenza?

� Perche la differenza di dimensioni ?

� Ci sono malattie genetiche associate a questa entry? Di tipo solo autosomico dominante? (OMIM)

� Scaricare il fasta di solo il gene rhodopsin.

Page 23: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Esercizio 5 Estrazione di sequenza

amminoacidica (proteica)

� Se vogliamo adesso scaricare la sequenza amminoacidica,

della rodopsina (rhodopsin) per l’uomo su quale database

dobbiamo andare e quali filtri utilizzare ?

� Scaricare il FASTA della proteina e salvarlo in una� Scaricare il FASTA della proteina e salvarlo in una

directory locale.

� Collegarsi ad OMIM sfruttando il link sulla destra. Quanti

records si ottengono? Trovare almeno due mutazioni

puntiformi associate a retinite pigmentosa.

(Suggerimento: leggere!!!)

Page 24: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

� Ricercare la proteina “Hemoglobin subunit beta” di Homosapiens. Filtrare solo i record con RefSeq selezionare ilrisultato con codice RefSeq NP_000509.1 (accession).

1) Individuare

• lunghezza,

• peso molecolare,

Esercizio 6 NCBI Proteins

• peso molecolare,

• il refseq del trascritto

2) Salvare localmente la sequenza FASTA della PROTEINA

3) Salvare localmente la sequenza FASTA del TRASCRITTO

4) Ci sono SNP? Cos’è un SNP?

5) Ci sono malattie mendeliane note legate a questa proteina?

6) Ci sono strutture legate a questa proteina?

• Quante risolte per NMR e quante mediante Cristallografia (X-Ray) ?

Page 25: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

NCBI – PubMed

Stringa di ricercaOpzioni di

visualizzazione

Opzioni di

download

Risorse

correlate:

Filtri

Risultati (tipicamente articoli, ma anche review, trial clinici, ecc)

correlate:•Trend nei risultati•Ricerche simili•Articoli citati•Articoli che citano quello corrente•Ecc…

Stringa di

ricerca

dettagliata

Page 26: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

NCBI – PubMed - Entry Rivista, anno,

titolo,

autori

Opzioni di

visualizzazione

Opzioni di

download

Risorse

correlate:•Articoli che citano quello corrente

Abstract

Tipo della pubblicazione (in

questo caso, una review)

quello corrente

•Collegamenti abanche datiche contengonoinformazioni suitemi dell’articolo

Termini MeSH (Medical Subject Headings)

Codice univoco, PubMedID

Page 27: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

� Trovare le pubblicazioni correlate con le parole

“ethics of liver transplantation”

� Controllare in “Search Details” come viene costruita

Esercizio 7 NCBI Pubmed

Controllare in Search Details come viene costruita la “query” di ricerca nel database di Pubmed.

� Trovare gli articoli riferiti ai bimbi, bambini di 23 mesi o meno (suggerimento: utilizzare i filtri).

� Ricordarsi di pulire i filtri

Page 28: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

� Parte A.

� Con una ricerca in Pubmed, trovare le pubblicazioni che

siano relazionate con

� “circadian rhythms” e che siano relazionate con “cortisol” o “melatonin”

Esercizio 8 NCBI Pubmed

o “melatonin”

� in Humans.

� Parte B.

� Trovare le pubblicazioni correlate con “heart surgery”

(provare con le virgolette e senza).

� Utilizzando “History” nella ricerca avanzata,

� Combinare questa ricerca con quella della parte A. Quante

pubblicazioni trovate ?

Page 29: Banche dati Parte 1 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_Banche_dati_NCBI.pdf · banche dati che contengono informazioni sui temi dell’articolo Termini MeSH (Medical

Trovare pubblicazioni specifiche, utilizzando laricerca avanzata oppure il “search box”

� Parte A:� Gli articoli pubblicati nel 2000 in The New England Journal of

Esercizio 9 NCBI Pubmed

� Gli articoli pubblicati nel 2000 in The New England Journal ofMedicine. Riferiti a “hip protector” (to prevent hip fractures)

� Parte B:� Gli articoli dove “A. M. Adelman” è il primo nome della

pubblicazione. Quanti articoli ci sono ?

� Parte C:� Cercare le pubblicazione del Volume 5, issue 4 della rivista PLoS

Pathogens. Quanti articoli sono stati pubblicati in quel fascicolo,in quale anno/mese?