Bancos de Dados: De onde vieram? Onde estão ... - PUC-Riocasanova/Palestras/bd-history-2005.pdf ·...

52
5/3/2006 (c) Dept. Informática - PUC-Rio 1 Seminário Bancos de Dados: De onde vieram? Onde estão? Para onde vão? Marco A. Casanova

Transcript of Bancos de Dados: De onde vieram? Onde estão ... - PUC-Riocasanova/Palestras/bd-history-2005.pdf ·...

5/3/2006 (c) Dept. Informática - PUC-Rio 1

Seminário

Bancos de Dados:De onde vieram? Onde estão? Para onde vão?

Marco A. Casanova

5/3/2006 (c) Dept. Informática - PUC-Rio 2

Paul Gauguin, French, 1848–1903Where Do We Come From? What Are We? Where Are We Going?1897–1898Oil on canvasImage: 139.1 x 374.6 cm (54 3/4 x 147 1/2 in.) Framed: 171.5 x 406.4 x 8.9 cm (67 1/2 x 160 x 3 1/2 in.)Wildenstein 561Museum of Fine Arts, Boston: Tompkins Collection 36.270

http://www.mfa.org/artemis/fullrecord.asp?oid=32558&did=500

Description: In 1891, Gauguin left France for Tahiti, seeking in the South Seas a society that was simpler and more elemental than that of his homeland. In Tahiti, he created paintings that express a highly personal mythology. He considered this work—created in 1897, at a time of great personal crisis—to be his masterpiece and the summation of his ideas. Gauguin's letters suggest that the fresco-like painting should be read from right to left, beginning with the sleeping infant. He describes the various figures as pondering the questions of human existence given in the title; the blue idol represents "the Beyond." The old woman at the far left, "close to death," accepts her fate with resignation.

5/3/2006 (c) Dept. Informática - PUC-Rio 3

Cicero Dias, Brasil 2003Eu vi o mundo… Ele começava no RecifeRio de Janeiro, 1926-1929Guache e técnica mista s/ papel, colado em tela, 1,94 x 12mColeção do artista, Paris

http://www.estadao.com.br/divirtaseonline/galeria/cicerodias/painel/index.frm

O Painel do Escândalo (Salão de 1931)...Na arte de vanguarda brasileira não fora feita atéentão obra similar. Nem no porte, nem na ousadia da concepção. Media quinze metros de largura, por dois e meio de altura. Estava impregnada das forças incontroláveis e misteriosas do inconsciente. Cícero Dias fez uma composição telúrica, cheia de desvarios e animada de uma convulsão subjetiva de enorme intensidade. Figuras voam no alto. Mostrou o universo visto a partir de Pernambuco ou do Brasil. Tanto que seu título era este: Eu vi o mundo...ele começava no Recife. Uma denominação ao mesmo tempo regional, nacional e internacional. A capital pernambucana estava representada. E igualmente o Rio de Janeiro.

5/3/2006 (c) Dept. Informática - PUC-Rio 4

Referênciaswww.inf.puc-rio.br/~casanova/

Database Systems: Achievements and Opportunities. 'Lagunita-I' NSF Invitational Workshop on the Future of Database Systems Research, Palo Alto, CA (Feb. 1990) SIGMOD Record and IEEE Data Engineering Bulletin, 19:4 (Dec. 1990), pp. 6-22.Communications ACM, 43:10, (Oct. 1991), pp. 110-120.http://www-db.stanford.edu/~hector/lagi.ps

Database Research: Achievements and Opportunities into the 21st Century. ‘Lagunita II’ NSF Workshop on the Future of Database Systems Research. San Jose, CA (May 1995)SIGMOD Record, 25(1): March 1996http://www-db.stanford.edu/pub/papers/lagii.ps

The Asilomar Report on Database Research. SIGMOD Record, 27(4): 74-80 (Dec. 1998)http://www.acm.org/sigmod/record/issues/9812/asilomar.html

The Lowell Database Research Self Assessment (June 2003)http://www-rocq.inria.fr/~abitebou/pub/LowellDatabaseResearchSelfAssessment.pdfhttp://research.microsoft.com/~gray/lowell/

5/3/2006 (c) Dept. Informática - PUC-Rio 5

Tópicos

• De onde vieram?– Década de 60 - Primórdios– Década de 70 - Gênesis– Década de 80 - Desenvolvimento– Década de 90 - Maturidade

• Onde estão?– O que aprendemos?– Onde estamos?

• Para onde vão?– The 1998 Asilomar Report– The 2003 Lowell Report– Resumo

5/3/2006 (c) Dept. Informática - PUC-Rio 6

Década de 60 - Primórdios

• Início da Década:– dados armazenados diretamente em arquivos

– problemas:• redundâncias e inconsistências

• dificuldade de acesso

• integridade lógica

• atomicidade das transações

• segurança

5/3/2006 (c) Dept. Informática - PUC-Rio 7

Década de 60 - Primórdios

• Final da Década:– sistemas de gerência de bancos de dados (SGBDs) pioneiros:

• IMS

• TOTAL

– problemas parcialmente endereçados:• redundância e inconsistências

• atomicidade das transações

• segurança

– problemas em aberto:• dificuldade de acesso

• integridade lógica

5/3/2006 (c) Dept. Informática - PUC-Rio 8

Década de 70 - Gênesis

• Início da Década:– CODASYL DBTG Report [1971] e ANSI/SPARC Report [1975]

EI

EC

EEEE Esquema Externo

Esquema Conceitual

Esquema Interno

5/3/2006 (c) Dept. Informática - PUC-Rio 9

Década de 70 - Gênesis

• Início da Década:– Modelo Relacional [1970]

• uma única estrutura de dados - relações

• álgebra relacional

• cálculo relacional

• formas normais: 1NF, 2NF, 3NF

– B-trees [1972]• índices em memória secundária para grandes volumes de chaves

5/3/2006 (c) Dept. Informática - PUC-Rio 10

Communications of the ACM, Vol. 13, No. 6, June 1970, pp. 377-387.

A Relational Model of Data for Large Shared Data BanksE. F. Codd

Abstract

Future users of large data banks must be protected from having to know how the data is organized in the machine (the internal representation). A prompting service which supplies such information is not a satisfactory solution. Activities of users at terminals and most application programs should remain unaffected when the internal representation of data is changed and even when some aspects of the external representation are changed. Changes in data representation will often be needed as' a result of changes in query, update, and report traffic and natural growth in the types of stored information.

Existing non inferential, formatted data systems provide users with tree-structured files or slightly more general network models of the data. In Section 1, inadequacies of these models are discussed. A model based on n-ary relations, a normal form for data base relations, and the concept of a universal data sub language are introduced. In Section 2, certain operations on relations (other than logical inference) are discussed and applied to the problems of redundancy and consistency in the user's model.

Key Words and Phrasesdata bank, data base, data structure, data organization;, hierarchies of data, network of data, relations, derivability, redundancy, consistency, composition, join, retrieval language, predicate calculus, security, data integrity

CR Categories3.70, 3.73, 3.75, 4 20, 4.22, 4.29

5/3/2006 (c) Dept. Informática - PUC-Rio 11

Década de 70 - Gênesis

• Metade da Década:– SGBDs relacionais pioneiros (SGBD-Rs):

• System R [1976] e Ingres [1976]

• introdução da maior parte da tecnologia utilizada nos SGBDs atuais, incluindo a linguagem SQL [1974]

– problemas endereçados:• redundância e inconsistências

• atomicidade das transações

• segurança

• dificuldade de acesso

– problemas parcialmente endereçados:• integridade lógica

5/3/2006 (c) Dept. Informática - PUC-Rio 12

Década de 80 - Desenvolvimento

• Início da Década:– Codd recebe o ACM Turing Award em 1981

5/3/2006 (c) Dept. Informática - PUC-Rio 13

Década de 80 - Desenvolvimento

• Início da Década:– SGBD-Rs distribuídos pioneiros (SGBDD-R):

• System R* e Ingres Distribuído

– extensões da tecnologia relacional para tratar BDDs• exemplo: otimização de consultas distribuídas

– desenvolvimento de novas tecnologias para tratar de novos problemas

• exemplo: 2PC protocol para terminação de transações

5/3/2006 (c) Dept. Informática - PUC-Rio 14

Década de 80 - Desenvolvimento

• Metade da Década:– SGBDs Orientados a Objeto (SGBD-OO):

• baseiam-se no paradigma de orientação a objeto (OO), como as linguagens de programação OO (LP-OO)

– SGBD-OO x LP-OO persistente

– endereçam requisitos de aplicações não-convencionais:• objetos complexos

• encapsulamento

• transações longas

– SGDB-OOs pioneiros:• O2 [1988]

• Exodus [1986]

• ORION [1986]

5/3/2006 (c) Dept. Informática - PUC-Rio 15

Década de 80 - Desenvolvimento

• Metade da Década:– "Próxima geração" de SGBD-Rs:

• combinam características de OO com o modelo relacional

• expandem a arquitetura de SGBDs com novas possibilidades

• exemplo: otimizadores de consultas configuráveis

– Exemplos:• POSTGRES [1986]

• STARBURST

5/3/2006 (c) Dept. Informática - PUC-Rio 16

Década de 80 - Desenvolvimento

• Final da Década:– Maturidade da tecnologia de SGBDs:

• vários SGBD-Rs com desempenho aceitável– DB2, Ingres, Oracle, Sybase, Informix

– padronização do SQL [1986, 1989]

5/3/2006 (c) Dept. Informática - PUC-Rio 17

Década de 90 - Maturidade

• Início da Década:– Maturidade da tecnologia de SGBDs:

• primeiros SGBD-OOs comerciais

• SGDBs paralelos / dedutivos / ativos / tempo real / ...

• avanços em padronização de interfaces e interoperabilidade

5/3/2006 (c) Dept. Informática - PUC-Rio 18

Década de 90 - Maturidade

• Metade da Década:– novas classes de aplicações:

• Data Mining

• Bibliotecas Digitais

• Vídeo-sob-demanda

• Animação

• Hipermídia e Multimídia em geral

• GIS

• Meteorologia

• Física de Alta Energia (HEP)

5/3/2006 (c) Dept. Informática - PUC-Rio 19

Earth Observation SystemData and Information System

EOS Network

CSMS

EDOS

FOS

DAAC

SCFSCF

satélites

outros

EDOS - EOS Data and Oper. SystemFOS - Flight Operations Segment

DAAC - Distributed Active Archive CenterSCF - Scientific Computing FacilityCSMS - Comm. and System Mng System

5/3/2006 (c) Dept. Informática - PUC-Rio 20

Década de 90 - Maturidade

• Final da Década:– WIIS - Web Information Integration System:

• sistema para tratar dados oriundos de vários Web sites

• WIIS devem lidar com:– um grande número de Web sites

– maior autonomia dos componentes

– dados semi-estruturados

• Enfoque de Data Warehouse: – dados são extraídos das fontes e armazenados em uma warehouse

• Enfoque de Multi-SGBD:– dados são mantidos nos Web sites

– consultas são decompostas e enviadas aos vários Web sites

5/3/2006 (c) Dept. Informática - PUC-Rio 21

Década de 90 - Maturidade

• Final da Década:– Jim Gray recebe o ACM Turing Award em 1998

5/3/2006 (c) Dept. Informática - PUC-Rio 22

Tópicos

• De onde vieram?– Década de 60 - Primórdios– Década de 70 - Gênesis– Década de 80 - Desenvolvimento– Década de 90 - Maturidade

• Onde estão?– O que aprendemos?– Onde estamos?

• Para onde vão?– The 1998 Asilomar Report– The 2003 Lowell Report– Resumo

5/3/2006 (c) Dept. Informática - PUC-Rio 23

O quê aprendemos?

• Otimização de Consultas– otimização de consultas declarativas (“select-from-where”)

– variações, dependendo de…• modelo de dados

• arquitetura

• Processamento de Transações– processamento de transações ACID

– variações, dependendo de…• necessidades das aplicações

• arquitetura

5/3/2006 (c) Dept. Informática - PUC-Rio 24

Onde estamos?

+4.9%35.7%35.7%IBM+Informix

2003

18.7%

32.6%

2002

17.7%

33.4%

Market Share

+11.0%Microsoft

+2,4%Oracle

Crescimentodas vendas(2002-2003)

Fornecedor

+5.1%6.93B6.6BTOTAL

Vendas

2003

2.79B

2.34B

0.299B

2002

2.69B

2.48B

0.116B

+3.8%Windows

-5.9%Unix

+257.7%Linux

Crescimentodas vendas*(2002-2003)

SistemaOperacional

(*) Vendas de licenças novas

5/3/2006 (c) Dept. Informática - PUC-Rio 25

Onde estamos?

• Dados sobre dados em 2002:– 5 milhões de terabytes,

ou 5 exabytes, de informação nova

– 92% da informação armazenada em meio digital

– 0,4 milhões de terabytesenviados por e-mail

[http://www.sims.berkeley.edu/research/projects/how-much-info-2003/]

5/3/2006 (c) Dept. Informática - PUC-Rio 26

Onde estamos?

©2005 Google - Pesquisando 8.058.044.651 páginas na Web

5/3/2006 (c) Dept. Informática - PUC-Rio 27

Onde estamos?

Oracle compra a PeopleSoftpor 7.7B USD

(outubro de 2004)

IBM compra a Informixpor 1B USD (abril de 2001)

5/3/2006 (c) Dept. Informática - PUC-Rio 28

Onde estamos?

Microsoft Announces 2006 Target Date for Broad Availability Of Windows "Longhorn" Client Operating System

5/3/2006 (c) Dept. Informática - PUC-Rio 29

Onde estamos?

Vem aí o Estado policial-informático(Elio Gaspari – O Globo 17/04/05)

• LexisNexis e ChoicePoint (2001)– contas de 3 bilhões de cartões de crédito

– 139 milhões de números de telefones

– 200 milhões de pleitos de seguradoras

– mais 100 milhões de fichas criminais

• ChoicePoint (2001)– nome e endereço dos eleitores mexicanos

– passaportes dos cidadãos da Costa Rica

– RG e telefone de todos os argentinos

– registro civil de todos os colombianos

5/3/2006 (c) Dept. Informática - PUC-Rio 30

Onde estamos?

• Trivialização do uso da tecnologia de BDs (!)

• Proliferação de produtores e consumidores de dados (!!)

• Aplicações armazenando da ordem de petabytes (!!!)

5/3/2006 (c) Dept. Informática - PUC-Rio 31

5/3/2006 (c) Dept. Informática - PUC-Rio 32

Tópicos

• De onde vieram?– Década de 60 - Primórdios– Década de 70 - Gênesis– Década de 80 - Desenvolvimento– Década de 90 - Maturidade

• Onde estão?– O que aprendemos?– Onde estamos?

• Para onde vão?– The 1998 Asilomar Report– The 2003 Lowell Report– Resumo

5/3/2006 (c) Dept. Informática - PUC-Rio 33

The 1998 Asilomar Report - Research Agenda

• SGBD “Plug and Play”– bancos de dados sem necessidade de administração

– “descoberta automática de informação” baseada em metadados capturando a semântica dos dados

– temas de pesquisa:• bancos de dados auto-configuráveis

• bancos de dados ricos em metadados

5/3/2006 (c) Dept. Informática - PUC-Rio 34

The 1998 Asilomar Report - Research Agenda

• Federações de bancos de dados em larga escala– a Web é um grande sistema federado

• bilhões de clientes Web acessam milhões de bancos

– temas de pesquisa:• otimizadores de consultas para federações com milhares de bancos

• execução de consultas baseada em “acumulação de evidência”

• integração assistida por ferramentas

5/3/2006 (c) Dept. Informática - PUC-Rio 35

The 1998 Asilomar Report - Research Agenda

• Revisão da arquitetura tradicional de SGBDs– necessidade de operação contínua

– necessidade de armazenar grandes volumes de dados• sensoriamento remoto, TV digital, …

– tema de pesquisa:• revisão da maioria dos componentes de um SGBD

5/3/2006 (c) Dept. Informática - PUC-Rio 36

The 1998 Asilomar Report - Research Agenda

• Integração de dados estruturados e semi-estruturados– XML = dados organizados hierarquicamente

– tema de pesquisa:• unificação das tecnologias de banco de dados e da Web

5/3/2006 (c) Dept. Informática - PUC-Rio 37

The 2003 Lowell Report - Research Agenda

Lowell Workshop =

Asilomar Workshop revisited

(same old people)

5/3/2006 (c) Dept. Informática - PUC-Rio 38

The 2003 Lowell Report - Research Agenda

• Tópicos cobertos– Integration of Text, Data, Code and Streams– Information Fusion– Sensor Data and Sensor Networks– Multimedia Queries– Reasoning about Uncertain Data– Personalization– Data Mining – Self Adaptation– Privacy– Trustworthy Systems – New User Interfaces - Semantic Web? – One Hundred Year Storage– Query Optimization

5/3/2006 (c) Dept. Informática - PUC-Rio 39

The 2003 Lowell Report - Research Agenda

• Integração de texto, dados, código e seqüências– novas classes de aplicações geram dados de vários tipos:

• aplicações científicas ou de engenhariageram grande volume de dados exóticos

– repensar SGBDs para tratar uniformemente dados exóticos• armazenamento e consulta a dados exóticos

• pipelining de dados produzidos por processos de análise

• integração de dados em um “grid” na Web

5/3/2006 (c) Dept. Informática - PUC-Rio 40

The 2003 Lowell Report - Research Agenda

• Integração de texto, dados, código e seqüências– observações:

• formatos de dados auto-descritivos (i.e., XML) podem ser úteis para transferência de dados, mas não para armazenamento

• novas arquiteturas não devem ter compromissos com o passado,

embora

fornecedores devam manter a estratégia de desenvolver extensões incrementais de SQL e XML

5/3/2006 (c) Dept. Informática - PUC-Rio 41

The 2003 Lowell Report - Research Agenda

• “Fusão de Informação”– a Web facilita o desenvolvimento de aplicações

envolvendo várias empresas• empresas interessadas em interagir com fornecedores e clientes,

trocando dados, para fornecer melhores produtos e serviços

– repensar SGBDs para integrar milhões de fontes de informação em tempo real

• a questão espinhosa de heterogeneidade semântica permanece…

5/3/2006 (c) Dept. Informática - PUC-Rio 42

The 2003 Lowell Report - Research Agenda

• Redes de Sensores– redes de sensores possibilitam uma nova classe de aplicações

de monitoramento que geram seqüências de dados

– repensar SGBDs para tratar redes de sensores• processamento de consultas sobre seqüências de dados:

– necessitam adaptação a perfis de geração de dados rapidamente mutáveis

– plano de execução deve acompanhar modificações no perfil

• gerência de redes de sensores requer formas mais sofisticadas deintegração de dados

5/3/2006 (c) Dept. Informática - PUC-Rio 43

The 2003 Lowell Report - Research Agenda

• Tratamento de incerteza– incerteza ou imprecisão nos dados ocorrem em medições

científicas, posição de objetos móveis, …

– repensar SGBDs para tratar incerteza ou imprecisão nos dados • “rastreabilidade” dos dados

• processamento de consultas deve passar...– de um modelo determinístico, onde consultas possuem resultado exato

– para um modelo estocástico, onde o processador de consultas acumula evidência para prover respostas cada vez mais precisas

5/3/2006 (c) Dept. Informática - PUC-Rio 44

The 2003 Lowell Report - Research Agenda

• Personalização– resposta de consulta deve depender de perfil do usuário

– repensar SGBDs para oferecer personalização baseada em modelos do usuário e em metadados

• personalização e tratamento de incerteza requer verificar se o sistema está produzindo a resposta “correta”

5/3/2006 (c) Dept. Informática - PUC-Rio 45

The 2003 Lowell Report - Research Agenda

• “Armazenamento secular”– informação arquivada pode desaparecer

– repensar SGBDs para oferecer armazenamento perene dos dados

• migrar conteúdo para novos formatos e manter hardware e software para processar os dados

• gerenciar metadados junto com os documentos

5/3/2006 (c) Dept. Informática - PUC-Rio 46

Resumo

• Modelos flexíveis de consultas– “suposição do mundo aberto”

• resultados incompletos ou imprecisos

– consultas a fontes autônomas “pelo melhor esforço”

– rastreabilidade + explicação + personalização

5/3/2006 (c) Dept. Informática - PUC-Rio 47

Resumo

• Modelos transacionais flexíveis– “non ACID transactions”

• ações compensatórias / ações alternativas

– transações sobre fontes autônomas “pelo melhor esforço”

– rastreabilidade + explicação + personalização

5/3/2006 (c) Dept. Informática - PUC-Rio 48

Resumo

• Projeto baseado em padrões e reuso de especificações– “padrões para tudo” – domínios, metadados, padrões estruturais

– interoperabilidade deve se tornar um não-problema(ou continuará a ser um problema insolúvel)

O2O2O1O1

I2I2I1I1

RORO

IRIR

DB1DB1 DB2DB2

5/3/2006 (c) Dept. Informática - PUC-Rio 49

E o futuro ?

5/3/2006 (c) Dept. Informática - PUC-Rio 50

“Consider a future device for individual use, which is a sort of mechanized private file and library. It needs a name, and, to coin one at random, "memex" will do. A memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility. It is an enlarged intimate supplement to his memory.”

“... The process of tying two items together is the important thing. When the user is building a trail, he names it, inserts the name in his code book, and taps it out on his keyboard. ...”

“Thereafter, at any time, when one of these items is in view, the other can be instantly recalled merely by tapping a button below the corresponding code space. Moreover, when numerous items have been thus joined together to form a trail, they can be reviewed in turn, rapidly or slowly, by deflecting a lever like that used for turning the pages of a book. ...”

“Wholly new forms of encyclopedias will appear, ready made with a mesh of associative trails running through them, ready to be dropped into the memex and there amplified....”

by Vannevar Bush

The Atlantic Monthly; July, 1945; As We May Think; Volume 176, No. 1; pages 101-108.

O futuro é previsível ?

5/3/2006 (c) Dept. Informática - PUC-Rio 51

O futuro é imprevisível !

5/3/2006 (c) Dept. Informática - PUC-Rio 52

www.inf.puc-rio.br/~casanova/