Les clouds, du buzz à la vraie science
-
Upload
frederic-desprez -
Category
Travel
-
view
1.514 -
download
0
description
Transcript of Les clouds, du buzz à la vraie science
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Les clouds, du buzz à la vraie science
Frédéric DesprezLIP ENS Lyon/INRIA Grenoble Rhône-AlpesEPI GRAAL/Avalon
14/06/2010
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Hype !
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
INTRODUCTION
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Introduction• Il est moins coûteux de louer de la capacité de calcul et de stockage que de
monter un centre de calcul
• La transparence d’utilisation des grandes plates-formes distribuées est primordiale
• Pouvoir gérer ces ressources de manière dynamique et élastique!
• Un long historique du calcul distribué à plus ou moins grande échelle• Des supercalculateurs et grappes aux Clouds en passant par les grilles
• Des besoins applicatifs de plus en plus importants et variés• Explosion du nombre et du volume de données
• Utility computing• “We will probably see the spread of computer utilities, which, like present electric and
telephone utilities, will service individual homes and offices accross the country”
Professeur John McCarthy, 1961 !!!
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Qu’est-ce que le Cloud Computing ?
Un paradigme de calcul distribué émergeant dans lequel les données et les services sont disponibles dans des data centers extensibles et peuvent être accédés de manière transparente depuis des appareils (ordinateurs, téléphones, grappes, …) connectés par Internet
Credit: IBM Corp.
Cloud Computing
5ème génération d’architectures• 1970: Mainframes, • 1980: Client-serveurs,• 1990: Web, grilles,• 2000: SOA,• 2010: Clouds
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Cloud Computing• Né de
• La profusion de ressources (data centers)
• Une technologie de virtualisation mature et des communications à haut débit
• Quelques caractéristiques• Libre service à la demande
• Le consommateur récupère des ressources de calcul et de stockage à la demande (machines virtuelles)
• Accès réseau• Ressources, briques logicielles et applications disponibles à travers le réseau pour des
clients de tailles différentes
• Mise en commun de ressources• Data centers fournissant les ressources (machines, stockage, mémoire, BP réseau) pour
différents clients en mode partagé. Diminution des tâches de maintenance.
• « Elasticité » réactive et rapide• Croissance ou décroissance dynamique du nombre de ressources en fonction de la
demande et des besoins. Extensibilité !
• Service mesuré et facturation à l’usage• Reporting de l’utilisation des ressources
• Résilience• Continuité du service
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Constat : Coût
*Source : http://media.amazonwebservices.com/AWS_Cloud_Best_Practices.pdf
7
Inve
stis
sem
ent
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Une vue à 10000 pieds
SLAs
Services web
Virtualisation
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Grilles vs Clouds• Une vision partagée
• simplifier l’accès aux ressources distantes de la manière la plus transparente possible
• Technologie différente• Grappes et batchs vs datacenters et virtualisation
• Gestion de ressources• Statique vs dynamique
• Modèle de programmation• MPI/GridRPC vs MapReduce/scripts/workflows
• Modèle de sécurité• Certificats vs Web + SSL
• Des domaines applicatifs différents (pour l’instant!)• HPC/HTC vs Business
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Le calcul comme un service : un historique
1998 1999 2003 2006 2008
GridComputing
CloudComputing
Salesforces.com
Grid‘5000Infrastructure
IaaS
CloudComputing
Amazon EC2/S3
Eucalyptus IaaSOpen Source
Nimbus IaaSOpen Source
OpenNebula IaaSOpen Source
FP7 Reservoir
2009
Sun Open Cloud
MicrosoftAzureIBM
Blue Cloud
2007
HP FlexibleComputing
Services
2005
FutureGrid
Crédits: T. Priol, INRIA
20112010
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
MODES D’UTILISATION
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Cloud Computing: modes d’utilisation
• Infrastructure as a Service (IaaS)
• Le matériel est fourni sous forme de machines virtuelles sur lesquelles on installe son image disque
• Amazon EC2, Rackspace, GoGRID, Orange, …
• Platform as a Service (PaaS)
• On peut développer ses propres applications en utilisant les services fournis
• Google Apps, Windows Azure, Amazon S3, IBM CloudBurst et Websphere, …
• Software as a Service (SaaS)
• Des applications entières sont disponibles à distance
• Gmail, Googledocs, Facebook, Orange, IBM LotusLive, …
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Infrastructure as a ServiceAvoir accès à la demande à un grand nombre de ressources
virtualisées • Dynamicité, élasticité
• Paiement à la consommation
Concept de virtualisation• Le système d’exploitation n’est plus central et est un logiciel comme un autre !
• Le concept de machines virtuelles consiste à recevoir des instances de systèmes.
• Les ressources physiques sont partagées par plusieurs machines virtuelles
Exemples• Amazon EC2, RightScale, GoGrid, Orange Open Cloud, …
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Virtualisation
N0
VM0VM1 VM2
Nœud de calcul
Machines virtuelles s’exécutant sur un nœud de calcul
Crédits: T. Priol, INRIA
Proposé par IBM dans les années 60“Virtual Machines have finally arrived. Dismissed for a number of years as merely academic curiosities, they are now seen as cost-effective techniques for organizing computer systems resources to provide extraordinary system flexibility and support for certain unique applications”.Goldberg, Survey of Virtual Machine Research, 1974
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
VirtualisationPropriétés
➡ Isolement
➡ Portabilité
➡ Suspend/restart (et migration ?)
VM0
Machinevirtuelle
Crédits: T. Priol, INRIA
N0
Noeud de calcul
VM0 N1
Noeud de calcul
VM0
Machinevirtuelle Machine
virtuelle
?VM2
VM1
simulationApache
web server
Machine virtuelle Machine virtuelle
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Amazon Web Services : ContexteSite marchand amazon.com (1995)
• Trafic fluctuant
• Disponibilité
• Analyse de données
• Gestion de stock
• Large catalogue
International : latence (réplication géographique) => CDN
2006• La référence IaaS => PaaS
• On ne paye que ce qu’on utilise
• Plus de 20 produits
• Datacenters sur 5 régions géographiques
• Des nouveautés régulièrement
• Références : Dropbox, Slideshare, Netflix, Zinga …
Credits: Fabien Bousquet, Kalistic
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
AWS : Mise en placeInscription internet
Carte bancaire
Instantané• Console Web pour démarrer
• Pas d’attente de mise en place
• Pas de coût d’installation
Système ouvert / automatisable :
API
SDK
Outil
Credits: Fabien Bousquet, Kalistic
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Amazon Elastic Compute Cloud
A set of APIs and business models which give developer-level access to Amazon’s infrastructure and content:
Data As A ServiceAmazon E-Commerce Service
Amazon Historical Pricing
Search As A ServiceAlexa Web Information Service
Alexa Top Sites
Alexa Site Thumbnail
Alexa Web Search PlatformInfrastructure As A Service
Amazon Simple Queue Service
Amazon Simple Storage Service
Amazon Elastic Compute Cloud
People As A ServiceAmazon Mechanical Trunk
Credits: Jeff Barr, Amazon
Other toolsBD : RDS, SimpleDBMessaging : SNS, SQS, SESStockage : EBS, AWS Import/ExportCDN : CloudFront »« Calcul » : MapReduceDéploiement/Gestion : Beanstalk, CloudFormationSurveillance : CloudWatchRéseaux : Route 53, VPC
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Amazon Web Services
Calculer
Stocker Echanger
Elastic ComputeCloud (EC2)
Simple Storage Service (S3)
Simple QueueService (SQS)
Credits: Jeff Barr, Amazon
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Amazon Elastic Compute Cloud
From $.10 per server
hour
• Virtual Compute Cloud• Elastic Capacity• 1.7 GHz x86• 1.7 GB RAM• 160 GB Disk• 250 MB/Second Network• Network Security Model
Time or Traffic-based Scaling, Load testing, Simulation and Analysis, Rendering, Software as a Service Platform, Hosting
$.10 - $.18 per GB data transfer
• Provides on-demand processing power• Virtual machine images (Amazon Machine Image,
AMI)
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Amazon EC2 Concepts
Amazon Machine Image (AMI)• Bootable root disk• Pre-defined or user-built• Catalog of user-built AMIs• OS: Fedora, Centos, Gentoo, Debian,
Ubuntu, Windows Server• App Stack: LAMP, mpiBLAST, Hadoop• Limited to 10 GB
Instance• Running copy of an AMI• Launch in less than 2 minutes• Start/stop programmatically
Network Security Model• Explicit access control• Security groups
Inter-service bandwidth is free
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Types d’instancesInstance gratuite
Petites Instances – défaut
1.7 Go de Mémoire1 EC2 Compute Unit (1 virtual core avec 1 EC2 Compute Unit)160 Go de stockage d’instancePlateforme 32-bitPerformance I/O: Modérée
Large Instance
7.5 Go de Mémoire 4 EC2 Compute Units (2 virtual cores avec chacun 2 EC2 Compute Units)850 Go de stockage d’instancePlateforme 64-bitPerformance I/O: Elevée
Extra Large Instance
15 Go de Mémoire8 EC2 Compute Units (4 virtual cores avec chacun 2 EC2 Compute Units)1,690 Go de stockage d’instancePlateforme 64-bitPerformance I/O: Elevée
High-Memory Extra Large Instance
17.1 Go de Mémoire6.5 EC2 Compute Units (2 virtual cores avec chacun 3.25 EC2 Compute Units)420 Go de stockage d’instancePlateforme 64-bitPerformance I/O: Modérée
High-Memory Double Extra Large Instance
34.2 Go de Mémoire13 EC2 Compute Units (4 virtual cores avec chacun 3.25 EC2 Compute Units)850 Go de stockage d’instancePlateforme 64-bitPerformance I/O: Elevée
High-Memory Quadruple Extra Large Instance
68.4 Go de Mémoire26 EC2 Compute Units (8 virtual cores avec chacun 3.25 EC2 Compute Units)1690 Go de stockage d’instancePlateforme 64-bitPerformance I/O: Elevée
Applications à grand trafic, notamment les bases de données et les applications de mise en mémoire cache
http://aws.amazon.com/fr/ec2/instance-types/
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Types d’instances, suite High-CPU Medium Instance
1.7 Go de Mémoire5 EC2 Compute Units (2 virtual cores avec chacun 2.5 EC2 Compute Units)350 Go de stockage d’instancePlateforme 32-bitPerformance I/O: ModéréeNom API: c1.medium
High-CPU Extra Large Instance
7 Go de Mémoire20 EC2 Compute Units (8 virtual cores avec chacun 2.5 EC2 Compute Units)1690 Go de stockage d’instancePlateforme 64-bitPerformance I/O: ElevéeNom API: c1.xlarge
Quadruple Extra Large Instance Grappe de Calcul
23 Go de Mémoire33.5 EC2 Compute Units (2 x Intel Xeon X5570, quad-core architecture “Nehalem”)1690 Go de stockage d’instancePlateforme 64-bitPerformance I/O: Très Elevée (10 Gigabit Ethernet)Nom API: cc1.4xlarge
Les instances cette famille fournissent proportionnellement plus de ressources CPU avec une performance réseau améliorée et sont adaptées aux applications Calculs Haute Performance (HPC) et aux autres applications nécessitant un lien réseau.
http://aws.amazon.com/fr/ec2/instance-types/
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
EC2: Stockage
S3
EBS
Instance EC2
Instance store
Ephemeral disk
Copie de l’AMI / disque de bootLimité à 10 GB
Disque lié à l’instance sans coût additionnelNombre et taille variable en fonction du type d’instance
Non lié au cycle de vie de l’instanceNombre et taille libres
Données non persistantes => Données perdues si machine arrêtée (« terminate ») ou machine plantée
Données persistantes => Données non liées au cycle de vie de l’instance
SNAPSHOTCopie d’un EBS à un instant TStocké sur S3
Mount
Accès via API
Credits: Fabien Bousquet, Kalistic
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Amazon Simple Storage Service
$.15 per GB per monthstorage
• Object-Based Storage• 1 B – 5 GB / object• Fast, Reliable, Scalable• Redundant, Dispersed• 99.99% Availability Goal• Private or Public• Per-object URLs & ACLs• BitTorrent Support $.10 - $.18 per GB
data transfer
$.01 for 1000 to 10000 requests
Virtually infinite storage capacity
Provides permanence layer when EC2 nodes are not running
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Vue générale
Region
S3
bucket Zone
Instance EC2
Web
API
API
EBS
EC2
Mount
Sec
urity
Gro
up
AMI
Start with
S3
SNAPSHOT
Do snapshot
AMI
Credits: Fabien Bousquet, Kalistic
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Des clouds open sourceNimbus (Freeman and Keahey, University of Chicago)
• Client-side cloud-computing interface to Globus-enabled TeraPort cluster at University of Chicago
• Based on GT4 and the Globus Virtual Workspace Service– Great if local resources are GT4 proficient– Tutorials and documentation in “grid space”
Eucalyptus (Wolsky, University of Santa Barbara)• Web services based implementation of elastic/utility/cloud computing infrastructure
• Linux image hosting (IaaS)
Open Nebula (Montero & Llorente, DSA-Research at UCM)• Support for the Xen, KVM and VMware virtualization
platforms
• Access to Amazon EC2 and ElasticHosts clouds
• libvirt, EC2 Query API and OGC OCCI interfaces
• Open Stack
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Platform as a Service (PaaS)• Un ensemble d’outils (langages + support d’exécution) pour
développer, déployer et gérer des applications
• Pas de gestion de l’infrastructure sous-jacente (machines, réseaux, stockage, systèmes d’exploitation, …). Le support d’exécution gère le déploiement et le nombre de ressources.
• Mais contrôle de l’application et de la configuration de son environnement
• Exemples Microsoft Azure, Force.com, Google App Engine,IBM Cloudburst etWebsphere
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Microsoft Azure platformAnnounced 2008
Released 2010
What does it offer?• PaaS
• Datacenters on 3 continents (2 regions each)
• Pay as you go
• No installation cost
• Management through an onlineconsole
• Integration with Microsoft Visual Studio
• .NET interface
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Software as a Service (SaaS)• L’application elle-même est disponible à travers un navigateur
• Pas de gestion de l’infrastructure sous-jacente (machines, réseaux, stockage, systèmes d’exploitation, …)
• Exemples• Gmail, Google Apps, Salesforce.com, Orange, IBM LotusLive
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Modèles de déploiement
• Cloud publique
• Infrastructure (propriété du fournisseur) louée à n’importe qui
• Cloud privé
• Propriété d’une entreprise
• interne ou externe
• Cloud communautaire
• Mise en commun de ressources pour une communauté d’utilisateurs
• interne ou externe
• Cloud hybride
• Composition de plusieurs formes de Clouds, voir même de grilles
• Sky Computing
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Qui contrôle quoi ?
Crédits: P. Saulière, Microsoft
Informatique
Données
Applications
Machines virtuelles
Serveur
Stockage
Réseau
Hébergeur
Données
Applications
Machines virtuelles
Serveur
Stockage
Réseau
IaaS public
Données
Applications
Machines virtuelles
Serveur
Stockage
Réseau
PaaS public
Données
Applications
Machines virtuelles
Serveur
Stockage
Réseau
SaaS public
Données
Applications
Machines virtuelles
Serveur
Stockage
Réseau
Entreprise
Partage entreprise/fournisseur
Fournisseur
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
STANDARDS ET PROGRAMMATION
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Standards• Actuellement, surtout une utilisation des normes de l’Internet et des
architectures Web Services et SOA
• Besoins de standards pour assuré l’intéropérabilité entre les plates-formes et les applications• API de gestion des ressources
• OGF : Open Grid Forum• DMTF : Distributed Management Task Force• OCCI : Open Cloud Computing Interface
• API stockage Cloud• SNIA : Storage Networking Industry Association
• Intercloud• GICTF : Global Intercloud Technology Forum
• Aspects sécurité• CSA: Cloud Security Alliance
• Et d’autres• OMG, TM Forum, OASIS, ISO IEC-JTC 1, ITU-T, W3C, IETF, …
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Google MapReduceDeveloped by Google in 2003
Programming model: dataflow programming• Input & Output: each a set of key/value pairs
• Programmer specifies two functions:– map (in_key, in_value) -> list(out_key, intermediate_value)
– Processes input key/value pair– Produces set of intermediate pairs
– reduce (out_key, list(intermediate_value)) -> list(out_value)– Combines all intermediate values for a particular key– Produces a set of merged output values (usually just one)
• Inspired by similar primitives in LISP and other languages
• Example uses:– distributed grep web link-graph reversal– distributed sort web access log stats – term-vector per host inverted index construction– document clustering machine learning – statistical machine translation …
Open-source versions• Hadoop (java implementation of MapReduce + GFS + Bigtable)
Credits: J. Dean, S. Ghemawat, Google, Inc.http://hadoop.apache.org/
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
MapReduce
O1
D1
D2
Dm
O2
Datamap
map
map
reduce
reduce
data split map reduce
Data is split into m parts
1
map function is performed on each of these data parts
concurrently
2
A hash function maps the results of the map tasks to r reduce tasks
3
Once all the results for a particular reduce task is available, the framework executes the reduce task
4
A combine task may be necessary to combine all the outputs of the reduce functions together
5
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Google MapReduce: parallel execution
Credits: J. Dean, S. Ghemawat, Google, Inc.
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
SECURITÉ ET PANNES
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Sécurité et pannes
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Quelques problèmes de sécuritéUn des principaux freins à l’adoption !
• Quelques défis• Problèmes juridiques
• Localisation des données et des calculs• Propriété des données• Lois internationales
• Gestion de l’isolation
• Attraction des hackers
• Besoin de chiffrement à plusieurs niveaux
• Déplacements de données
• Perte de contrôle
• Mais aussi des avantages• Gestion des fautes et des pannes par un fournisseur externe
• Gestion automatisée de la sécurité
• Relative homogénéité des plates-formes
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
ET LA RECHERCHE ?
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
• Explosion du nombre de travaux de recherche autour des Clouds et de la virtualisation !
• Quelques challenges de recherche• Composition de services• Service Level Agreement (SLA)• Sécurité• Résistance aux fautes/pannes• Gestion de l’infrastructure• Ordonnancement et gestion élastique des ressources• Gestion de données• Accès transparent à des plateformes hybrides
• Multi-clouds• Nouveaux modèles
• économiques, énergie• Programmation des applications
• Nouveaux langages, nouveaux modèles
Et la recherche dans tout çà ?
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
CONCLUSIONS
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Conclusion• De nombreuses applications prêtes à être déployées sur les Clouds
à différents niveaux
• Les ressources sont disponibles en quantité !
• Nombreuses offres de Clouds publics et privés
• Notion de virtualisation et piles logicielles « mature »
• « Quelques » problèmes à traiter encore mieux• extensibilité, sécurité, gestion de données à grande échelle, tolérance aux fautes,
API entre Clouds, sky computing, énergie, standards, …• Notion de confiance dans cette nouvelle technologie !
• Le Cloud n’est pas prêt d’enterrer les supercalculateurs pour autant pour les grosses applications de simulation (architectures pétascales et bientôt exascales)
• Gros potentiel pour de nombreuses applications avec différentes approches (IaaS, PaaS, SaaS) voir une combinaison de ces approches (y compris avec des grilles).
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
DES QUESTIONS ?
Colloque Calcul intensif pour la biologie F. Desprez - 14/06/10
Quelques références• European Commission report on The Future of Cloud Computing
• http://cordis.europa.eu/fp7/ict/ssai/docs/cloud-report-final.pdf
• Cloud Strategy and Innovation Blog (I. Llorrente)• http://blog.cloudplan.org/
• Above the Clouds: A Berkeley View of Cloud Computing• http://www.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.html
• http://berkeleyclouds.blogspot.com/
• The NIST Definition of Cloud Computing• http://csrc.nist.gov/publications/drafts/800-145/Draft-SP-800-145_cloud-definition.pdf
• DRAFT Cloud Computing Synopsis and Recommendations• http://csrc.nist.gov/publications/drafts/800-146/Draft-NIST-SP800-146.pdf
• Cloud Computing Bible• B. Sosinsky, Wiley
• SIENA European Roadmap on Grid and Cloud Standards for e-Science and Beyond• http://www.sienainitiative.eu/Repository/FileScaricati/8ee3587a-f255-4e5c-aed4-9c2dc7b626f6.pdf
• Les Clouds: Buzzword ou révolution technologique• http://www.slideshare.net/desprez/les-clouds-buzzword-ou-rvolution-technologique-8238203