Persee Projet Athar_Indexation multilingue des monuments du Caire

Post on 15-Apr-2017

440 views 0 download

Transcript of Persee Projet Athar_Indexation multilingue des monuments du Caire

SCHEMA DE CHAÎNE DE TRAITEMENT PERSÉE

Création d’outils pour l'interrogation

de référentiels et l'établissement de liens

InVisu (USR 3103

CNRS/INHA)

Persée (UMS 3602/

Université de Lyon/CNRS/ENS Lyon)

IFAO (Institut Français

d’Archéologie Orientale,Le Caire, Egypte)

PARTENARIAT

CORPUS EXHAUSTIF - Travaux du Comité (annuel) : 1882-1953, 41 volumes - Index général (1914) - Documents iconographiques : 683 planches

OBJECTIFS

Numérisation des minutes et travaux

du Comité de Conservation des monuments de

l'art arabe

Indexation des noms de sites,

personnes, alignements sur des référentiels existants

(Geonames,etc. )

Enrichissements du texte grâce à la création

de lien avec des référentiels externes

Récolement du corpus

DOCUMENTS NON MASSICOTABLES DOCUMENTS MASSICOTABLES

Numérisation- Scanners de livres- Résolution : 400 dpi- Profondeur : 256 niveaux de gris et couleurs- Format : tiff non compressé- Contrôle qualité

Numérisation- Scanners de livres- Résolution : 400 dpi- Profondeur : 256 niveaux de gris et couleurs- Format : tiff non compressé- Images bitmap G4- Contrôle qualité

Intégration chaîne PerséeRenommage, binarisation (TiffG4)

Post traitements- Reconnaissance optique de caractère (OCR)- Redressement des images et pose des marges- Conversion de formats- Nettoyage des images et amélioration de leur qualité- Versement des données sur des serveurs d’objets (Aldo)- Versement sur un espace de sauvegarde

Documentation et indexation- Création de métadonnées bibliographiques et de structure- Balisage du texte intégral (niveaux de titres, références bibliographiques, illustrations, tableaux)- Indexation à partir des éléments d’un référentiel toponymique

Export XML : génération des données de diffusion, propagation et archivage

- Format des images diffusées : JPEG- container METS- md bibliographiques : DC, MODS, marcXML- texte intégral : TEI

Diffusion:

www.persee.fr

PropagationOAI-PMH, Z3950,

indexation Isidore, moteurs de recherche

web, etc.

ArchivageDonnées archivables

sur plateforme PAC (CINES)

Préparation matérielle et modélisation du corpus- Identification de chaque document et organisation du corpus- Description physique de chaque document- Constitution des lots de numérisation pour le prestataire

PRESTATAIRE PERSEE

PERSEE

INSTITUT FRANÇAISD’ARCHÉOLOGIE ORIENTALE

Titre de niveau 2

Titre de niveau 2

Note biographique

Entrée nommée

Le projet Athar. Les monuments du Caire.Indexation topographique multilingue des monuments

de l’art copte et islamiqueAurélie MONTEIL

Persée - UMS 3602, Université de Lyon, École Normale Supérieure de Lyon, CNRS

Emmanuelle PERRIN InVisu- USR 3103, CNRS/INHA

Le projet « Athar. Les monuments du Caire » a pour ambition la numérisation et la diffusion des Travaux du Comité de Conservation des monuments de l'art arabe. Cette publication annuelle identifie, recense et décrit les monuments anciens de l'art copte et islamique.

Pour les historiens et les historiens de l'art qui étudient l'historiographie de l'art copte et islamique ainsi que l'histoire de la préservation du patrimoine égyptien, ce corpus constitue une source d'informations unique. Sa valeur est principalement fondée sur le nombre de monuments décrits, sur la somme d'informations tech-niques issues des chantiers de restauration, sur la prosopographie des acteurs impliqués ainsi que sur les nombreuses archives photographiques. Par son grand intérêt scientifique mais également à cause de la dégradation progressive des anciens monu-ments (aujourd'hui sur les 800 monuments identifiés depuis 1880, 300 ont déjà disparu), il est important d'oeuvrer pour la conservation des archives des monuments du Caire.

Le projet Athar, porté par le Laboratoire InVisu (USR 3103 CNRS/INHA), l’UMS Persée et l’IFAO, a pour ambi-tion la diffusion en open access de la collection des Travaux du Comité de Conservation des Monuments de l'art arabe, ainsi qu'une indexation TEI du texte intégral. Pour ce faire, l'équipe InVisu a développé un référen-tiel sur les monuments du Caire permettant de regrouper autour d’une même forme de référence, ses diffé-rentes variantes orthographiques et typographiques ; l’UMS Persée a adapté son module d'encodage TEI afin de pouvoir exploiter ce référentiel. Le projet permettra, via le portail Persée, l'exploitation du référentiel pour le parcours de la collection et la recherche de monuments, la diffusion des documents, et l'interopéra-bilité avec d'autres systèmes d'informations (data.bnf.fr, geonames, etc...)

LE PROJET ATHAR

Le laboratoire InVisu en partenariat avec l’IFAO fournit l’ensemble de la collection à l’UMS Persée. Cette der-nière prend en charge une partie de la numérisation du fond, la création des métadonnées et leur diffusion. Le travail documentaire est entièrement réalisé par le laboratoire InVisu.

Ce travail documentaire est une procédure de mise en valeur de la structure éditoriale des documents et constitue une forte plus-value à la simple diffusion des images de pages numérisées. Le corpus est composé de quatre types documentaires distincts : les procès-verbaux, les rapports, les index et listes de monuments. Cette première description éditoriale est ensuite complétée par une phase de documentation permettant de mettre en lumière la composition de chaque section. La documentation met en évidence la structure interne de ces unités documentaires (titres de niveau, bibliographie, tableaux, illustrations). C'est au cours de cette étape que les liens sont réalisés vers le référentiel (SKOS) via l'application développée par Persée, JGalith.(cf « L'indexation toponymique : le module TEI »).

LA DIFFUSION DES DONNÉES

Le lien entre l’index et les documents est réalisé à partir de «JGalith», l’outil développé par l’UMS Persée et permettant la création de métadonnées. L'index créé par le laboratoire InVisu est exploité dès la phase de numérisation :- il constitue un dictionnaire des formes de référence et des formes associées utilisé pour améliorer les résultats de l'OCR- il est exploité pour localiser les différentes formes de nom de chaque monument et les associer avec la forme de référence correspondante.Lors de la production des données destinées à la diffusion, les liens sont établis entre le texte encodé en TEI et l'index toponymique produit par le la-boratoire InVisu. A l’issu du travail documentaire, l’index multilingue obtenu offre une synthèse des différentes formes typographiques existantes pour le nom.

L’UMS Persée propose la diffusion de l’ensemble de la collection des Travaux du Comité de Conservation des monuments de l'art arabe numérisée et de ses metadonnées. Le portail se caractérise par une politique active de mise à disposition des données en open access et open data permettant un échange et une réutilisation des données. Cela se manifeste concrètement par un accès libre, gratuit et illimité aux données, la possibilité de ré-cupérer les metadonnées produites, assurer l’alimentation et permettre le moissonnage d’autres plateformes. Une base de données triplestore est mise en place afin de permettre les requêtes via le langage SPARQL.

L’interopérabilité assure une propagation rapide des données, elle est promue par la mise à disposition d'un large éventail de documents XML res-pectant les normes et standards en vigueur dans chaque communauté (TEI, MARC, METS, etc.) ainsi que les outils permettant leur indexation. Au terme du travail effectué sur cette collection, les différentes métadonnées produites alimenteront d’autres portails : le Sudoc et les catalogues de bi-bliothèques (MarcXML), d'autres plateformes de diffusion open access en sciences humaines et sociales telle qu’Isidore (Dublin Core, TEI).

Enfin, ce référentiel sera intégré au web sémantique fondé sur les principes du linked data. Ce projet prévoit le versement des référentiels dans la base IdRef (format MADS) afin d'enrichir les notices d’autorités toponymiques du Sudoc. Cette démarche vient compléter la collaboration déjà en-gagée entre la BnF et le laboratoire InVisu autour de l'indexation du fond Beniminio Facchinelli (photographe actif au Caire de 1876 et 1895). L’index des toponymes a également servi à alimenter le géocorpus Geonames et propose une géolocalisation des sites.

Colloque Humanités numériques et antiquités. 2-4 septembre 2015, MSH-Alpes, Grenoble

Exemple du travail documentaire réalisé sur une page

L’INDEXATION TOPONYMIQUE: LE MODULE TEI

LE TRAITEMENT DOCUMENTAIRE DU CORPUS

Exemple de liens créés vers le réferentiel SKOS sur une page numérisée

Illustration: Bab El Vizir, entre 1873 et 1895. Beniminio Facchinelli. Fond BNF Gallica, Recueil. Photographies positives. Oeuvre de Beniami-no Facchinelli. [http://gallica.bnf.fr/ark:/12148/btv1b10508622s]

Concrètement, au cours de la phase de documentation, des zones de texte sont localisées dans l'image de page, leur contenu extrait par OCR peut-être corrigé. Par comparaison à l'index, des liens sont proposés vers les entrées les plus proches. La sélection d'une des propositions permet d'établir un lien entre la forme ren-contrée dans le texte, son équivalent corrigé présent dans l'index et la forme de référence correspondante. Une fois le lien vers l'index établi, il donnera lieu à la génération, dans le document TEI final, à la description d'une entité nommée sous la forme : <name ref="http://cairogazetteer.fr/invisu/re-source/ark:/67717/4c36b1ef9438cdf9209bed0b6c4cf184">Mosquée Sultan Aboul-Ela</name>Ici, la référence à l’URI du concept SKOS se rajoute au terme recherché « Mosquée Sultan Aboul-Ela ». Cette forme normalisée permet une exploitation riche par le portail Persée mais également par d'autres outils. Sur le portail Persée, le regroupement de plusieurs variantes orthographiques autour d'une seule forme de référence permettra l'affichage de celle-ci sous la forme d'un nuage de mots et proposera un accès direct à toutes les occurrences dans l'ensemble de la collection.

Le projet Athar.Indexation multilingue des monuments du Caire.

Emmanuelle PerrinInVisu, USR 3103, CNRS, INHA

Aurélie MonteilPersée - UMS 3602Université de Lyon, École Normale Supérieure de Lyon, CNRS

Résumé :Le projet « Athar. Les monuments du Caire » a pour ambition la numérisation et la diffusion des Travaux duComité de Conservation des monuments de l'art arabe. Cette publication annuelle identifie, recense et décrit les monuments anciens de l'art copte et islamique.

Pour les historiens et les historiens de l'art qui étudient l'historiographie de l'art copte et islamique ainsi quel'histoire de la préservation du patrimoine égyptien, ce corpus constitue une source d'informations unique.Sa valeur est principalement fondée sur le nombre de monuments décrits, sur la somme d'informations techniques issues des chantiers de restauration, sur la prosopographie des acteurs impliqués ainsi que sur les nombreuses archives photographiques. Par son grand intérêt scientifique mais également à cause de la dégradation progressive des anciens monuments (aujourd'hui sur les 800 monuments identifiés depuis 1880, 300 ont déjà disparu), il est important d'oeuvrer pour la conservation des archives des monuments du Caire.

Le projet Athar, porté par le Laboratoire InVisu (USR 3103 CNRS/INHA), l’UMS Persée et l’IFAO, a pour ambition la diffusion en open access de la collection des Travaux du Comité de Conservation des Monuments de l'art arabe, ainsi qu'une indexation TEI du texte intégral. Pour ce faire, l'équipe InVisu a développé un référentiel sur les monuments du Caire permettant de regrouper autour d’une même forme de référence, ses différentes variantes orthographiques et typographiques ; l’UMS Persée a adapté son module d'encodage TEI afin de pouvoir exploiter ce référentiel. Le projet permettra, via le portail Persée, l'exploitation du référentiel pour le parcours de la collection et la recherche de monuments, la diffusion des documents, et l'interopérabilité avec d'autres systèmes d'informations (data.bnf.fr, geonames, etc...)Le projet « Athar. Les monuments du Caire » a pour ambition la numérisation et la diffusion des Travaux duComité de Conservation des monuments de l'art arabe. Cette publication annuelle identifie, recense et décrit les monuments anciens de l'art copte et islamique.Pour les historiens et les historiens de l'art qui étudient l'historiographie de l'art copte et islamique ainsi quel'histoire de la préservation du patrimoine égyptien, ce corpus constitue une source d'informations unique.Sa valeur est principalement fondée sur le nombre de monuments décrits, sur la somme d'informations techniques issues des chantiers de restauration, sur la prosopographie des acteurs impliqués ainsi que sur les nombreuses archives photographiques.Par son grand intérêt scientifique mais également à cause de la dégradation progressive des anciens monuments (aujourd'hui sur les 800 monuments identifiés depuis 1880, 300 ont déjà disparu), il est important d'oeuvrer pour la conservation des archives des monuments du Caire.Le projet Athar, porté par le Laboratoire InVisu (USR 3103 CNRS/INHA), l’UMS Persée et l’IFAO, a pour ambition la diffusion en open access de la collection des Travaux du Comité de Conservation des Monuments de l'art arabe, ainsi qu'une indexation TEI du texte intégral. Pour ce faire, l'équipe InVisu a développé un référentiel sur les monuments du Caire permettant de regrouper autour d’une même forme de référence, ses différentes variantes orthographiques et typographiques ; l’UMS Persée a adapté son module d'encodage TEI afin de pouvoir exploiter ce référentiel. Le projet permettra, via le portail Persée, l'exploitation du référentiel pour le parcours de la collection et la recherche de monuments, la diffusion des documents, et l'interopérabilité avec d'autres systèmes d'informations (data.bnf.fr, geonames, etc...)

Mots-clés : SKOS, XML TEI, interopérabilité, indexation multilingue, MarcXML