Solutions logicielles pour bibliothèques numériques

De Bibliopedia
Aller à la navigation Aller à la recherche

Cet article Wiki a fait l'objet d'une étude plus poussée et publiée sous forme de livre : Bibliothèques numériques : logiciels et plateformes / Mathieu Andro, Emmanuelle Asselin, Marc Maisonneuve. (Sciences et techniques de l'information). - Paris : ADBS, 2012. - 1 vol. (351 p.). - ISBN 978-2-84365-140-3 et d'une présentation au salon Documation

Introduction : Le lien avec les spécifications de numérisation[modifier | modifier le wikicode]

Dans la cadre d'un projet de développement d'une bibliothèque numérique, la question des outils de diffusion est fondamentale. En effet, il n'est pas recommandé d'entreprendre la numérisation avant d'avoir répondu à cette question car le risque serait important de ne pas pouvoir exploiter la totalité des fichiers issus de la numérisation, en particulier en ce qui concerne les fichiers de métadonnées.

Malheureusement, lorsqu'on cherche à répondre à cette question de la diffusion, on constate rapidement qu'il existe peu de synthèses relatives aux solutions logicielles et aux plateformes pour bibliothèques numériques. C'est la raison d'existence du présent article, la forme wiki permettant, en outre, de l'enrichir par la participation éventuelle de professionnels de la numérisation en bibliothèque qui pourront d'ailleurs, s'ils le souhaitent, être associés à sa publication ultérieure.

S'agissant de la numérisation à proprement parler, il est nécessaire de l'évoquer rapidement. En 2010, il semble que les bibliothèques françaises adoptent majoritairement le format TIFF (entre 300 et 600 dpi selon les formats) pour les fichiers de conservation, bien que le PNG soit utilisé par Persée et qu'il soit conseillé par le Centre Informatique National de l'Enseignement Supérieur (CINES) s'agissant toutefois de documents peu illustrés. Le format JPEG 2000 devrait probablement prendre la place du TIFF dans les années à venir, à en croire Robert Miller, directeur du département des livres du site archive.org contacté sur ce sujet. S'agissant, à présent, des fichiers de diffusion, le format JPEG (entre 72 dpi pour les écrans et 150 dpi pour les imprimantes) est majoritairement utilisé dans les bibliothèques françaises mais il devrait également être supplanté par le JPEG 2000. Le format PDF devrait se maintenir et, pour les liseuses ebooks, c'est le format EPUB qui devrait probablement s'imposer dans les années à venir. Pour conclure ce rapide paragraphe sur la numérisation, voici un exemple de cahier des charges pour un appel d'offres de numérisation.

Les différents logiciels[modifier | modifier le wikicode]

Greenstone[modifier | modifier le wikicode]

Développé par la Nouvelle Zélande en collaboration avec l'UNESCO.

Caractéristiques :

  • Communauté importante de développeurs dans le monde
  • Facile à installer et à paramétrer. Ne nécessite qu'une connaissance de base en HTML pour paramétrer l'interface
  • OAI-PMH
  • Conversion des métadonnées UNIMARC - MARC21 - Dublin Core
  • Compatible avec XML/TEI : http://www.nzetc.org

Références de sites :

Liens :

expoMuseo[modifier | modifier le wikicode]

expoMuseo est une plateforme open source dédiée à la diffusion de contenus culturels numérisés sous forme de catalogues ou d'expositions virtuelles. L'architecture d'expoMuseo est constituée du CMS Joomla! comme moteur et de briques logicielles développées par Lab XXI. L'utilisation d'un des CMS les plus utilisés dans le monde est une garantie de pérénité et d'autonomie pour les utilisateurs de la solution.

Caractéristiques :

  • Communauté importante de développeurs dans le monde
  • Facile à installer et à paramétrer.
  • Respecte les standards du web.
  • Passerelle avec les systèmes intégrés de gestion de bibliothèque.
  • Passerelle avec les système de gestion de bibliothèque numériques.
  • Briques logicielles Lab XXI :
    • moissonneur OAI-PMH.
    • système de diffusion unique d'image haute définition (aucune limite de taille).
    • affichage des données au sein des notices.
    • Moteur de recherche par arborescence.
    • Moteur de recherche à facettes.
    • Moteur de recherche plein text.
    • Partage sur les réseaux sociaux.
    • jeux intéractifs pour les plus jeunes.
  • Autres fonctionnalités :
    • système de lecture sous forme de livre numérique (flipbook), avec recherche plein text (pdf, pdf alto).
    • compatibilité totale avec les 7000 + extensions disponibles pour Joomla!

Références de sites :

Liens :

Divvalib[modifier | modifier le wikicode]

Développé par la société Amanager filiale du groupe i2S

Divvalib est un service en mode SaaS (software as a Service) de publication et gestion de collections numériques. Avec Divvalib il est possible de mettre en place une bibliothèque numérique sans avoir à se soucier de l’architecture informatique associée. Divvalib s’appui sur un certain nombre de briques développées dans le cadre du projet de recherche et développement Polinum notamment dans les domaines de la sémantique texte et sémantique image. Divvalib est disponible en version commerciale depuis Juillet 2010.

Caractéristiques de DivvaLib:

  • Moteur de recherche industriel avec : affinage par facettes, recherche full texte, soundex, lemmatisation
  • Représentations chronologiques, sémantiques, cartographiques des requêtes
  • navigation par un mur 3D d’images dans la Bibliothèque
  • Annotation collaborative
  • Expositions virtuelle
  • visualisation flash et AJAX des livres
  • Zoom pyramidal sans limitation de taille d'image (exemple)
  • Espace personnel et gestion de communautés (groupe de discussion par centre d'intérêt, messagerie interne, forum)
  • Entrepôt et moissonnage OAI PMH (exemple de données disponibles sur Gallica)
  • compatible avec Zotero
  • import Z3950


Référence de site :

Liens :

Pleade[modifier | modifier le wikicode]

Pleade, progiciel initialement destiné à la publication et à la diffusion d'instruments de recherche en archivistique [1], est devenu un portail documentaire. Les documents que Pleade peut publier et diffuser sont en : EAD, CSV (converti automatiquement en XML), XMLMarc, TEI, DublinCore pour l'instant.

  • Pleade dispose d'un panier (par base de documents et pour les images), d'un historique de recherche, de l'impression, etc.
  • Pleade intègre une visionneuse HTML qui fonctionne sans plugin et qui utilise deux formats d'images : JPEG et TIFF pyramidale pour les très grands formats.
  • Pleade permet de créer des entrepôts OAI et de les exposer, par défaut, au format EAD, DublinCore et DC qualifié.
  • La visionneuse de Pleade dispose d'un module d'indexation (Paléographique) qui peut être utilisé pour permettre la correction de l'OCR. Cet outil fait un export TEI des données saisies. Un Workflow permet la gestion des annotateurs et la validation des notices saisies.

Pleade est basé sur SDX qui est une plateforme de développement pour la publication et la diffusion de corpus de documents XML (moteur de recherche Lucene).

Caractéristiques :

  • Compatible avec XML/TEI/BiblioML/
  • Possibilité d'importer métadonnées à partir d'un SIGB

Références de sites de bibliothèques numériques :

Références de portails :

Liens :

DigiTool[modifier | modifier le wikicode]

Développé par la société Ex Libris.

Caractéristiques :

  • Importation possible des métadonnées depuis le SIGB
  • La conversion des notices UNIMARC en MARC21 puis Dublin Core peut être assurée par Ex Libris.
  • Signalement possible des mentions :"Vous souhaitez financer la numérisation de ce livre, cliquez ici" (puis délégation de service public pour numérisation à la demande)
  • Le système est compatible avec OAI-PMH.
  • Pas de thésaurus, mais possibilité de remplacer cette fonction par la création d'une arborescence de collections correspondant aux sujets de CADIC.
  • L'outil statistique ne semble pas optimal mais il serait possible d'incorporer Google Analytics ou un logiciel libre de statistique.
  • Le balisage TEI est toujours possible mais ne sera pas exploité par DigiTool (pas de création d'index sur les termes encodés) car le schéma XML METS a été choisi.

Références de sites :

Liens :

Générateur de collections numériques[modifier | modifier le wikicode]

Logiciel libre (en PHP MySQL) développé pour les bibliothèques Canadiennes

Caractéristiques :

  • Métadonnées : EAD, METS et Dublin Core en cours de développement, pas de projet TEI pour le moment
  • Les métadonnées peuvent être importées
  • Thésaurus possible
  • Pas de statistiques, ni de gestion d'embargos, ni de RSS, ni de DSI.
  • Le GCN peut être utilisé par une seule organisation pour effectuer ses propres descriptions ou encore il peut être installé en "catalogue collectif" multi-sites qui intègre les descriptions d'un plus ou moins grand nombre d'institutions contributrices

Plus de détails sur le forum de GCN

Liens :

Mnesys portail[modifier | modifier le wikicode]

Caractéristiques :

  • Format xml EAD et dynamiquement Dublin Core qualifié
  • Importation possible de notices UNIMARC
  • Compatible OAI-PMH
  • Outil de saisie des sommaires avec lien vers pages
  • Encodage TEI sur les images. Pour le faire sur le texte : nécessiterait développements
  • Outil de feuilletage en 3D (Flash)
  • Création d'expositions virtuelles
  • Flux RSS

Références :

Liens :

Fedora Commons[modifier | modifier le wikicode]

Libre mais nécessite un développeur.

Références de sites :

Liens :

Content dm[modifier | modifier le wikicode]

Développé par l'OCLC.

Références de sites :

Liens :

Adobe Content Server[modifier | modifier le wikicode]

Développé par Adobe.

Caractéristiques :

  • Outil de zoom : Zoomify
  • Moteur de recherche : Verity
  • Importation dynamique des métadonnées à partir du numéro de la notice du SIGB

Références de sites :

Liens :

Albulle[modifier | modifier le wikicode]

Logiciel libre et gratuit.

Caractéristiques :

  • Communauté de développeurs
  • Pas d'importations de métadonnées depuis un SIGB
  • Compatible OAI-PMH
  • Base de donnée MySQL. Les notices bibliographiques des ouvrages sont en outre converties en fichier XML (Dublin Core)
  • Le texte intégral OCRisé n'est pas indexé par les moteurs de recherche
  • Possibilité de constituer des paniers
  • Possibilité de flux RSS sur les nouveautés

Liens :

Bases MySQL[modifier | modifier le wikicode]

Caractéristiques :

  • Possibilité de développements peu couteux en interne
  • Risque d'être tributaire du personnel ou de la société qui a développé l'interface la plupart du temps en PHP et qui permet d'interroger la base MySQL

Références de sites :

  • Bibliothèque numérique de Roubaix
  • Bordeaux 1
  • cartulaires numérisés à l'Ecole de Chartes
  • Bibliothèque numérique de la Maison de l'Orient et de la Méditerranée (Digimom)

Autres solutions logicielles[modifier | modifier le wikicode]

Les différents portails[modifier | modifier le wikicode]

Il n'existe malheureusement pas, en France, de mutualisation d'une plateforme de diffusion à l'image de ce qui existe pour les archives ouvertes par exemple (une plateforme générale : http://hal.archives-ouvertes.fr et des vitrines pour chaque institution : http://hal-pasteur.archives-ouvertes.fr, http://hal-mnhn.archives-ouvertes.fr, http://hal.ird.fr...)

Les rares collaborations dans le domaine de la diffusion de contenus numérisés se limitent, pour le moment, au moissonnage de métadonnées (Gallica et Europeana) ou au simple signalement de corpus et projets de numérisation (Michael pour le ministère de la culture et NUMES pour celui de l'Enseignement Supérieur). Mais concernant les plateformes de diffusion des documents numérisés, chaque bibliothèque est donc contrainte, pour le moment, de développer sa propre plateforme "dans son coin", ce qui peut coûter cher (de 100 000 à 200 000 €) et pour un résultat pas toujours pérenne et optimal. C'est ce qui explique aussi que la majeure partie de ce qui est numérisé par les Bibliothèques de France (hors BnF) n'est pas diffusé en ligne, ces dernières ne disposant pas toujours des moyens humains et financiers nécessaires au développement de plate-formes de diffusion.

les projets d'entreprises françaises[modifier | modifier le wikicode]

e-corpus[modifier | modifier le wikicode]

Développé par le Centre de Conservation du Livre, association liée au Centre InterRégional de Conservation du Livre (société prestataire de numérisation, restauration et conservation), e-corpus est une bibliothèque numérique collective et patrimoniale qui répertorie et diffuse de multiples documents : manuscrits, archives, livres, journaux, estampes, enregistrements sonores, vidéos... Dans un premier temps orientée vers les pays méditerranéen, cette bibliothèque, sponsorisée par l'Union Européenne, la Région PACA et la ville d'Arles, élargit son périmètre thématique. Les tests réalisés sur cette plateforme en décembre 2009 font état d'une bibliothèque numérique satisfaisante :

  • prise en main facile
  • métadonnées adaptées à des projets de bibliothèques
  • visualisation assez satisfaisante
  • possibilité de bénéficier d'une interface personnalisée respectant l'identité de chaque institution : bsg.e-corpus.org

avec quelques inconvénients :

  • difficulté de chargement et de visualisation de certaines images
  • quelques bugs qu'il est toutefois possible de contourner et qui sont en cours de correction
  • difficulté à créer une hiérarchie entre collections, corpus, pièces...
  • imports de métadonnées possible mais après plusieurs essais

Liens :

Polinum[modifier | modifier le wikicode]

POLINUM est un projet de recherche et développement collaboratif, regroupant un consortium de partenaires privés (Arkhenum : prestataire de numérisation, I2S : Scaners, Isako : OCR et workflow, Exalead : moteur de recherche à facettes) et publics (CEA list : sémantique et LaBri : traitement d'images, laboratoires de recherche en informatique sur Bordeaux) et qui a lancé une campagne de communication importante. Ce projet est soutenu par 2 partenaires publics. Il est financé par l'Union européenne (Feder axe I) et le Conseil régional d'Aquitaine. Localisé à l'Université Bordeaux I, Polinum dispose d'un budget de 4 millions d'euros pour 36 mois. La plateforme devrait être opérationnelle en mai-juin 2010.

Le développement de solutions performantes de valorisation des documents numérisés est un des axes de recherche et développement de Polinum. Dans ce cadre la les technologies de bases sont développées dans le projet et industrialisées dans un produit appelé [[#Divvalib|Divvalib].

Lien :

Demat Factory[modifier | modifier le wikicode]

Initié par la société de numérisation Safig associée à la société informatique Jouve, à la société spécialisée en OCR A2iAn à un laboratoire informatique de Paris VI (LIP6) et à un laboratoire informatique du CNAM (Cédric), le projet Demat factory, à l'instar du projet Polinum vise à harmoniser numérisation et diffusion. Ce projet est doté de 5,7 millions d'euros sur 3 ans.

Caractéristiques :

  • Jouve peut proposer également Numérisation, Impression à la demande et Assistance à maîtrise d'ouvrage
  • OAI PMH
  • Serveur SRU
  • Gestion de thesaurus et de listes d'autorités
  • Ajout des synonymes du mot saisi par l'usager à l'interrogation
  • Authentification Shibboleth

Liens :

Les projets publics[modifier | modifier le wikicode]

Enseignement Supérieur : Persée[modifier | modifier le wikicode]

Programme national soutenu par le Ministère de l'Enseignement Supérieur et de la Recherche.

Chaîne de production et portail de diffusion.

Chaîne de production développée au sein de l'Université Lyon 2, utilisation à Paris 5.

Portail de diffusion développé par la société informatique Linagora et par l'Université Lyon 2.

La direction de Lyon 2 a toutefois décidé le 7 février 2011 de mettre fin à la convention-cadre soutenant l'existence du programme. Cette décision prendra effet le 10 mai 2011.

Caractéristiques :

  • Adapté aux documents imprimés
  • Numérisation destructive ou non
  • Métadonnées : METS, Dublin Core, MODS, Marc XML, MADS (pour autorités). Importation possible de métadonnées depuis un SIGB.
  • Texte intégral : TEI, Erudit schema (développé à Montréal pour les articles)
  • Interopérabilité : OAI-PMH (avec Cairn et revues.org), Z39.50, OKI/OSID (permet d'avoir une interface unique lorsqu'on recherche les articles d'une revue quelque soient les succession d'éditeurs et d'interface d'éditeurs qui l'ont publiée).
  • Identifiant articles : DOI (est facturé en fonction du chiffre d'affaires, donc peu onéreux)
  • Navigation : Persée s'appuie sur une présentation arborescente des revues à laquelle les chercheurs sont habitués, et propose également des navigations transversales par rebonds (citations, auteurs, nuage de tags).
  • Statistiques : via Google Analytics (villes et institutions d'origine, mots clés saisis dans les moteurs de recherche etc...). Certification COUNTER en cours.
  • Conservation : L'ensemble des revues présentes sur le portail Persée est en cours d'archivage. C'est le CINES (Centre Informatique National de l'Enseignement Supérieur), en collaboration avec l'équipe Persée, qui assure cette mission.

Développements :

  • Lyon 2 travaille actuellement à sa segmentation afin de pouvoir l'adapter à des projets locaux car de nombreuses universités avaient manifesté leur intérêt pour une réplication.
  • Des développements informatiques sont possibles : adaptation à d'autres types de documents que les revues, importation possible de métadonnées depuis un SIGB, possibilité de contributions extérieures.

Références de sites :

Liens :

Enseignement Supérieur : Calames[modifier | modifier le wikicode]

Catalogue Collectif des manuscrits, Calames propose désormais la conservation des manuscrits numérisés et leur visualisation.

Liens :

Bibliothèque Nationale de France : Gallica[modifier | modifier le wikicode]

Gallica est une bibliothèque numérique accessible gratuitement sur internet, constituée majoritairement de documents libres de droits – ou dont les droits de diffusion ont été négociés par la BnF avec leurs ayants droit – issus des collections de la BnF, mais aussi des fonds numérisés d'environ 300 bibliothèques partenaires.

Grâce à d’importants programmes de numérisation concertée et des partenariats d’interopérabilité, Gallica n’est plus seulement une plateforme de consultation des documents conservés à la BnF, mais elle est une bibliothèque numérique collective et le véritable vecteur de la coopération numérique entre la BnF et les autres bibliothèques. La version actuelle de Gallica est un bon exemple de bibliothèque numérique réussie.

Gallica propose plus de 3 millions de documents début 2016 :

  • 650 000 livres
  • 70 000 manuscrits
  • 900 000 images
  • 1 500 000 fascicules de presse et de revues
  • 40 000 partitions
  • 35 000 enregistrements sonores
  • 350 000 objets

Lien :

Europe : Europeana[modifier | modifier le wikicode]

Europeana moissonne les métadonnées d'autres portails via leurs réservoirs OAI-PMH. C'est un agrégateur. Il n'est pas question, pour le moment, d'héberger les documents numériques eux-mêmes.

Lien :

UNESCO World Digital Library[modifier | modifier le wikicode]

Projet développé par l'UNESCO et la Bibliothèque du Congrès. Objectifs qualitatifs et non quantitatifs (vitrine).

Lien :

Les projets privés internationaux[modifier | modifier le wikicode]

Sites de partage de documents[modifier | modifier le wikicode]

Jouant le rôle de YouTube ou DailyMotion mais pour les livres, ces sites de partage de documents n'offrent pas, pour le moment, de garanties d'archivage pérenne, ni de critères d'interrogation très avancés, mais des visionneuses satisfaisantes.

Liens :

Seul ISSUU a pu être testé de façon convaincante (les autres sites ne permettent pas de décharger des documents suffisamment volumineux). Divvaroom est partenaire du projet Polinum. La visualisation sur ISSUU est optimale, même si les métadonnées sont très limitées et peu adaptées au patrimoine. La fonction "embed" permet d'incorporer le visualiseur, en code HTML, dans ses propres pages web (cf exemple). Il ne reste plus ensuite qu'à créer des liens depuis ses notices bibliographiques vers ce type de page web.

Microsoft Digitization Project[modifier | modifier le wikicode]

Projet développé par Microsoft pour concurrencer Google Books. Projet abandonné. Les 300 000 documents numérisés ont été cédés à archive.org.

Google Books[modifier | modifier le wikicode]

Bibliothèque numérique la plus importante sur le web. Pour le moment, Google ne cherche pas à augmenter le nombre de ses partenariats en France. La Bibliothèque Municipale de Lyon est partenaire. La Bibliothèque nationale de France est en discussion. Google demande une exclusivité de 25 ans pour l'utilisation commerciale des documents numérisés (afin de vendre des fac simile à la demande et assurer une position dominante à son moteur de recherche). Néanmoins, les bibliothèques restent libres de diffuser les documents sur d'autres portails (archive.org est ainsi constituée pour une majeure partie de documents numérisés par Google).

Lien :

Les projets internationaux à but non lucratif[modifier | modifier le wikicode]

Wikipedia[modifier | modifier le wikicode]

Projets porté par Wikipedia :

Liens :

Hathi Trust[modifier | modifier le wikicode]

Annonce plus de 6 millions de livres numérisés (dont 1 million en libre accès).

Participants : Utah State University, Cornell University Library, Dartmouth College, Triangle Research Libraries Network, Princeton University Library, Yale University Library, New York Public Library, Columbia University. Automne 2010 : adhésion de l'Université de Madrid

Payant.

Fonctionnalités :

  • Possibilité d'interroger en plein texte dans toute la plate-forme (contrairement à archive.org)
  • Gestion des droits d'accès aux oeuvres protégées (restrictions à la bibliothèque qui les a numérisées)
  • Bien adapté aux documents présentant des subdivisions (périodiques, archives)
  • Propose des cartes géographiques dynamiques, des nuages de mots...
  • Archivage pérenne

Liens :

Internet Archive (archive.org)[modifier | modifier le wikicode]

Développé par une organisation américaine à but non lucratif (membre de l'Open Content Alliance), utilisant des logiciels libres, archive.org est, à l'heure actuelle, l'un des seuls concurrents crédibles de Google Books. Elle propose près de 2 millions de documents numérisés en 2010 et a bénéficié à ses débuts de 300 000 ouvrages numérisés par Microsoft suite à l'abandon de son projet Microsoft Live Book Search.

Chaque bibliothèque partenaire peut y déposer les documents qu'elle a numérisés et disposer de sa propre interface, avec son logo, son url, son graphisme et ses statistiques sur le modèle de l'essai que nous avons réalisé : archive.org/details/bibliothequesaintegenevieve

Les fichiers images se chargent par HTTP ou FTP et sont convertis automatiquement en formats EPUB et Kindle, (lecteurs ebooks), Daisy (malvoyants), DjVu (libre) et disposent d'un identifiant ark.

L'archivage sur des serveurs miroirs est réalisé sur 3 sites (US, Inde et Egypte).

L'OCR des documents est bien indexé par Google mais il n'est pas encore possible d'interroger le contenu des tous les documents via archive.org pour le moment.

Les collections de archive.org peuvent être moissonnées en OAI-PMH par la plate-forme Gallica de la Bibliothèque nationale de France. Voici, par exemple la liste des ouvrages diffusés sur archive.org par la Bibliothèque Sainte-Geneviève et moissonnés par Gallica.

Lien :

Quelques critères pour choisir un logiciel ou un portail[modifier | modifier le wikicode]

Voici quelques questions à se poser afin de se déterminer :


1. S'agit-il d'une solution libre ou propriétaire ? Le développement a-t-il été assuré en interne ou en externe ? Quel en a été le coût approximatif ? Existe-t-il une solution de maintenance ou une communauté importante de développeurs ?

2. Permet-elle l'importation des métadonnées (depuis un SIGB par exemple) et sous quels formats ? Est-il possible de la synchroniser avec un catalogue collectif comme le SUDOC ? En d'autres termes, est-il nécessaire de resaisir ou de corriger les métadonnées ?

3. Est-elle compatible OAI/PMH ?

4. Est-elle basée sur une structure de base de données ou sur des fichiers XML ? Quelles sont les normes adoptées pour les fichiers XML ? Qu'est ce qui est traité en XML (métadonnées, texte océrisé, tables des matières, fichiers de correspondance des pages etc). Dans le cas d'une base de données , de laquelle s'agit-il ? Quelles sont les tables utilisées ?

5. Gère-t-elle aussi bien des images que du texte (natif ou OCRisé), et est-il possible d'encoder ce texte en TEI afin de générer des index par exemple? Le texte et les métadonnées peuvent-ils être indexés par les moteurs de recherche du web (Google...) ?

6. Quelle est la visionneuse utilisée ?

7. Quel est le moteur de recherche utilisé ? Quelles sont ses particularités ? Quels sont les différents types de recherche proposés ? Quels sont les éléments proposés à la recherche : métadonnées, tables, texte, autre ?

8. Est-il possible de décharger le document complet ou une partie du document sous forme de PDF ou dans d'autres formats (compatibilité avec des lecteurs ebooks) ?

9. Est-elle adaptée à plusieurs types de documents : livres, thèses, périodiques, articles, manuscrits, livres anciens, incunables, iconographies, estampes, enluminures, objets... ?

10. Y-a-il possibilité pour les usagers de soumettre des corrections d'OCR, d'encoder en TEI, d'insérer des tags ? Des services sont-ils proposés avec la recherche : panier, export vers des logiciels de gestion bibliographique, RSS sur les nouveautés, DSI sur des équations de recherche, rebonds dynamiques vers d'autres ressources ?

11. Offre-t-elle les possibilités suivantes : gestion de thésaurus, statistiques de consultation (ville, institution, mot clé, lien d'origine), personnalisation satisfaisante de la présentation, paramétrage de durées d'embargos pour pour des documents qui ne sont pas encore libres de droits ?

Source : Questionnaire diffusé sur la liste ADBS

Esquisse de tableau de comparaison technique des logiciels et des portails[modifier | modifier le wikicode]

Greenstone Persée Pleade DigiTool Générateur de collections numériques Mnesys portail Adobe Content Server Lodel/Albulle Bases MySQL Portail e-corpus Portail Polinum Portail archive.org
Quest. 1 : pérennité Libre, communauté internationale de développeurs Libre, développé par la société Linagora Libre, version 3 développée par la société AJLSM (versions antérieures, par une communauté de développeurs) DigiTool est une solution « propriétaire » particulièrement pérenne du fait de la croissance continue et des investissements réalisés par le groupe Ex Libris. DigiTool incorpore des composants Open Source (par exemple JHOVE). Tous les développements et la maintenance (support global) sont réalisés par Ex Libris. La communauté des utilisateurs dispose en outre du site EL Commons qui permet de mutualiser les développements sur la base d’API ouvertes. Libre (PHP-MySQL), Etat canadien Propriétaire, petite société française Propriétaire, très grosse société internationale logiciels libres et gratuits possédant chacun une communauté de développeurs Libre, communauté importante de développeurs, mais base sur mesure parfois difficile à interpréter et à maintenir Libre, administré par le Centre de Conservation du Livre (Arles) Solution propriétaire développée par Amanager (60 personnes dont 35 ingénieurs) Libre, communauté très importante (concurrent crédible de Google)
Quest. 2 : importation SIGB Oui, Marc21 ? Oui, EAD, CSV (converti automatiquement en XML), XMLMarc, TEI, DublinCore DigiTool peut être configuré pour importer tous les types de métadonnées XML : MARC, Dublin Core, METS, EAD, etc. Il est possible de programmer des chargements réguliers de métadonnées à partir de catalogues collectifs ou de bases externes. ? Import direct possible UNIMARC et EAD, import d'autres formats après conversion ? Non ? Oui, selon modèle Excel. Import dublin core, marc21 et xml prévus pour juin 2010 Oui, CSV, XML, MARC21. Synchronisation prévue avec SIGB ?
Quest. 3 : OAI-PMH Oui ? Entrepôts OAI exposés, par défaut, au format EAD, DublinCore et DC qualifié Oui. DigiTool comporte un moissonneur et un entrepôt OAI-PMH. ? Oui ? Oui Oui Prévu pour juin 2010 Moissonneur OAI + serveur OAI. Divvalib intègre les standard du web sémantique à venir avec une modélisation des données au format RDF. ?
Quest. 4 : XML / BDD ? ? xml Les objets numériques peuvent être stockés localement dans un système de fichiers en réseau (NFS), ou distants (URL). Les métadonnées relatives aux objets numériques sont définies dans des « boîtes XML » stockées dans une base de données Oracle. Le système peut être configuré pour gérer toute information XML : métadonnées, texte intégral, table des matières, etc. La description de la base Oracle est accessible aux utilisateurs DigiTool. base de données MySQL xml ? base de donnée MySQL base de donnée MySQL xml Fichier XML avec métadonnées, texte intégral si disponibles ?
Quest. 5 : Texte intégral TEI possible ? Indexation Google mais pas toujours de bonne qualité Image+texte, bonne indexation Google Image+texte, TEI, indexation Google, OAI, DublinCore. DigiTool gère tous types d’objets numériques : images, vidéos, sons, texte intégral, etc. DigiTool supporte l’encodage TEI. L’exposition des métadonnées aux robots des moteurs de recherche peut s’effectuer via OAI-PMH. Les objets sont accessibles via une URL permanente. ? Image+texte, indexation Google ? texte intégral (via PDF multicouches) non indexé par google ? interrogation du texte intégral prévue pour mai 2010 Image+texte. TEI prévue. Fonctionnalités avancées de push de l’index pour le référencement dans les moteurs de recherches. Texte intégral
Quest. 6 : visualisation Pas de visionneuse développée avec Greenstone. L'outil libre Zoomify semble souvent être utilisé ? visionneuse HTML pour JPEG et TIFF pyramidale pour les très grands formats DigiTool comporte trois visionneuses intégrées :

Standard : formats d’images gérés par les navigateurs Web et JPEG2000 (zoom, rotation, affichage de plusieurs manifestations) ; fichiers texte : TXT, MS Word, PDF (via les plugins intégrés aux navigateurs Web). Visionneuse multipages : documents METS. Visionneuse EAD.

? Visionneuse 3D développée par Mnesys ? Albulle ? outil Microsoft tombé récemment dans le domaine public Divvabook : streaming avec tourne page et Divvazoom : zoom pyramidal ?
Quest. 7 : moteur Lucene ? Lucene Le moteur de recherche intégré à DigiTool a été développé par Ex Libris. Il offre de nombreuses possibilités de paramétrage et peut gérer de grands volumes de données. Les modes de recherche suivants sont proposés : recherche par mots (simple et avancée), balayage et catégories. Toute information indexable peut être recherchée : métadonnées, table des matières, résumés, texte intégral, etc. ? Nao XML Server ? moteur interne à Lodel, qui ne permet d'interroger le contenu des textes océrisés. Il n'y a qu'une recherche simple, avec "ou" par défaut ? ? Exalead (moteur multi facettes) Heritrix (moteur libre)
Quest. 8 : PDF PDF possible PDF possible PDF liés indexables, toutes les impressions sont générées en PDF L’objet numérique (PDF ou autre) est délivré en totalité à l’utilisateur après contrôle des droits d’accès. ? les PDF sont affichables et indexables ? PDF possible PDF possible PDF possible PDF possible, conversion e-PUB en ligne, filigranage invisible possible (traçabilité). PDF possible, mais aussi EPUB et Kindle, (lecteurs ebooks), Daisy (malvoyants), DjVu (libre)
Quest. 9 : type de doc. ? revues seulement pour le moment Tous types de documents DigiTool peut gérer tous les types de documents. ? Tous types de documents ? Tous types de documents ? Tous types de documents Tous types de documents (y compris son et vidéo) Tous types de documents
Quest. 10 : web 2.0 ? ? Indexation collaborative, panier (par base de documents et pour les images), historique de recherche, impression,.. Corrections OCR et encodage TEI par l’utilisateur : non.

Tags : non (géré par Primo). Panier : oui. Export vers les gestionnaires de notices bibliographiques : oui. Requêtes DSI : oui (envoi par courriel).

? Indexation collaborative d'images, ajout de commentaires à des notices, espace personnel avec dépôt d'images, flux RSS... ? RSS sur les nouveautés, possibilité de constituer un panier. ? RSS, Panier possible "ma bibliothèque", commentaires, tagging, compatibilité Zotero, RSS, suggestions de livres similaires. Prévu : Wiki correction d’OCR, encodage TEI par les utilisateurs RSS, compatible Zotero
Quest. 11 : fonctions avancées ? ? Création, gestion de thésaurus. Statistiques, personnalisation de la présentation. Gestion d’un thésaurus : oui (par collections ?)

Statistiques d’usage : oui. Interface publique personnalisable : oui sur 3 niveaux (basique : logo et CSS ; intermédiaire : HTML ; avancée). Gestion des embargos : oui (dans une certaine mesure).

? Outil thésaurus, statistiques via google analytics ? ? ? Thésaurus Dewey, statistiques, personnalisation de la présentation Statistique, exposition virtuelle, gestion page d'accueil + ajout de pages éditoriales, personnalisation du design par template css Statistiques, personnalisation de la présentation

Voici des tests qui ont été réalisés avec les mêmes documents sur différents portails : bibliotheque-numerique.fr


Esquisse de tableau de comparaison stratégique des solutions de diffusion[modifier | modifier le wikicode]

Choix 1 Développer une nouvelle plateforme Choix 1.1 Développer une plateforme seuls Choix 1.2 Développer une plateforme avec d'autres bibliothèques Choix 1.3 Développer une plateforme grâce à un mécénat avec une société privée Choix 2 Participer à une plateforme déjà existante Choix 2.1 Participer à e-corpus Choix 2.2 Participer à archive.org
Coûts financiers jusqu'à 200 000 € Entre 100 000 et 150 000 € Entre 150 000 et 200 000 € Gratuit (mécénat) Gratuit Gratuit Gratuit
Ressources humaines pour l'administration Faibles Faibles Faibles Adaptées Un peu justes à adpatées Un peu justes (association CICL, 2 administrateurs) Adaptées
Qualité Faible à moyenne Faible Optimale Optimale Moyenne à bonne Moyenne Bonne
Visibilité Faible à moyenne Faible Moyenne Bonne, mais inconvénients liés au partenariat avec une très grosse entreprise privée Moyenne à optimale Moyenne, inconvénients liés au partenariat avec une association privée Optimale (seul concurrent crédible de Google)
Pérennité Faible à moyenne Faible Moyenne Moyenne Moyenne à forte Moyenne Forte

Conclusion : La diffusion des documents sur archive.org et sur e-corpus est avantageuse dans tous les cas. Par contre, en l'absence de la possibilité d'héberger nos documents sur Gallica, la question de développer une nouvelle plate-forme mutualisée avec d'autres bibliothèques sur la base de spécifications pour un public de scientifiques reste posée, même si ce type de développement mériterait d'être pris en charge au niveau national, tous ministères confondus.

Exemple de fonctionnalités pour un projet collectif[modifier | modifier le wikicode]

Les bibliothèques françaises ne trouvant ni la possibilité de participer à Gallica (hormis la BNF), ni celle de participer à Google Books (hormis la Bibliothèque Municipale de Lyon), le développement d'une plateforme mutualisée pourrait se justifier car elle permettrait d'offrir un outil pérenne et de meilleure qualité tout en partageant les coûts de sa mise en œuvre. A condition que l'identité de chaque bibliothèque puisse être maintenue (logo, nom de domaine, graphisme, statistiques propres), une mutualisation pourrait être opportune. Si ce projet de mutualisation vous intéresse, merci de m'adresser un courriel à mathieu[POINT]andro[AT]yahoo[POINT]fr ou de rejoindre le groupe sur Facebook Voici un exemple de ce qui pourrait être développé. On peut estimer qu'une telle bibliothèque numérique, si elle parvient à proposer 10 000 livres, devrait espérer attirer plus de 20 000 visiteurs uniques par mois. La méthode agile semblerait plus adaptée à ce type de projet qu'un traditionnel cahier des charges.

Pour suivre l'avancement du projet

Formats et données de gestion, fonctionnalités de gestion[modifier | modifier le wikicode]

Il sera possible de référencer tous types de documents : des livres, des revues, des articles de revues, des thèses, des manuscrits, des images (enluminures, estampes, illustrations de livres, dessins, photos), des documents sonores et vidéos. Plusieurs bases de documents aux formats différents devront pouvoir cohabiter dans le système et être interrogeables par une même interface de recherche aussi bien que par des interfaces de recherche séparées spécifiques. Les métadonnées pourront être gérées dans différents formats XML, dont les formats suivants : Dublin Core, MODS, MarcXML, BiblioML (attention, semble abandonné), EAD, IPTC eux même incorporés dans du METS. Le format TEI sera également supporté. (voir annexe 5, modèle de format TEI pour la description des incunables). Ces métadonnées pourront être incorporées dans des fichiers METS. D'autres formats pourront être ajoutés par l'intégration et le paramétrage de nouvelles DTD. La majeure partie des données proviendra initialement de l'importation des notices des SIGB des bibliothèques. Un module d'import et de conversion à partir des formats d'échange UNIMARC et MARC21, mais aussi .CSV (format délimité), et autres formats paramétrables, permettra, au démarrage, de charger en masse les métadonnées fournies par les Bibliothèques (synchronisation avec des catalogues de bibliothèques comme le SUDOC). D'autres données gérées dans des formats non standards, mais exportables de leur base de données sous forme de requêtes SQL, devront être intégrées (données des enluminures et des reliures estampées à froid : voir Annexe 1). Préalablement à l'importation des données de chaque base, une table de conversion des métadonnées d'un format vers l'autre sera proposée par le prestataire sur le modèle de ce qui a été proposé par la Bibliothèque. Cette table définitive devra être validée par la Bibliothèque Sainte Geneviève. Les données devront aussi pouvoir être intégrées dans le système par le biais d'un client OAI qui ira les moissonner. Une interface de saisie avec un éditeur ergonomique permettra de saisir et de modifier ces métadonnées dans tous les formats. Elle permettra aussi d'effectuer une édition enrichie de certains textes numérisées, pour en identifier les sommaires par exemple (par balisage XML/TEI ou autre), et de rédiger des présentations associées aux documents. Ainsi, des articles ou des notices détaillées signés par les conservateurs pourront accompagner les documents numérisés. Ces présentations pourront apparaître sur les fac simile imprimés à la demande. La plateforme servira également à valoriser l'activité recherche de l'institution à l'instar d'une archive institutionnelle contenant les articles des conservateurs sous forme d'archives ouvertes. Les CV des auteurs et des conservateurs pourront apparaître accompagnés d'une liste dynamique de leurs articles et présentations d'ouvrages. Une gestion des droits d'édition devra permettre de proposer selon les cas la rédaction de documents de façon restrictive (authentification), modérée, ou libre. L'accès par login permettra de différencier les rôles avec leurs droits associés : Administrateur, Indexeur (professionnels), partenaire (universitaires ou érudits qui peuvent participer à l'encodage et/ou à la corrections de l'OCR), lecteur simple ou anonyme. Une gestion des statuts permettra de différencier l'état d'avancement de la numérisation des documents. En particulier, le chargement initial de notices sera fait avec le statut « Numérisation en cours » (ce qui permettra à d'autres bibliothèques d'identifier les programmes de numérisation en cours) puis les notices seront progressivement changées de statut pour afficher « Numérisé par la Bibliothèque X » ou « Si vous souhaitez en financer la numérisation de l'ouvrage, cliquez ici», pour les ouvrages que nous n'aurons pas encore pu numériser, faute de financements. D'autres statuts publics ou internes seront paramétrables pour suivre tous les états des documents (« vérification OCR en cours », par exemple). Des fonctions de communication (alertes mail et/ou fil RSS) en interne et vers l'extérieur seront associés aux statuts pour assurer le suivi du worklow. Ainsi, pour les ouvrages non encore numérisés, une alerte mail sera possible afin d'être prévenu de leur numérisation. D'autres champs de gestion ou d'information, internes ou publics (affichables) seront paramétrables de façon évolutive selon les besoins. Ainsi, pour les documents anciens, des champs supplémentaires sont à prévoir : numéro de référence d'un incunable, lien vers une autre base (base des reliures estampées à froid ou Calames, par exemple). Pour d'éventuels documents qui ne seraient pas libres de droits mais dont nous souhaiterions conserver une reproduction numérique sans pouvoir la diffuser, un embargo devra pouvoir être paramétré afin que les documents ne soient accessibles que par le staff jusqu'à leur date de passage au domaine public.

Outil de gestion des données : Un outil de modification globale des données sera disponible, associé à un outil de création de paniers disposant de fonctions avancées de recherche telles que décrites ci-dessous.

Accessiblité et visibilité des données[modifier | modifier le wikicode]

Métadonnées : Les métadonnées des documents devront être accessibles via un serveur OAI-PMH signalé dans les annuaires internationaux du type OAIster et permettant le moissonnage par d'autres bases comme Europeana, Gallica, Bibliothèques Virtuelles Humanistes, Incunabula Short Catalogue, Gesamtkatalog der Wiegendrucke. L'entrepôt OAI-PMH devra être conforme aux recommandations de la BnF. Le système devra aussi être interrogeable dans le cadre d'une recherche fédérée via tout Système d'Information (portail) : l'accès aux données devra donc pouvoir se faire par le biais d'URL explicites, ou au format OPEN URL. Son indexation par des moteurs de recherche comme Google, Bing ou Altavista, sera possible. Un utilitaire d'export des métadonnées sous différents formats paramétrables (MARCXML, Dublin Core, MODS, UNIMARC, CSV, XLS) devra également permettre de diffuser les données sur d'autres sites comme Google Books, archive.org, etc. Les métadonnées seront exportables et exploitables par le public sous format texte (en téléchargement ou via un envoi de mail par exemple), mais aussi dans les formats utilisés par les logiciels de gestion de bibliographie comme Zotero (compatible MODS et Dublin Core), EndNote et RefWorks. Le prestataire vérifiera les fichiers de métadonnées METS produits par le prestataire chargé de la numérisation.

Documents numériques : Chaque document électronique devra bénéficier d'une adresse URL stable et pérenne (liens permanents ARK) afin que les bibliothécaires puissent le signaler dans le catalogue national SUDOC et y saisir son URL en champs 856 ou 325 de l'UNIMARC. L'utilitaire d'export de masse des documents, ainsi que la fonction de téléchargement individuel proposée au public, supporteront, de manière évolutive, les formats compatibles avec la plupart des lecteurs ebooks sur le marché (format Kindle, EPUB, PDF, TXT, MOBI), les téléphones portables, les logiciels de reconnaissance vocale pour aveugles et malvoyants (compatibilité xml daisy). Enfin, des web services pourront être développés seront les besoins, soit pour l'export de données vers d'autres systèmes, soit pour l'intégration dynamique de données externes, et ceci, que ce soit pour les métadonnées ou les documents numériques eux-mêmes.

Fonctionnalités diverses[modifier | modifier le wikicode]

Noms des fichiers : Les éditeurs pourront nommer les pages numériser en recourant à des systèmes spécialisés non strictement numériques (ex : « fa1recto », « a1verso », « 8verso », « platsupérieur », etc…).

Indexation et recherche : Chaque document textuel sera entièrement OCRisé afin de permettre une recherche en texte intégral dans le corps du texte, et afin d'en permettre une bonne indexation par les moteurs de recherche du type Google. Un balisage XML/TEI devra pouvoir être possible afin de générer des index ciblés sur des termes identifiés dans le texte et de permettre une valorisation et une exploitation de son contenu (noms de lieux, dates, noms de personnes etc...). Cette constitution d'index permettra également de choisir une forme parmi plusieurs (par exemple, le même nom de personne écrit de manière diverses). Ceci permettra, à l'interrogation de l'index, d'accéder à toutes les formes. Des listes d'autorités ouvertes ou fermées devront également pouvoir être associés à des zones spécifiques des métadonnées (auteur, mots-clés sujets, etc.). Le système devra aussi permettre d'associer un thesaurus hiérachisé à une zone contrôlée de la notice. Plusieurs thésaurus différents pourront être gérés dans le système. Le thésaurus hiérarchisé actuellement utilisé par la BSG (Thésaurus François Garnier) devra pouvoir être importé pour permettre de poursuivre l'indexation des enluminures et leur interrogation. Le thésaurus comportera une hiérarchisation (termes génériques, termes spécifiques), mais aussi des synonymies (terme rejetté, terme associé) Il devra également être possible d'indexer les images au sein des documents numérisés afin de pouvoir effectuer des recherches iconographiques, mais aussi de permettre à des historiens et des paléographes d'ajouter le texte de documents trop anciens pour être OCRisés, ou d'effectuer en regard de l'image du texte, des corrections d'OCR et des balisages XML/TEI sur la version textuelle de l'image.

Organisation des données dans le système: Les documents numérisés pourront être distribués au sein d'une structure hiérarchisée permettant de créer des corpus et des collections (adapté pour les archives en particulier).

Fonctionnalités orientées « utilisateur » : L'utilisateur aura la possibilité de s'enregistrer des sessions afin d'annoter et d'ajouter des ouvrages dans un panier (MonCarnet 2.0 est une application web destiné à permettre la collecte, le classement, le partage et l’annotation électronique de ressources numériques moissonnables en OAI-PMH et pourra être utilisé). L'utilisateur pourra également télécharger (plusieurs formats : PDF multicouches image et texte OCR, formats ebooks supportés, JPEG, TIFF, PNG, etc...) et imprimer les documents. Il sera possible de créer une DSI de deux manières différentes : alerte email ou sous forme d'un flux RSS généré dynamiquement et correspondant à l'équation de recherche souhaitée (afin d'être prévenu de la numérisation d'un document ou de la numérisation de documents relatifs à un sujet). La base devra être aussi compatible avec les technologies RSS afin de pouvoir afficher les derniers ouvrages numérisés sur la page d'accueil.

Fonctionnalités « interactives » : Les utilisateurs pourront faire des propositions de correction des erreurs d'OCR sous forme de Wiki ou signaler des documents de mauvaise qualité. Possibilité sera également donnée aux usagers d'ajouter des commentaires, des notes et d'insérer des tags pour indexer les documents (folksonomie). Il sera enfin possible de suggérer la numérisation d'un ouvrage de notre catalogue. L'indication du nombre de fois que le document a été suggéré à la numérisation, ou commenté apparaîtra sur le site, mais aussi le nombre de fois qu'un lien vers un mécène a été cliqué.

Fonctionnalités liées au statut juridique du document : Le statut juridique lié aux droits divers (propriété, auteur...) du document électronique sera également affiché (droits restreints ou Creative Commons CC-by-nc-nd : paternité, pas d'utilisation commerciale sans autorisation, pas de modification).

Fonctionnalités liées au mécénat :

Pour les ouvrages numérisés, sur chaque page devra apparaître : "numérisation financée par la Bibliothèque X, l'institution Y, la fondation Z" (en fonction de l'origine du financement) et pour les ouvrages pas encore numérisés : "si vous souhaitez financer la numérisation pour N euros, merci de cliquer ici". Il sera possible d'accéder à une page "nos soutiens" et d'y afficher dynamiquement la liste de nos mécènes et soutiens par ordre décroissant du nombre de documents numérisés avec un lien vers la liste des documents qu'ils nous ont permis de numériser. Il sera possible aussi d'afficher tous les documents dont la numérisation reste à financer.

Reproduction des documents: Des liens permettront de demander à la Bibliothèque propriétaire de l'original, via un formulaire, une reproduction papier ou numérique en haute résolution des documents affichés, mais aussi dans certains cas d'accéder par un lien dynamique au site d'une société d'impression de facs similés à la demande avec laquelle une convention aura été signée (type Amazon BookSurge ou autre).

Statistiques : Un module statistique (de type Google Analytics) permettra de connaître l'origine géographique et institutionnelles des connexions, les mots clés utilisés dans le moteur de recherche, le nombre de téléchargements et d'impressions, le nombre de clics sur des liens pointant vers l'extérieur (institutions ou mécènes), le nombre de consultations de chaque document, les mots clés les plus recherchés. Chaque institution pourra accéder à ses propres statistiques de consultation.

Multilinguisme : Une version anglaise du site sera développée.

Personnalisation de l'interface : Afin que chaque bibliothèque partenaire du projet conserve son identité malgré son caractère collectif, en dehors de l'interface générale, devra être développé une vitrine avec un graphisme rappelant celui des sites web de chaque bibliothèque, un logo et une URL personnalisées par sous domaines (bsg.bibliotheque-numerique.fr, mazarine.bibliotheque-numerique.fr, sorbonne.bibliotheque-numerique.fr, paris8.bibliotheque-numerique.fr). Cette vitrine sera propre à chaque bibliothèque et portera exclusivement sur les documents qu'elle conserve, à l'image de ce qui existe par exemple pour les archives ouvertes HAL : une plateforme générale (http://hal.archives-ouvertes.fr) et des vitrines pour chaque institution (http://hal-mnhn.archives-ouvertes.fr, http://hal-pasteur.archives-ouvertes.fr, http://hal.ird.fr ...). Une arhitecture orientée service (SOA) sera privilégiée pour construire les plateformes de chaque institution.

Recherche[modifier | modifier le wikicode]

Niveaux de recherches : La solution logicielle devra être parfaitement adapté aux spécialistes tout en permettant au grand public de se délecter du patrimoine. C'est la raison pour laquelle, les recherches seront possibles à la fois à partir de références bibliographiques et par sujet avec 3 niveaux de recherche correspondant à divers niveaux de compétences en recherche bibliographique :

1- Recherche en texte intégral dans le document numérisé (textes) : avec surlignage sur l'image affichée en résultat de la zone géographique correspondant au texte OCRisé repéré (ALTO).

2- Recherche simple sur les métadonnées : "anywhere" (tous champs : mots du titre ou mot du sujet ou mot auteur etc...).

3- Recherche avancée : Toutes les zones de métadonnées devront pouvoir être paramétrées pour être accessibles en recherche comme index primaire : titre, auteur, sujet , date, éditeur, numéro de référence bibliographique (incunable), cote, note, date, type de documents, bibliothèque propriétaire du document, etc. Les zones de date (2 champs : début et fin de l'intervalle), type de documents (image, incunable, manuscrit, plan, imprimé, objet etc...), langue, ou autres à définir, seront aussi utilisables comme des filtres de recherche (moteur à facettes). Pour le champs sujet ou d'autres zones contrôlées, le système possibilité d'accéder à une fenêtre présentant la liste d'index ou l'arborescence du thésaurus associé, dans laquelle l'utilisateur pourra directement sélectionner les termes de recherche voulus. La recherche pourra être lancée en associant des critères issus des métadonnées avec des termes de requête sur le texte intégral. Les critères pourront être combinés, à l'intérieur d'une zone de recherche ou entre les zones de recherche, avec les opérateurs booléen (et, ou, sauf). Des opérateurs de proximité entre les termes seront également disponibles, ainsi que la recherche par expression exacte. La troncature droite, intérieure et gauche pourra être utilisée par saisie directe de l'opérateur voulu (par exemple : $ pour un caractère unique et * pour un nombre indéfini de caractères). De façon plus guidée, une troncature automatique sera aussi proposée si l'utilisateur coche la case "commence par". La recherche pourra être lancée en choisissant un tri possible par date, titre, auteur, popularité (nombre de commentaires, de téléchargements et de vues). Le tri sera modifiable a posteriori à partir de la liste de résultats.

4- Recherche experte : Possibilité d'écrire une équation de recherche selon modèle (KW=chat OR KW=chats OR kW=cat OR KW=cats) AND (KW=comportement* OR KW=ethol* OR KW=behavio*) pour une recherche sur le comportement du chat avec une application facilitant l'écriture de l'équation, un modèle et un schéma sous forme de "patates" expliquant le fonctionnement des booléens AND OR NOT. Il devra être possible de restreindre les corpus, les bibliothèques, les types de documents sur lesquels portera chaque recherche.

Personnalisation de la recherche par type de document : Des interfaces spécifiques de recherche en fonction du type de document pourront également être paramétrées. Par exemple, il faudra pouvoir établir un formulaire de requête propre à la base d’incunables, avec les champs suivants : - Tous champs - Auteur - Titre - Lieu de publication - Imprimeur-libraire - Références bibliographiques (avec double index : ouvrage / n°s) - Format - Date de publication (=, <, >, < <) - Langue - Cote

Pour tous ces champs : saisie directe des termes de recherche ou sélection dans un index associé (sauf pour les zones « Tous champs » et « Date », sans index associé).

Divers : La recherche ne sera pas sensible à la casse et aux diacritiques. Afin d'éviter le "bruit documentaire", l'opérateur implicite entre plusieurs mots du même champs sera ET. Un historique des recherches pourra être affiché. Il permettra de relancer une recherche ou de combiner plusieurs recherches différentes par des opérateurs booléens. Outre les fonctions de recherche par mots, des fonctions de navigation permettront d'effectuer une navigation par index ou par corpus structuré. La recherche par index (browse by) sera possible sur les champs suivants en particulier : indice Dewey, auteur, année, titre. Cette navigation par index ou par corpus pourra être filtrée sur le statut de document (tous les documents, ceux numérisés uniquement, ou documents restant à numériser). Une fonction permettant de visualiser "un document au hasard" sera proposée également.

Résultats de recherches : La liste des documents correspondant à une requête fera apparaître une vignette de la page de titre, le titre, l'auteur et la date avec tri possible par titre, auteur, date, popularité (choix non limitatif). Les documents images affichés dans un résultat de requêtes pourront, au choix de l'utilisateur, être affichées en mosaïque d'imagettes (de taille variable en fonction du nombre d'images affichées à l'écran). Une sélection d'ouvrages sur le même thème que celui en cours de consultation sera dynamiquement proposée en fonction de l'indexation du document consulté. (sur le modèle de bookseer.com). En l'absence de réponse à une requête, des rebonds dynamiques seront proposés vers d'autres catalogues de documents numérisés (Google Books, archive.org, Europeana, Gallica, ISTC, GW...), des librairies partenaires et des catalogues de bibliothèques comme le SUDOC et le CCFR. Idéalement (si les temps de réponse sont assez bons), ce rebond devrait être dynamique au sens où il n'afficherait un lien que si la ressource extérieure peut répondre au moins avec 1 occurrence à cette même requête.

Affichage[modifier | modifier le wikicode]

La circulation entre les métadonnées et les documents associées devra être fluide. Les références succinctes (paramétrables) du document resteront apparentes pendant la visualisation du document (titre, auteur, date par exemple).

Affichage des notices (métadonnées) : Les notices descriptives des documents pourront être affichées de façon différente en mode professionnel (données de gestion en plus, par exemple) et en mode public.

Affichage des documents : La navigation dans le document permettra d'obtenir « page précédente », « page suivante », « aller à la page X », « première page », « dernière page ». Il sera également possible de naviguer par le sommaire ou les index des documents. Il sera possible de marquer la page de titre d'un ouvrage afin de la définir comme page d'entrée lorsque le document est consulté (il s'agit, en effet, d'éviter que l'internaute arrive directement sur une page blanche ou un sur un plat non significatifs) Elle affichera par défaut, pour les livres et les manuscrits de type « codex », conjointement le verso d’un feuillet et le recto du feuillet suivant (consultation par double page). Pour le feuilletage des pages, une option permettra d'utiliser des outils de type turning the pages (feuilletage 3D avec Flash : fsi viewer, Issuu, acroflip). La visualisation permettra de zoomer avec l'aide, par exemple, d'outils libres du type ImageMagick et/ou Zoomify. Il sera possible de visualiser des documents originaux de grands formats (cartes, plans) et de pouvoir localiser la partie actuellement consultée dans l'ensemble du document (avec l'aide d'un carré représentant la partie zoomée sur la vignette) permettant de savoir à tout moment quelle partie du document est zoomée (carré qui se déplace sur la vignette). Il sera également possible de tourner les documents de 90 ° dans un sens ou dans l'autre. L'affichage permettra de comparer entre elles des éditions d’un même atelier, d’un même imprimeur-typographe ou d’un même texte (typographie, décor, annotations manuscrites), 2 enluminures représentant le même objet, 2 plans ou dessins d'architecte... Les documents multimédias seront proposés via les plugins adaptés pour le son ou la vidéo. A partir du document consultés, une série de liens pourront être affichés (rappel : les bibliothèques auront la possibilité d'éditer et de commercialiser des facs similés à la demande ou d'établir un partenariat avec une société, mais aussi de faire apparaître d'éventuels liens dynamiques vers divers sites partenaires). Les internautes pourront incorporer un document sur leur page web sous forme de fonction "embed"

Site web : Le site présentera un espace professionnel pouvant comporter : - une présentation du projet et un appel à participation - des documents de synthèse sous forme de wikis aux bibliothèques participantes, des recommandations - la liste des participants - une sélection d'articles d'actualités (incorporation de fils RSS et d'une veille sous Google Reader) Ces pages seront rédigées par la Bibliothèque

Esquisse de table de correspondances entre les formats de métadonnées (en cours)[modifier | modifier le wikicode]

UNIMARC Dublin Core (ressources numériques) : voir table de correspondance MARCXML (dérivé du MARC 21) MODS IPTC Core (images) EAD (manuscrits): voir table de correspondance
200 a c d e h i r Title MarcXML ? MODS ? Title <title> <unittitle> <subtitle> <titleproper> <titlestmt>
500 a h i k l m n q r s u w (titre uniforme) Title MarcXML ? MODS ? Title EAD ?
530 a b (titre clé) Title MarcXML ? MODS ? Title EAD ?
51X 520 54X a e h i t( tous titres ajoutés) Title MarcXML ? MODS ? Title EAD ?
503 a b d e f h i j k l m n (titre de forme) Title MarcXML ? MODS ? Title EAD ?
327 a Title MarcXML ? MODS ? Title <scopecontent>
700 a b c d f Creator MarcXML ? MODS ? Creator <origination><persname>
701 ab c d f Creator MarcXML ? MODS ? Creator <origination><persname>
710 a b c d e f g h Creator MarcXML ? MODS ? Creator <corpname><origination>
711 a b c d e f g h Creator MarcXML ? MODS ? Creator <corpname><origination>
720 a f Creator MarcXML ? MODS ? Creator <famname>
721 a f Creator MarcXML ? MODS ? Creator <famname>
686 a Subject MarcXML ? MODS ? Keywords EAD ?
610 a Subject MarcXML ? MODS ? Keywords EAD ?
330 a Publisher MarcXML ? MODS ? IPTC ? <abstract>
210 a c Publisher MarcXML ? MODS ? IPTC ? <publisher>
702 si $4160, 610, 650 : a b c d f Publisher MarcXML ? MODS ? IPTC ? <subject>
712 si $4160 610, 650: a b c d e f g h Publisher MarcXML ? MODS ? IPTC ? EAD ?
620 d Publisher MarcXML ? MODS ? IPTC ? EAD ?
200 f g Contributors MarcXML ? MODS ? Image Creator <author>
702 a b c d f Sauf si $4610, $4650 ou $4160 Contributors MarcXML ? MODS ? Image Creator EAD ?
712 a b c d e f g h Sauf si $4610, $4650 ou $4160 Contributors MarcXML ? MODS ? Image Creator EAD ?
722 a f Sauf si $4610, $4650 ou $4160 Contributors MarcXML ? MODS ? Image Creator <famname>
210 d Date MarcXML ? MODS ? Date Created <unitdate> <date>
100 ( position 9 à 16 ) Date MarcXML ? MODS ? Date Created EAD ?
215 a c d Format MarcXML ? MODS ? IPTC ? <extent> <dimensions> <genreform> <physdesc> <physfacet>
001 Identifier MarcXML ? MODS ? Digital Image GUID EAD ?
010 A a z Identifier MarcXML ? MODS ? Digital Image GUID EAD ?
011 a f g y y z Identifier MarcXML ? MODS ? Digital Image GUID EAD ?
020 b z Identifier MarcXML ? MODS ? Digital Image GUID EAD ?
930 a cote Source MarcXML ? MODS ? Source Inventory Number EAD ?
101 a (code alphabétique sur 3 caractères) Language MarcXML ? MODS ? IPTC ? Attribut LANGCODE de <language>
607 a x y z Coverage ? MarcXML ? MODS ? Location Shown in the Image <geogname>
UNIMARC ? Type : Texte imprimé (par exemple) MarcXML ? MODS ? IPTC ? EAD ?
UNIMARC ? Relation : lien vers notice OPAC (par exemple) MarcXML ? MODS ? IPTC ? EAD ?
UNIMARC ? Rights : Domaine Public (par exemple) MarcXML ? MODS ? Rights Usage Terms EAD ?

Les retours sur investissements à envisager[modifier | modifier le wikicode]

La numérisation à la demande[modifier | modifier le wikicode]

Les bibliothèques peuvent accepter de partager la politique documentaire de leurs bibliothèques numériques avec le grand public ou avec des mécènes en proposant le financement de la numérisation de certains de leurs documents, dans le cadre de délégations de services publics.

Le réseau de bibliothèques européennes Ebooks on Demand permet également de disposer d'une interface et de boutons sur les catalogues en ligne afin de gérer ce commerce électronique (il faut compter 1000 € d'adhésion)

L'impression à la demande (Print on Demand POD)[modifier | modifier le wikicode]

Les Bibliothèques peuvent permettre à des sociétés de commercialiser la vente d'impressions brochées à la demande dans le cadre de délégations de services publics. En contrepartie, elles peuvent bénéficier d'une marge sur ces ventes. Les sociétés suivantes sont susceptibles de répondre à des appels d'offres :

Le réseau de bibliothèques européennes Ebooks on Demand permet également de disposer d'une interface afin de gérer ce commerce électronique (il faut compter un supplément de 500 € d'adhésion pour pouvoir offrir ce service supplémentaire)

Il est également possible d'acquérir des machines (100 000 €) qui impriment un livre broché à partir d'un document déjà numérisé :

L'archivage pérenne[modifier | modifier le wikicode]

Références[modifier | modifier le wikicode]

D’autres listes de logiciels de bibliothèque numérique existent sur le web.

--Mathieuandro 22 septembre 2009 à 14:03 (UTC)