CLUB DES UTILISATEURS DE DRA MULTILIS EN EUROPE
D'où venons-nous ? Où allons-nous ?
L'informatique et les bibliothèques

Compte rendu d'une matinée d'étude organisée le 3 octobre 1997 à la Bibliothèque universitaire de Valenciennes à l'occasion de l'Assemblée générale des utilisateurs de DRA MultiLIS en Europe
Présentation par Dominique Lahary, Directeur-adjoint de la Bibliothèque départementale du Val d'Oise
Leçon d'objet par Olivier Molina, Directeur informatique du Conseil général du Tarn-et-Garonne
Version électronique - Reproduction libre
1 - Les architectures 1.1 - Le maître-esclave
1.2 - La micro-informatique
1.3 - Les débuts du client-serveur
1.4 - Le client-serveur à trois niveaux
1.5 - Internet/Intranet et le World Wide Web
2 - Les systèmes d'exploitation 2.1 - Les systèmes propriétaires
2.2 - UNIX
2.3 - Les systèmes d'exploitation de la micro-informatique
2.4 - Windows NT
3 - Les bases de données 3.1 - Les SGBD propriétaires
3.2 - Les SGBD du marché ; les SGBDR
3.3 - Les SGBD du marché ; les SGBDR
Leçon d'objet
4 - Normes et standards 4.1 - Normes et formats de bibliothèque
    4.1.1 - Normes de catalogage : ISBD, AFNOR, AACR2
    
4.1.2 - Formats MARC (bibliographiques, d'autorité, de données locales...)
    
4.1.3 - Z39.50

4.2 - Normes et formats de l'édition électronique
    4.2.1 - Formats propriétaires
    
4.2.2 - SGM
    
4.2.3 - HTML
    
4.2.4 - Et le catalogage ?
    
4.2.5 - Et l'indexation ?

4.3 - Standards Internet/Intranet     4.3.1 - TCP/IP, HTTP
    
4.3.5 - Java
5 - Du système intégré à l'intégration de système 5.1 - Le progiciel intégré "à tout faire"
5.2 - La juxtaposition de systèmes spécialisés
5.3 - L'intégration de systèmes
Les paragraphes en italique concernent spécifiquement les bibliothèques.

Retour Page d'accueil

4 - Normes et standards
4.1 - Normes et formats de bibliothèque

4.1.1 - Normes de catalogage : ISBD, AFNOR, AACR2

Les normes de catalogage préexistent évidemment à l'informatique. Rappelons que les normes internationales (notamment les ISBD) transcendent les normes nationales qui les interprètent et les complètent (ou compliquent) : les normes AFNOR de la série Z44 pour la France, et les AACR2 (Anglo-american cataloguing rules) pour le monde anglo-saxon.

4.1.2 - Formats MARC

Les formats MARC (MAchine Readable Cataloguing), inventés aux États-Unis à la fin des années 60, se sont comme on le sait malheureusement fragmentées en MARC nationaux ou internationaux. Comme utilisateurs d'un logiciel canadien propriété d'une société américaine, nous vivons la difficulté d'expliquer qu'en France nous utilisons des variantes nationales d'un format universel, UNIMARC, tandis que de l'autre côté de l'Atlantique sont utilisés USMARC et CANMARC.

Mais il faut souligner qu'il existe des formats MARC :

  • pour les données bibliographiques
  • pour les autorités
  • pour les données locales (holding data), c'est-à-dire les notices d'exemplaire et les mentions de
  • fonds des périodiques
  • pour les classifications
  • pour les informations communautaires (community informations), c'est-à-dire les informations sur la vie locale et/ou les activités de la bibliothèque. USMARC dispose de toute la panoplie, UNIMARC seulement des deux premiers formats (le troisième et le quatrième sont à l'étude) .

    La norme américaine ANSI Z39.50 (devenue norme internationale ISO 239.50) représente un pas de plus dans la normalisation, puisqu'elle porte sur la recherche documentaire elle-même. Cette norme permet de construire :

    • des logiciels clients dont la tâche est d'envoyer des requêtes, de recevoir les réponses et de les afficher
    • des logiciels serveurs, implémentés en aval des bases bibliographiques, et dont la tâche est de recevoir les requêtes et d'envoyer les réponses.

    Z39.50 est défini et géré par le ZIG (Z39.50 Implementors Group) où sont représentés tant des bibliothèques que des fournisseurs de logiciels. Nous en sommes à la version 3 de la norme.

    La norme Z39.50 comprend une grande partie de protocole, relativement illisible par un bibliothécaire, mais aussi une partie que nous pouvons facilement comprendre : elle attribue une valeur (représentée par un nombre) à des concepts qui nous sont familiers : Auteur (en, général), auteur personne physique, collectivité auteur, titre (en général), titre propre, titre clé..., sujet, mais aussi "any" (n'importe quoi) pour chercher un mot n'importe où dans une notice, ou bien dans une base texte non structurée.

    L'avantage de la norme Z39.50 est de permettre une interrogation simultanée sur plusieurs bases, locales ou distantes (via Internet), sans tenir compte du logiciel de gestion de cette base. Mais il faut au préalable qu'un serveur Z39.50 ait été implémenté en aval de chaque base.

    Interfaçage Z39.50 pur
    Recherche sur plusieurs bases hétérogènes
    Interfaçage Z39.50 pur

    Dans le schéma ci-dessus, on a représenté les serveurs Z39.50 liés à trois bases hétérogènes. Ils sont tous différents puisque chacun reçoit les questions de n'importe quel client Z39.50, les traduit en langage compréhensible par la base, reçoit la réponse de celle-ci, la traduit e langage Z39.50 et l'envoie au client.

    Le client, au contraire, doit être capable de dialoguer avec n'importe quel serveur Z39.50 : c'est un produit standard. Bien sûr, il a fallu le configurer pour lui indiquer les coordonnées de chacune des bases qu'on souhaite interroger, ainsi que les questions qu'on peut lui poser (on ne peut pas demander un auteur à une base non structurée, ou un sujet à une base qui n'en gère pas).

    Il existe des clients Z39.50 implantables sur un micro-ordinateur. L'utilisateur a alors le libre choix des bases à interroger pourvu qu'il en connaisse les coordonnées. Il s'agit de clients très spécialisés, et relativement lourds.

    Interfaçage WWW pur
    Recherche sur une base unique
    Interfaçage WWW pur

    Le schéma ci-dessus représente la solution évoquée plus haut : celle de la passerelle Web. Dans ce cas, le catalogue est interrogeable directement par notre "navigateur à tout faire". Mais on ne peut interroger qu'une base à la fois.

    Un certain nombre de fournisseurs de logiciels de bibliothèque ont développé, développent ou vont développer une passerelle Web pour permettre l'accès par Internet/Intranet.

    Interfaçage Z39.50 + WWW
    Recherche sur plusieurs bases hétérogènes
    Interfaçage Z39.50 + WWW

    Ce troisième cas de figure est la combinaison des deux précédents. En rajoutant une couche Web en aval du dispositif Z39.50, on permet l'interrogation simultanée de bases hétérogènes à partir du navigateur, client universel : Le navigateur envoie la question, l'ensemble solidaire "client Z39.50-Serveur Web" la traduit en Z39.50 pour l'envoyer aux serveurs, reçoit la réponse Z39.50 et la reformate en HTML, le langage Web.

    C'est une illustration de deux phénomènes que nous avons évoqués plus haut :

    • l'empilement des couches clientes et serveurs
    • l'extension de la standardisation : tout dans ce schéma est standardisé, jusqu'aux serveurs Z39.50. A partir de là, on retrouve un dialogue propriétaire avec des logiciels singuliers.

    Mais dans ce schéma l'utilisateur final ne dispose guère de marge de manoeuvre. Il se connecte à un site serveur, sur lequel a été effectué un choix de bases à interroger. Il est donc prisonnier de ce choix et ne peut sélectionner que tout ou partie du bouquet ainsi proposé:

    Qui détient le client Z39.50 détient le pouvoir de choisir les bases à interroger.

    Un certain nombre de fournisseurs de logiciels de bibliothèque proposent diverses variantes de l'empilement logique représenté ci-dessus. Il existe également des projets collectifs de passerelles Web/Z39.503. En effet, ce produit peut être un produit standard

    Il convient pour terminer d'évoquer WAIS (Wide Area Information Server), qui représente une nouvelle variante dans la problématique d'accès aux catalogues.

    Wais + WWW
    Recherche sur plusieurs bases hétérogènes
    et/ou des copies homogènes de bases hétérogènes
    Wais + WWW

    WAIS repose sur une variante de la version 1 Z39.50 incompatible avec les versions 2 et suivantes. Le postulat est celui de l'homogénéité des bases : WAIS prescrit un format pour faire fonctionner son index (WAISindex). Il faut donc soit créer de toutes pièces une base compatible WAIS, soit, ce qui est le plus fréquent, copier la base d'origine dans un format compatible... ce qui oblige bien sûr à des mises à jour régulières.

    Au début, WAIS ne permettait qu'une interrogation non structurée (sur du plein texte). S'est maintenant répandu la variante freeWAIS-sf6, développée par l'université de Dortmund, qui permet une interrogation par champ.

    En outre, après avoir vu se développer les serveurs WAIS qui obligeaient l'interrogateur à disposer d'un client WAIS, on a vu se développer les passerelles Web, exactement comme avec Z39.50.

    En France, WAIS s'est répandu dans le monde universitaire mais pas dans la lecture publique. Le site du réseau documentaire de Grenoble offre un exemple de passerelle :

    4.2 - Normes et formats de l'édition électronique

    4.2.1 - Formats propriétaires

    En matière de document électronique, on observe une profusion de formats propriétaires. Rien que pour le texte, ceux-ci sont nombreux. Mais on peut distinguer les formats de type traitement de texte (comme Word) et ceux qui sont explicitement prévus pour la diffusion sur Internet, comme PDF, de la société Adobe, qui permet de restituer la mise en page d'une édition sur papier tout en permettant des recherches sur les mots.

    4.2.2 - SGML

    SGML (Standard Generalized Mark-up Language : langage standard généralisé à balises) répond au besoin de gérer la structure logique d'un document (division en chapitres, parties, paragraphes, insertion d'illustrations, etc.) indépendamment de sa structure matérielle, afin notamment de procéder à plusieurs éditions : sur papier, sur CD-ROM, en ligne. Plus fondamentalement, SGML peut permettre de standardiser la structure de certains types de document.

    La structure est assez simple. Une balise entrante indique que commence le chapitre un, une balise entrante indique que commence la partie 1, etc. Jusqu'à ce qu'une balise de fin indique la fin de la partie 1, et plus tard une autre balise de fin la fin du chapitre 1. Il s'agit donc d'une structure arborescente à l'infini.

    SGML est un modèle général permettant de construire des structures précises pour tel type de document, en indiquant quels en sont les composant, s'ils sont obligatoires, répétables, etc. C'est ce qu'on appelle des DTD (Document Définition Type).

    Il est prématuré de vouloir déceler quel sera l'influence de SGML dans les bibliothèques, mais on assiste déjà à plusieurs tentatives de traduire MARC en SGML, notamment de la part de la Bibliothèque du Congrès, qui a par ailleurs défini une DTD (le TEI  : Text Encoding Initiative) pour son projet de numérisation d'un fonds patrimonial de textes sur l'Amérique, American Memory.

    4.2.3 - HTML

    HTML est une variante simplifiée de SGML qui permet de coder le texte des pages Web. Une page Web est un simple fichier texte. Les balises permettent la mise en forme (centrer, mettre en gras, augmenter le corps, créer des tableaux...) mais aussi deux types de liens : ceux qui appellent sur la page un fichier image, vidéo ou son, et ceux qui permettent un lien hypertexte vers une autre page ou déclenchant une requête vers une base de données4.

    4.2.4 - Et le catalogage ? Et l'indexation ?

    Outre les projets de traduction de MARC en SGML, d'autant plus aisés qu'ils s'agit d'une structure arborescente pouvant plus que MARC (champ/sous-champ), diverses tentatives sont expérimentées pour faire évoluer le catalogage dans un environnement ou l'information disponible en ligne se développe.

    On peut les classer en deux familles :

  • Lien entre une notice traditionnelle et un ou plusieurs documents électroniques : on peut naturellement la gérer en dehors de toute solution normative, mais ce problème st traité par un nouveau champ du format USMARC : le champ répétable 856, qui vient d'être introduit également dans UNIMARC. Il permet de donner l'adresse et ne nom d'un fichier afin de l'afficher avec la notice ou de le rendre accessible, notamment par lien hypertexte. Il peut s'agir de texte, d'image, de son, de vidéo, ou d'une URL (adresse d'un document sur le Web), représentant par exemple tout ou partie du document décrit dans la notice.
  • "Catalogage" inclus dans la notice bibliographique : Un document SGML peut comporter tous les éléments permettant de l'identifier (auteur, titre...), de même qu'un livre porte des informations sur sa page de titre. Cela peut aller jusqu'à une sorte de CIP (Cataloguing in Publication, fréquent sur les imprimés aux États-Unis). Mais on expérimente également l'insertion en tête d'un document HTML d'informations de ce type, appelées Metadata, grâce à des balises spécialisées. Le DublinCore a défini les éléments d'identification souhaitables, dont bien sûr l'auteur, le titre et le sujet. L'objectif de cette "réinvention du catalogage" serait de pouvoir faire des recherches moins hasardeuses que celles actuellement disponibles avec les moteurs de recherche et reposant souvent sur une indexation de tous les mots.

    4.3 - Standards Internet/Intranet

    Outre HTML dont nous venons de parler, Internet/Intranet repose sur un certain nombre de standards gérés par des organismes internationaux. En voici quelques-uns.

    4.3.1 - TCP/IP, HTTP

    Il s'agit de protocoles de communication.

    TCP/IP (Transmission Control Protocol / Internet Protocol) gère les communications entre machines sur un réseau. Très implanté dans le monde UNIX et dans les réseaux locaux Ethernet, il est devenu le protocole de base de l'Internet.

    HTTP (HyperText Transfer Control Protocol) complète TCP/IP pour le World Wide Web. Il gères l'échange de requêtes et de réponses entre un navigateur et un serveur Web.

    4.3.2 - Java

    Créés par la société américaine Sun, les langages Java et Javascript permettent notamment d'insérer dans une page HTML un petit programme qui s'exécute sur la page affichée par un navigateur. Les premières applications ont été assez anecdotiques (images se déplaçant sur l'écran par exemple) mais il s'agit probablement d'un concept d'avenir.


    (3) Comme Europagate, projet européen . (Retour) (4) Les principaux navigateurs offrent une fonction Affichage / Source du document qui permet de voir le fichier HTML actuellement affiché. (A HREF="#appel4">Retour)
    Club des utilisateurs de DRA MultiLIS en Europe
    c/o Jacques SURMONNE - Bibliothèque municipale Toulouse - 1, rue de Périgord - 31070 TOULOUSE Cedex
    Novembre 1997
    Page d'accueil de Dominique Lahary Plan Page suivante