La numérisation des livres anciens

Publié le par Anaïs et Dorothée


Ce document n’est pas un guide complet sur la numérisation des livres anciens (avant le XVIIIe siècle), il fait le point sur le matériel de numérisation disponible et les logiciels de correction ou de traitement que l’on peut utiliser. Nous ne nous intéressons qu’à la numérisation des documents originaux, ce qui exclut celle des microfilms souvent réalisés.    
Copyleft

 

I La numérisation des documents

    A) Les scanners de livres ou scanners à livre ouvert

Lors du traitement, le livre est ouvert, texte dirigé vers le haut, le dispositif de numérisation se trouvant au-dessus. Parfois, un plateau ajustable compense la différence de hauteur une fois le livre ouvert.

Il existe deux gammes de scanners de livre. C’est le haut de gamme qui convient aux livres anciens. On peut numériser des formats jusqu'au A1 et des livres d’une reliure de 50 cm.

On privilégiera les scanners qui balayent le document grâce à un système coulissant muni d’un capteur CCD linéaire et d’un éclairage. La numérisation se fait donc en dimension réelle (en opposition à celle qui analyse une image optique du document), avec une résolution constante quelle que soit la taille du document. Le système d’éclairage est mieux maîtrisé (il n’affecte que la surface en cours de numérisation), et abîme donc moins le document.

La résolution des scanners s’échelonne de 300 à 600 ou 700 dpi. 300 dpi est une résolution insuffisante pour l’OCR (Reconnaissance Optique de Caractères), mais dans les faits, peu d’applications nécessitent une résolution de 600 dpi (images volumineuses et difficiles à gérer) bien que les fabricants poussent à la consommation dans ce domaine. Le choix de la résolution dépend du document et du but de la numérisation.

Les prix varient en fonction du format envisagé : jusqu’à 30 000 euros pour les A2, 60 000 pour les A1, 80 000 pour les AO (sans tenir compte des options, logiciel…).

Les points importants pour la numérisation de livres anciens et fragiles :

  • La puissance de l’éclairage doit être minimale, voire nulle pour la préservation du livre (attention à la chaleur).

  • Le scanner peut être équipé de plateaux de type Roberval (une sorte de balance) qui compensent la différence de hauteur quand le livre est ouvert.

  • Présence d’un porte-livre qui permet de restreindre le degré d’ouverture du livre.

  • Présence d’un logiciel pour compenser la courbure des pages.

  • Attention à la taille de la reliure permise par le scanner : les livres anciens sont souvent trop fragiles pour qu’on enlève leur reliure.

Depuis l’annonce du projet Google Print, on a vu apparaître de nouveaux scanners de livres qui tournent les pages. Ils ne sont pas spécifiquement destinés à la numérisation des ouvrages anciens (leur atout est surtout la rapidité de numérisation) mais respectent leur fragilité (construits par les mêmes fabricants : I2S et Kirtas).

    B) La numérisation des images (enluminures en particulier) : l’appareil photo numérique

Les images nécessitent une numérisation d’une résolution plus importante, surtout quand elles sont petites comme les enluminures, et qu’on veut les agrandir. Le rendu colorimétrique est également très important.

Nous reprenons ici les conclusions de l’étude menée par le laboratoire photographique de l’IRHT (Institut de Recherche en Histoire des textes) afin de numériser des enluminures. Leur numérisation nécessite une grande résolution. L’utilisation d’un scanner à haute résolution se révèle trop lente. Ils ont également exclus les appareils spécifiques comme les caméras Tri-CCD incapable de numériser correctement des documents opaques dépassant 40 par 50 cm. Leur choix s’est donc arrêté sur un appareil photographique muni d’un dos numérique à la place du film, ce qui ne change rien à la prise de vue traditionnelle en studio. Parmi les dos numériques, seuls ceux utilisant un Tri-CCD linéaire en une passe offrent des résolutions importantes de 3500 à 9000 pixels (en opposition aux dos numériques à capteur matriciel qui produisent une image en trois passes successives (RVB) ou à partir d’une mosaïque de filtres). Le laboratoire photo a travaillé avec le dos numérique Studio Kit de la marque Phase One, adapté sur un appareil de prise de vue Hasselblad (modèle 501 C).

La prise de vue doit être faite par un professionnel qui contrôle la qualité de l’éclairage et de la couleur.


II Le traitement de l’image numérisée

    A) L’OCR

La reconnaissance optique des caractères constitue un projet grandement discuté et disputé, tous les médiévistes ne sont pas d'accord quant à son apport. Cette possibilité n'est pas encore au point, en effet la lecture automatique nécessite de représenter mathématiquement les caractéristiques des tracés afin de les reconnaître. Les fins recherchés sont: la comparaison automatisée d'écriture et la constitution de bases de données illustrant tous les détails graphiques que l'on voudra.Deux difficultés sont rencontrées dans l'élaboration de ce projet. Tout d'abord, il existe une infinité de tracés différents ce qui fait la richesse et la difficulté de l'étude automatisée des manuscrits. De plus, la machine ne sait pas aujourd'hui lire une écriture manuscrite déjà tracé, aujourd'hui l'OCR ne fonctionne que si la machine suit le tracé de la main.

    B) Améliorer la lisibilité du document

Divers traitement peuvent être appliqué à l'image afin d'en améliorer la lisibilité, ces traitements donnent de meilleurs résultats lorsque la numérisation a été réalisé à partir de l'original.

Les agrandissements

L'avantage de la numérisation des documents sur la photographie est la possibilité d'effectuer d'importants agrandissements de certaines parties de la page. Cette possibilité est très apprécié des médiéviste pour l'étude des détails d'une enluminure ou étudier avec précision le tracé des lettres nécessaire à la paléographie.

Le paramétrage

L'utilisation de logiciel de retouche d'image permettent aujourd'hui très facilement de modifier le paramétrage de l'intensité des couleurs, de jouer sur les contrastes jusqu'à faire disparaître les taches et faire apparaître une encre très pale. Cette restauration visuelle permet de lire l'étude de documents parfois inexploitables dans leur version analogique.

La juxtaposition

Certains documents sont parfois anonymes, la possibilité de pouvoir juxtaposer des échantillons d'écritures est grandement facilitée par l'utilisation des documents numérisés. De plus, la superposition d'un document et de son image inversée permet d'isoler les traces d'encre ayant traversé la feuille. Cette tache était auparavant effectuée avec des photocopies, autant dire qu'il est grandement facilité aujourd'hui par les logiciels de retouches d'images.

III La numérisation des manuscrits: un plus?

La numérisation des manuscrits semblent être une véritable révolution pour les paléographes et les médiévistes, en effet ses avantages notables sont :

son coût relativement faible permettant de multiples copies et diffusions du manuscrits en comparaison de l'édition de copie des oeuvres.

la maniabilité: les documents étant fragiles et souvent volumineux, il n'est pas possible de consulter plusieurs pages en même temps, l'image numérique permet la confrontation des enluminures de divers documents.


Cependant, l'image numérique présente quelques inconvénients, ainsi il est craint par la généralisation de la consultation des oeuvres numérisées un certain abandon des supports originaux. De plus, les documents sont numérisés à très haute définition, afin de contenir le plus d'informations possibles. En conséquent, seule la consultation en local offre un confort de lecture satisfaisant, hors il n'est pas évident de pouvoir passer d'un Cdrom a un autre en ce qui concerne les études comparatives. Certes, ceci est moins contraignant que la consultation de documents volumineux et très fragile mais le confort de lecture pourra à nouveau s'améliorer par le développement de réseau à haut débit.Un élément certes très basique complique la consultation des documents numérisés, il s'agit de leurs dimensions. Les documents datant du Moyen Age son souvent beaucoup plus large que la taille d'un écran, la lecture devient alors très difficile. Ainsi le travail du chercheur peut devenir plus compliqué que sur papier, quand l'envie lui vient en plus de prendre des notes ou de consulter d'autres documents en simultané.


Bibliographie

André, Jacques, Chabin, Marie-Anne (dir.), Les documents anciens, Paris, Hermès science publication, 1999, collection Documents numériques (vol. 3).


Kalldrëmxhiu, Enriketa, Les logiciels de numérisation des livres anciens [en ligne], 2000, < www.letterpress.ch/APINET/IMMPDF/LIVRE/gedkall.pdf > (consulté le 19 décembre 2005).


Gharsallah, Medhi, « Savoir tourner la page », in Archimag, n° 189, Vincennes, Archimag, 2005, p. 40-43.


Guerre, Louise (dir.), Guide Pratique : les scanners professionnels, Paris, Archimag, 2004.


Quelques sites utiles:

LE MEDIEVISTE ET L'ORDINATEUR. Histoire médiévale, informatique et nouvelles technologies [En ligne]. Disponible sur: <http://lemo.irht.cnrs.fr> (Page consultée le 9 janvier 2006)


IRHT. Institut de Rechercher et d'Histoire des Textes [En ligne]. Disponible sur:<http://www.irht.cnrs.fr/> (Page consultée le 9 janvier 2006)


MINISTERE DE LA CULTURE. Numérisation du patrimoine culturel [En ligne]. Disponible sur: <http://www.culture.gouv.fr/culture/mrt/numerisation/index.htm> (Page consultée le 9 janvier 2006)


ENSSIB. Colloque « Vers une nouvelle érudition : numérisation et recherche en histoire du livre » [organisé en décembre 1999] [En ligne]. Disponible sur: <http://www.enssib.fr/autressites/histoire/6archives/Colloques_journees/Nouvelle_erudition/intro.html> (Page consultée le 9 janvier 2006)


AHDS. Arts and humanities Data Service [En ligne]. Disponible sur:<http://ahds.ac.uk/> (Page consultée le 9 janvier 2006)


Commenter cet article

voyance gratuitement par mail 20/02/2017 16:23

Mes meilleures félicitations pour votre superbe site ! Parfait !!!

voyance en ligne gratuite 13/05/2016 12:50

Vraiment agréable ce site et en plus il est complet et simple en recherche. Je t’en remercie beaucoup pour ces moments de détente .

voyance gratuitement 27/01/2016 12:14

C'est avec plaisir que je regarde votre site ; il est formidable .j'ai bientôt quatre vingt printemps et je passe du temps vraiment très agréable à lire vos jolis partages .Continuez ainsi et encore merci.

yohann 07/01/2012 21:53


Bonjour,


Suite à votre message, je pense que ce lien vous interessera : http://www.ebibliophilie.com/stats_words.php, l'interface permet de voir
l'evolution de la frequene des mots dans le temps de 1500 à 1950, l'outil prend un parmti different du Ngram de Googlebooks en partant ds descriptif des livres plutot que de leur contenu, cela
permet d'etre beaucoup plus pertinant sur les ouvrages antérieurs à 1800 ou les problemes de type ( f à la place de s par ex ) rendent l'OCR non pertinent )


Nous travaillons par ailleurs à un projet d'analyse et de resumé automatique des livres


Notre lien pourra nteresser des chercheurs


Cordialement,


Yohann


 

Jérôme 16/04/2008 15:05

Nous développons actuellement une bibliothèque virtuelle : http://www.narbolibris.com Votre avis sur notre solution nous intéresse.