La numérisation des archives
On se souvient du débat provoqué par le projet Google Print de numérisation de millions de livres, lancé en décembre 2004. Suite aux nombreuses critiques - non respect de la propriété intellectuelle, prédominance d’une culture “étasunienne” sur le patrimoine littéraire numérisé, défaut de pluralité - le projet a été abandonné en novembre 2005 au profit de Google Book Search, service de recherche de livres, appellation qui correspond mieux au service proposé c’est-à-dire la recherche de textes numérisés sur la base de données Google et non pas l’impression d’ouvrages.
En France, le président de la Bibliothèque Nationale de France, Jean-Noël Jeanneney, bientôt suivi par plusieurs chefs d’Etat européens, était monté au créneau pour réclamer une grande initiative européenne similaire. L’idée ? Sauvegarder les trésors de la culture européenne et la rendre accessible à un maximum d’individus.
Mais comment numérise-t-on plusieurs millions d’ouvrages, souvent anciens et fragiles ?
État des lieux des solutions existantes :
Pour commencer, voyons les solutions utilisées par les
grandes bibliothèques et les sociétés de services spécialisées dans
la numérisation d’archives.
Kirtas Technologie - BookScan
Si l’on excepte le BookScan 800 qui
est, comparativement, un scanner manuel bon marché, deux produits
ont révolutionné le marché.
En effet, Kirtas Technologie est le premier fabriquant de scanners à avoir mis au point des modèles qui tournent les pages automatiquement !
Sorti en 2003, l’APT BookScan 1200 permet de numériser 1 200 pages par heure. Une vingtaine d’exemplaires ont été livrés à des clients comme la Northwestern University de Chicago, Logos Research Systems, spécialisé dans la Bible, Newsbank, qui numérise les documents gouvernementaux, ou la bibliothèque publique de Rochester (Etat de New York), ville où est installée Kirtas.
Le dernier né (janvier 2006), l’APT BooksScan 2400 (photo), permet de numériser 2 400 pages par heure, en noir et blanc comme en couleurs. Doté d’un bras articulé capable de tourner les pages avec délicatesse, il utilise un “berceau” en forme de V pour maintenir les ouvrages fragiles sans abîmer leur reliure. Deux appareils photo, avec des capteurs de 16,6 mégapixels chacun, permettent de capturer simultanément les pages de gauche et de droite. Enfin, un outil de reconnaissance optique de caractères, basé sur le moteur d’Abbyy, peut traiter 177 langues.
De fait, l’APT BookScan résout l’étonnante quantité de problèmes que pose la numérisation automatique d’un livre. Outre l’adaptation aux différentes tailles, au maintien en position face à l’appareil de prise de vue, deux opérations se révèlent délicates : décoller les pages et les tourner. Pour effectuer la première, Kirtas utilise un jet d’air sous pression sur les angles libres des pages.
La seconde est plus critique. Il faut saisir la feuille et la tourner sans jamais qu’elle n’en entraîne une autre. “Il faut surtout s’adapter à tous les types de papier et à tous les grammages”, souligne Lotfi Belkhir, PDG de Kirtas. Grâce à l’expérience de Thomas Taylor, ingénieur en chef, Kirtas a mis au point une tête sous vide au profil légèrement ondulé qui la rend efficace sur tous les types de papier.
Décollée par le jet d’air, la feuille est aspirée par la tête sous vide et l’ondulation qui lui est appliquée achève de la libérer de sa suivante. Le tout en douceur pour éviter toute dégradation d’ouvrages allant du tout-venant à l’incunable. “Nous pouvons traiter tous les livres dont il est possible de tourner les pages à la main”, assure Lotfi Belkhir.
Sauf ceux dont les pages sont collées ou ceux dont la fragilité extrême requiert l’usage d’un support pour les manipuler. “Sur 3 millions de pages numérisées, seulement 3 ont été abîmées”, indique le PDG de Kirtas, qui cite le travail réalisé avec succès par l’université de Toronto sur un livre très ancien : La Cité de Dieu de saint Augustin (1475).
Il est difficile de connaître le prix exact de ces trois scanners car il dépend de nombreux paramètres mais on sait qu’il va de $89,000 (75 000 €) à $189,000 (160 000 €).
Il ne faut surtout pas manquer les vidéos de démonstration de l’APT 1200 et de l’APT 2400 qui sont très impressionnantes.
4DigitalBooks - Digitizing Line
Comme Kirtas Technologie, 4digitalbooks est un fabricant
de scanners qui tournent les pages automatiquement.
Le Digitizing Line, réalisé avec la société I2S pour la partie optique, peut numériser de 1 500 à 3 000 pages par heure.
Comme on le voit, il s’agit là d’un produit beaucoup plus lourd. Le scanner est enfermé dans un petit local qui permet de conserver le livre à une température ambiante constante pendant tout le traitement. De plus, le Digitizing Line est équipé de plusieurs capteurs qui surveillent en permanence les actions du scanner au moment de prendre, séparer, tourner et relâcher les pages.
Six de ces scanners sont utilisés dans le monde : quatre dentre eux sont chez Infotechnique en Alsace, un autre à la bibliothèque universitaire de Stanford en Californie et le dernier à la bibliothèque universitaire de Southampton en Angleterre.
Pourquoi quatre de ces scanners se trouvent-ils en Alsace ?
En mai 2005, Infotechnique, filiale de Getronics, a inauguré le centre Eurodema (”Europe dématérialisation”) à La Walck, dans le Bas-Rhin. Là, sont déployées des technologies allant des systèmes RFID et GPS pour la traçabilité, des scanners automatiques et une batterie de serveurs pour la collecte des images produites, leur compression, leur cryptage et leur livraison par liaison haut débit reposant sur une liaison satellite.
Les élus du Bas-Rhin, du Haut-Rhin et de la Moselle ont décidé, avec le Ministère de la Justice, le lancement du projet Amalfi (document pdf) (Alsace-Moselle Application pour un Livre Foncier Informatisé) pour la numérisation du Livre-Foncier d’Alsace-Moselle.
Le Livre Foncier d’Alsace-Moselle est un élément important du droit local Alsacien et Mosellan. Tenus à jour dans 46 bureaux fonciers, les 40 000 volumes du Livre Foncier sont de grands livres dans lesquels encore aujourd’hui sont notées de façon manuscrite les inscriptions relatives au droit foncier et aux hypothèques , notamment au moment de l’acquisition d’un bien.
Cela représente donc la numérisation de 32 millions de pages d’actes notariés de l’Est de la France. D’ici fin 2008, le site traitera 500 Go de données par jour.
Infotechnique, en contact avec la Bibliothèque Nationale de France, déclare être disponible pour les projets de bibliothèque virtuelle soutenus par l’Europe.
Le Digitizing Line est commercialisé à environ 300 000 €.
Un reportage très intéressant de France 3 Alsace est disponible à partir de la page d’accueil du site d’Infotechnique ou directement ici.
Atiz - BookDrive
Avec le BookDrive d’Atiz, on passe à des produits beaucoup
plus légers.
Le BookDrive est néanmoins remarquable car il s’agit du premier scanner de bureau capable de tourner automatiquement les pages d’un livre. En mode résolution 100 dpi, il permet de numériser jusqu’à 500 pages par heure en niveaux de gris et jusqu’à 240 en couleurs. Par contre, en mode résolution 300 dpi, il ne permet plus que de numériser jusqu’à 232 pages par heure en niveaux de gris et jusqu’à 116 en couleurs.
Atiz destine le BookDrive aux petites entreprises, aux bibliothèques, aux centres de copies, aux collèges, etc.
Il sera disponible en mars 2006 à un prix estimé entre $40,000 (33 000 €) et $50,000 (42 000 €).
Il existe d’autres scanners destinés à la numérisation
des archives et des livres anciens mais ils ne sont pas
automatiques et sont donc à usage plus local. Voyons les principaux
:
Image Access - Bookeye Color Planetary Scanner
Le Bookeye Color Planetary
Scanner de Image
Access permet de numériser des livres, des journaux et des
documents fragiles de grande taille mais aussi des objets 3-D.
Le scanner, placé au-dessus de la table, dispose d’un auto-focus et un algorythme corrige la pliure des livres, ce qui permet de ne pas les abîmer en forçant sur la reliure. La résolution va de 200 à 600 dpi et une page A4 est numérisée en 0,2 secondes.
Selon les options et les conditions, le prix du Bookeye Color Planetary Scanner est environ de $45,000 (37 000 €).
Digital Library Systems Group - KIC II
Le
Digital Library Systems
Group, division de Image Access, a inventé un concept tout à
fait innovant. En effet, le KIC II (Knowledge Imaging
Center) est un kiosque de numérisation à l’usage des bibliothèques,
des archives, des universités, etc.
L’étudiant(e) ou le chercheur peuvent transférer les pages numérisées directement sur leur ordinateur personnel via une clé USB, Internet, un e-mail, un serveur FTP, un graveur de CD-Rom en réseau ou un poste en réseau. Cela permet de gagner un temps considérable lors de l’écriture d’un rapport, d’une thèse, etc.
Le KIC II est capable de numériser deux pages A3 en 8 secondes.
Je n’ai pas trouvé les tarifs de ce scanner.
Comme on peut le voir sur une des deux vidéos de démonstration, le KIC II est même accessible aux personnes handicapées.
I2S - CopyBook
On
a déjà parlé de I2S qui a
réalisé la partie optique du Digitizing
Line de 4digitalbooks.
Le CopyBook propose de nombreuses options : détection automatique du format, résolution, focus, temps d’exposition, correction de la lumière, balance des blancs, et un algorythme très performant d’amélioration de la qualité des images numérisées.
Le CopyBook est capable de numériser 2 pages A3 en 2,5 secondes.
Je n’ai pas trouvé les tarifs de ce scanner.
Sur la page de présentation du CopyBook, une petite vidéo montre comme il est pratique et rapide de numériser un livre malgré une manipulation manuelle.
Indus - Book Scanner 5001
Comparable aux scanners précédents, le Book Scanner
5001 de Indus
peut être connecté directement à un PC ou à un réseau au travers
d’une interface plug&play.
Il utilise un logiciel qui corrige automatiquement la courbure des pages du livre ouvert sur la table.
Le modèle 5001 est un scanner noir & blanc (niveaux de gris). Le scanner couleur proposé par Indus est le Book Scanner 5002, et ses caractéristiques générales sont équivalentes.
Je n’ai pas trouvé les tarifs de ce scanner.
Terminons par une innovation technologique surprenante
:
Takao Someya Group - Organic Sheet-Image Scanner
L’ingénieur
Takao Someya et ses collègues de l’Université de Tokyo ont mis
au point l’Organic
Sheet-Image Scanner, un scanner intégré dans une feuille de
plastique flexible qui permet d’accéder au creux de la reliure des
livres anciens et fragiles.
Le procédé est très compliqué mais je vais essayer de le décrire en quelques mots : la feuille ne comporte ni partie optique, ni partie mécanique ; il s’agit d’une matrice polymère recouverte de transistors organiques et à l’intérieur de laquelle ont été déposées plusieurs milliers de photodiodes sensibles à la lumière ; chaque photodiode produit un courant en réponse à un signal lumineux et le transistor correspondant est chargé ; les charges électriques sont ensuite lues par un téléphone mobile et converties en image.
Le prototype a une résolution de 36 dpi, mais l’équipe de chercheurs estime qu’il est encore possible de miniaturiser le procédé et d’atteindre facilement une résolution de 250 dpi.
Sur cette page, plusieurs photos sont disponibles ainsi que des animations “flash” expliquant le procédé.







