mercredi 23 mai 2012
Bannière
Accueil > Innovation > Numérisation d'ouvrages : la solution de Gilbert et Roland Tomasi choisie par la bibliothèque de Berlin
Numérisation d'ouvrages : la solution de Gilbert et Roland Tomasi choisie par la bibliothèque de Berlin PDF Imprimer Envoyer
Mardi, 29 Mai 2007 11:09
La numérisation des livres, sujet épineux, engage les grands acteurs des TIC, comme Google (Google Books) ou Wikimédia (Wikisource et Wikilivres). Mais le besoin concerne aussi les bibliothèques, même si certaines d'entre elles y voient une menace (cf. la BNF). La petite entreprise toulousaine "Bureau Ingénieur Tomasi" a développé un outil innovant qui a séduit la bibliothèque nationale de Berlin.

« Notre logiciel BIT-Fraktur permet de numérisation d'un million de pages en écriture gothique allemande dite "Fraktur". Ce sont des documents patrimoniaux : comptes-rendus des débats aux parlements de Berlin et Brandebourg avant 1945. Ce succès a été obtenu en concurrence avec Abbay, leader mondial de l'OCR, éditeur russe du logiciel FineReader et CCS, firme allemande ayant développé ALTO, la norme internationale pour les bibliothèques. », explique Gilbert Tomasi, ancien manager et chercheur allemand de Siemens Semi-Conducteurs. Celui-ci a lancé son entreprise individuelle d'édition de logiciels à la fin 1996 en l'ancrant dans la région toulousaine.

Originalité de la solution, qui a fait l'objet de 3 brevets : chaque lettre numérisée est vectorisée et mémorisée. Le moteur logiciel permet de détecter et séparer les images du texte. En outre, la solution permet de reconstituer les documents d'origine en respectant le standard international des bibliothèques (dans un cadre XML). « Ce qui caractérise une forme, c'est son nombre d'intersections avec une courbe donnée », pose Roland Tomasi, ingénieur et mathématicien, fils de Gilbert, avec lequel il a co-développé l'outil. « Si la première application de notre technologie concerne la reconnaissance de caractères, imprimés (OCR) et manuscrits (ICR), elle peut aussi s'appliquer à la biométrie, à l'identification de signatures, etc. », poursuit-il.

« Nous entendons maintenant nous attaquer à un problème non résolu : la lecture OCR de l'Arabe et de l'Indy, écritures liées, comme l'écriture manuscrite. Or nous venons de mettre au point une séparation de caractère innovante, dite "intelligente" et non basée sur des critères géométriques », ajoute Gilbert Tomasi.

Frédéric Dessort , Mid e-News

 


Autres articles :


Ajouter un Commentaire

Réagissez à l'article en remplissant le formulaire ci-dessous.


Code de sécurité
Rafraîchir

Conception : agoranet - Réalisation : MidiConcept - Hébergement : FullSave