Archivistabox 2008/IX, un logiciel de reconnaissance de texte avec fichiers PDF indexables

Par:
fredericmazue

lun, 22/09/2008 - 15:54

Archivista,une société suisse de logiciels open source lance ArchivistaBox 2008/IX, Archivista, un logiciel de reconnaissance de texte open source avec fichiers PDF indexables.

L'ArchivistaBox est un SGED (système de gestion électronique des documents) basé sur le web, qui peut être installé sur n'importe quel ordinateur du commerce. Selon le matériel utilisé, le volume de pages traitées peut varier entre plusieurs milliers et plusieurs millions de pages par jour. Plus de 20 langues sont disponibles et la qualité de reconnaissance est comparable à celle des systèmes commerciaux.

Les fichiers PDF générés avec l'ArchivistaBox sont stockés dans une base de données Archivista et indexés automatiquement, ce qui permet d'effectuer des recherches dans l'ensemble du stock de documents. Les documents scannés peuvent être obtenus avec un navigateur web à tout moment. Les données sensibles peuvent être cryptées avant d'être rendues disponibles. Si nécessaire, l'ArchivistaBox peut créer des publications DVD complètes.

100 % du code source utilisé dans l'ArchivistaBox est sous licence GPLv2. Les moteurs de ROC Tesseract, licence BSD, sont utilisés sous port Linux, pour la reconnaissance des lettres gothiques (les textes archipresbytéraux :) et le Cuneiform (pour les textes archi-vieux :) Le module hocr2pdf (cf. http://www.exactcode.de) sert à générer les fichiers PDF indexables.

Le CD ArchivistaBox 2008/IX (700 Mo) peut être téléchargé sur https://sourceforge.net/projects/archivista/ ou http://www.archivista.ch Vous pourrez tester par vous-même si le logiciel est archi-libre au royaume du pingouin et fonctionne archi-bien sous Windows Vista.