UNIVERSIDAD JAUME I

El sistema de transcripción de textos antiguos State desarrollado por el grupo de investigación de percepción y aprendizaje computacionales de la Universitat Jaume I se utilizará para digitalizar las cerca de dos millones de páginas de documentos que forman del Archivo Montserrat Tarradellas i Macià, constituido por el fondo documental del Presidente Tarradellas depositado en el Monasterio de Poblet desde 1980. La tecnología desarrollada en la UJI se aplicará gracias a la participación en el proyecto como socio tecnológico de 4TC, empresa start-up de , Parque Científico, Tecnológico y Empresarial de la UJI.

El 10 de febrero se firmaron los convenios que tienen por objetivo regular la colaboración entre el Monasterio de Poblet, la Diputación de Tarragona, la Universitat Rovira i Virgili (URV) para la digitalización, el acceso y la difusión del fondo cultural del monasterio a través de Internet y la aportación de la infraestructura necesaria para su desarrollo. En el mismo acto se firmaron los convenios bilaterales entre la URV y cuatro socios tecnológicos, 4TIC entre ellos, para hacer posible el desarrollo del proyecto. El objetivo es garantizar la conservación de los contenidos del Archivo de forma segura y permanente. Al mismo tiempo se posibilitará el tratamiento de todos los contenidos con las nuevas tecnologías digitales, de manera que en el futuro se facilitará a los investigadores y público en general el acceso a la documentación y el tratamiento de datos, siempre con las limitaciones establecidas por el Patronato del Archivo en función de los términos de la donación de la familia Tarradellas.

El Archivo Tarradellas está formado por documentos que el presidente Tarradellas conservó durante cerca de cuarenta años, desde la época de consejero de la Generalitat de Catalunya republicana, pasando por el largo exilio hasta el retorno a Cataluña como presidente de la Generalitat durante la Transición. Las cerca de dos millones de páginas de documentos se estructuran en siete series y en las siguientes secciones: política, iglesia, personal, hemeroteca, reproducciones, biblioteca, donaciones y Archivo Montserrat Tarradellas i Macià.

Está previsto que la digitalitzación del fondo duré cuatro años con una media de 600 documentos por día, en un formato de alta resolución. La digitalitzación de los materiales no se puede limitar a capturar y organizar imágenes de páginas de documentos, hay que enriquecer las imágenes con información que permita efectuar búsquedas por contenido a los documentos realizados. Por lo tanto, se han de transcribir los documentos. En el caso de documentos antiguos, con tipografías poco corrientes, manuscritos y manchas en los apoyos, las herramientas de reconocimiento de caracteres OCR, se deben complementar con herramientas que limpian las imágenes, OCRs específicos adaptables que permiten la supervisión humana línea a línea para corregir errores y realimentar el sistema que así “aprende” de sus errores. Por darle solución se ha escogido el sistema 4State, de la empresa 4TIC, nacido de la investigación del Departamento de Lenguajes y Sistemas Informáticos de la UJI.

4TIC es una empresa joven, creado a principios de 2009, dedicada al desarrollo e implantación de soluciones basadas en tecnologías emergentes. Basándose en estándares y software libre, Nicolás Manero y Ángel Jimenez, creadores de 4TIC, intentan que las soluciones desarrolladas puedan ser fácilmente integradas en cualquier entorno.

Más información: http://www.4tic.com/