Mostrar el registro sencillo del ítem
dc.contributor.author
Mechaca, Ana Lidia
dc.contributor.author
Marmanillo, Walter Gabriel
dc.contributor.author
Xamena, Eduardo
dc.contributor.author
Ramirez Orta, Juan
dc.contributor.author
Maguitman, Ana Gabriela
dc.contributor.author
Milios, Evangelos E.
dc.date.available
2022-10-19T15:06:08Z
dc.date.issued
2021
dc.identifier.citation
A web platform for collaborative semi-automatic OCR Post-processing; 50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos; Ciudad Autónoma de Buenos Aires; Argentina; 2021; 11-14
dc.identifier.issn
2683-8966
dc.identifier.uri
http://hdl.handle.net/11336/173940
dc.description.abstract
Digital Humanities researchers often make use of software that helps them in the task of finding non-trivial relationships among characters in historical text. Usually, the source texts that contain such information come from OCR acquired volumes, carrying high amounts of errors within them. This work explains the development of a web platform for the task of OCR post-processing and ground-truth generation. This platform employs machine learning to predict the correct texts accurately from OCR noisy strings. The method used for this task involves transformers for character-based denoising language models. An active learning workflow is proposed, as the users can feed their corrections to the platform, generating new annotated data for re-training the underlying machine learning correction models.
dc.format
application/pdf
dc.language.iso
eng
dc.publisher
Sociedad Argentina de Investigación Operativa
dc.rights
info:eu-repo/semantics/openAccess
dc.rights.uri
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.subject
OCR POST-PROCESSING
dc.subject
DIGITAL HUMANITIES
dc.subject
LANGUAGE MODELS
dc.subject.classification
Otras Ciencias de la Computación e Información
dc.subject.classification
Ciencias de la Computación e Información
dc.subject.classification
CIENCIAS NATURALES Y EXACTAS
dc.title
A web platform for collaborative semi-automatic OCR Post-processing
dc.type
info:eu-repo/semantics/publishedVersion
dc.type
info:eu-repo/semantics/conferenceObject
dc.type
info:ar-repo/semantics/documento de conferencia
dc.date.updated
2022-09-21T15:04:41Z
dc.journal.pagination
11-14
dc.journal.pais
Argentina
dc.journal.ciudad
Ciudad Autónoma de Buenos Aires
dc.description.fil
Fil: Mechaca, Ana Lidia. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
dc.description.fil
Fil: Marmanillo, Walter Gabriel. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
dc.description.fil
Fil: Xamena, Eduardo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Salta. Instituto de Investigaciones en Ciencias Sociales y Humanidades. Universidad Nacional de Salta. Facultad de Humanidades. Instituto de Investigaciones en Ciencias Sociales y Humanidades; Argentina. Universidad Nacional de Salta. Facultad de Ciencias Exactas. Departamento de Informática; Argentina
dc.description.fil
Fil: Ramirez Orta, Juan. Dalhousie University Halifax; Canadá
dc.description.fil
Fil: Maguitman, Ana Gabriela. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina
dc.description.fil
Fil: Milios, Evangelos E.. Dalhousie University Halifax; Canadá
dc.relation.alternativeid
info:eu-repo/semantics/altIdentifier/url/https://50jaiio.sadio.org.ar/pdfs/agranda/AGRANDA-02.pdf
dc.conicet.rol
Autor
dc.conicet.rol
Autor
dc.conicet.rol
Autor
dc.conicet.rol
Autor
dc.conicet.rol
Autor
dc.conicet.rol
Autor
dc.coverage
Nacional
dc.type.subtype
Jornada
dc.description.nombreEvento
50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos
dc.date.evento
2021-10-18
dc.description.ciudadEvento
Ciudad Autónoma de Buenos Aires
dc.description.paisEvento
Argentina
dc.type.publicacion
Journal
dc.description.institucionOrganizadora
Sociedad Argentina de Investigación Operativa
dc.description.institucionOrganizadora
Instituto Nacional de Tecnología Agropecuaria
dc.source.libro
50 JAIIO: 50th Jornadas Argentinas de Informática. Buenos Aires, Argentina 10/2021
dc.source.revista
Anales de AGRANDA 2021 y del Simposio Argentino de Ciencia de Datos y Grandes Datos
dc.date.eventoHasta
2021-10-29
dc.type
Jornada
Archivos asociados