Repositorio Institucional
Repositorio Institucional
CONICET Digital
  • Inicio
  • EXPLORAR
    • AUTORES
    • DISCIPLINAS
    • COMUNIDADES
  • Estadísticas
  • Novedades
    • Noticias
    • Boletines
  • Ayuda
    • General
    • Datos de investigación
  • Acerca de
    • CONICET Digital
    • Equipo
    • Red Federal
  • Contacto
JavaScript is disabled for your browser. Some features of this site may not work without it.
  • INFORMACIÓN GENERAL
  • RESUMEN
  • ESTADISTICAS
 
Evento

A web platform for collaborative semi-automatic OCR Post-processing

Mechaca, Ana Lidia; Marmanillo, Walter Gabriel; Xamena, EduardoIcon ; Ramirez Orta, Juan; Maguitman, Ana GabrielaIcon ; Milios, Evangelos E.
Tipo del evento: Jornada
Nombre del evento: 50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos
Fecha del evento: 18/10/2021
Institución Organizadora: Sociedad Argentina de Investigación Operativa; Instituto Nacional de Tecnología Agropecuaria;
Título del Libro: 50 JAIIO: 50th Jornadas Argentinas de Informática. Buenos Aires, Argentina 10/2021
Título de la revista: Anales de AGRANDA 2021 y del Simposio Argentino de Ciencia de Datos y Grandes Datos
Editorial: Sociedad Argentina de Investigación Operativa
ISSN: 2683-8966
Idioma: Inglés
Clasificación temática:
Otras Ciencias de la Computación e Información

Resumen

Digital Humanities researchers often make use of software that helps them in the task of finding non-trivial relationships among characters in historical text. Usually, the source texts that contain such information come from OCR acquired volumes, carrying high amounts of errors within them. This work explains the development of a web platform for the task of OCR post-processing and ground-truth generation. This platform employs machine learning to predict the correct texts accurately from OCR noisy strings. The method used for this task involves transformers for character-based denoising language models. An active learning workflow is proposed, as the users can feed their corrections to the platform, generating new annotated data for re-training the underlying machine learning correction models.
Palabras clave: OCR POST-PROCESSING , DIGITAL HUMANITIES , LANGUAGE MODELS
Ver el registro completo
 
Archivos asociados
Thumbnail
 
Tamaño: 204.5Kb
Formato: PDF
.
Descargar
Licencia
info:eu-repo/semantics/openAccess Excepto donde se diga explícitamente, este item se publica bajo la siguiente descripción: Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Unported (CC BY-NC-SA 2.5)
Identificadores
URI: http://hdl.handle.net/11336/173940
URL: https://50jaiio.sadio.org.ar/pdfs/agranda/AGRANDA-02.pdf
Colecciones
Eventos(ICSOH)
Eventos de INST.DE INVEST. EN CS. SOC. Y HUMANIDADES
Citación
A web platform for collaborative semi-automatic OCR Post-processing; 50º Jornada Argentina de Informática; Simposio Argentino de Ciencia de Datos y Grandes Datos; Ciudad Autónoma de Buenos Aires; Argentina; 2021; 11-14
Compartir

Enviar por e-mail
Separar cada destinatario (hasta 5) con punto y coma.
  • Facebook
  • X Conicet Digital
  • Instagram
  • YouTube
  • Sound Cloud
  • LinkedIn

Los contenidos del CONICET están licenciados bajo Creative Commons Reconocimiento 2.5 Argentina License

https://www.conicet.gov.ar/ - CONICET

Inicio

Explorar

  • Autores
  • Disciplinas
  • Comunidades

Estadísticas

Novedades

  • Noticias
  • Boletines

Ayuda

Acerca de

  • CONICET Digital
  • Equipo
  • Red Federal

Contacto

Godoy Cruz 2290 (C1425FQB) CABA – República Argentina – Tel: +5411 4899-5400 repositorio@conicet.gov.ar
TÉRMINOS Y CONDICIONES