Repositorio Institucional
Repositorio Institucional
CONICET Digital
  • Inicio
  • EXPLORAR
    • AUTORES
    • DISCIPLINAS
    • COMUNIDADES
  • Estadísticas
  • Novedades
    • Noticias
    • Boletines
  • Ayuda
    • General
    • Datos de investigación
  • Acerca de
    • CONICET Digital
    • Equipo
    • Red Federal
  • Contacto
JavaScript is disabled for your browser. Some features of this site may not work without it.
  • INFORMACIÓN GENERAL
  • RESUMEN
  • ESTADISTICAS
 
Artículo

Study on pose-based deep learning models for gloss-free Sign Language Translation

Título: Estudio sobre modelos de aprendizaje profundo basados en poses para Traducción de Lengua de Señas sin glosas
Dal Bianco, Pedro; Ríos, Gastón; Hasperué, WaldoIcon ; Stanchi, Oscar AgustínIcon ; Quiroga, Facundo; Ronchetti, Franco
Fecha de publicación: 10/2024
Editorial: Universidad Nacional de La Plata. Facultad de Informática
Revista: Journal of Computer Science and Technology
ISSN: 1666-6046
e-ISSN: 1666-6038
Idioma: Inglés
Tipo de recurso: Artículo publicado
Clasificación temática:
Otras Ciencias de la Computación e Información

Resumen

 
Sign Language Translation (SLT) is a challenging taskdue to its cross-domain nature, different grammarsand lack of data. Currently, many SLT models relyon intermediate gloss annotations as outputs or latentpriors. Glosses can help models to correctly segmentand align signs to better understand the video. How-ever, the use of glosses comes with significant limi-tations, since obtaining annotations is quite difficult.Therefore, scaling gloss-based models to millions ofsamples remains impractical, specially considering thescarcity of sign language datasets. In a similar fashion,many models use video data that requires larger mod-els which typically only work on high end GPUs, andare less invariant to signers appearance and context.In this work we propose a gloss-free pose-based SLTmodel. Using the extracted pose as feature allow fora sign significant reduction in the dimensionality ofthe data and the size of the model. We evaluate thestate of the art, compare available models and developa keypoint-based Transformer model for gloss-freeSLT, trained on RWTH-Phoenix, a standard dataset forbenchmarking SLT models alongside GSL, a simplerlaboratory-made Greek Sign Language dataset.
 
La traducción de lenguaje de señas es una tarea desafiante, ya que atraviesa múltiples dominios, diferentes gramáticas y falta de datos. Actualmente, muchos modelos de SLT dependen de glosas como anotaciones intermedias o salidas. Estas pueden ayudar a los modelos a segmentar y alinear correctamente las señas para comprender mejor el video. Sin embargo, su uso conlleva limitaciones significativas, ya que obtenerlas es bastante difícil. Por lo tanto, escalar modelos basados en glosas a millones de muestras sigue siendo impráctico, especialmente considerando la escasez de bases de datos de lengua de señas. De igual forma, muchos modelos utilizan videos como entrada, lo que requiere de modelos más grandes que típicamente solo funcionan en GPUs de alta gama y son menos invariantes a la apariencia y el contexto de los señantes. En este trabajo proponemos un modelo de SLT basado en poses y sin glosas. Usar la pose extraída como entrada permite una reducción significativa en la dimensionalidad de los datos y en el tamaño del modelo. Evaluamos el estado del arte, comparamos modelos disponibles y desarrollamos un modelo Transformer basado en keypoints para SLT sin glosas, entrenado sobre RWTH-Phoenix, un conjunto de datos estándar para la evaluación de modelos SLT, y sobre GSL, un conjunto de datos de lengua de señas griega hecho en un laboratorio.
 
Palabras clave: Deep Learning , Gloss-free , Pose Estimation , Sign Language Datasets , Sign Language Translation
Ver el registro completo
 
Archivos asociados
Thumbnail
 
Tamaño: 592.9Kb
Formato: PDF
.
Descargar
Licencia
info:eu-repo/semantics/openAccess Excepto donde se diga explícitamente, este item se publica bajo la siguiente descripción: Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Unported (CC BY-NC-SA 2.5)
Identificadores
URI: http://hdl.handle.net/11336/247155
URL: https://journal.info.unlp.edu.ar/JCST/article/view/3480
DOI: http://dx.doi.org/10.24215/16666038.24.e09
Colecciones
Articulos(CCT - LA PLATA)
Articulos de CTRO.CIENTIFICO TECNOL.CONICET - LA PLATA
Citación
Dal Bianco, Pedro; Ríos, Gastón; Hasperué, Waldo; Stanchi, Oscar Agustín; Quiroga, Facundo; et al.; Study on pose-based deep learning models for gloss-free Sign Language Translation; Universidad Nacional de La Plata. Facultad de Informática; Journal of Computer Science and Technology; 24; 2; 10-2024; 99-103
Compartir
Altmétricas
 

Enviar por e-mail
Separar cada destinatario (hasta 5) con punto y coma.
  • Facebook
  • X Conicet Digital
  • Instagram
  • YouTube
  • Sound Cloud
  • LinkedIn

Los contenidos del CONICET están licenciados bajo Creative Commons Reconocimiento 2.5 Argentina License

https://www.conicet.gov.ar/ - CONICET

Inicio

Explorar

  • Autores
  • Disciplinas
  • Comunidades

Estadísticas

Novedades

  • Noticias
  • Boletines

Ayuda

Acerca de

  • CONICET Digital
  • Equipo
  • Red Federal

Contacto

Godoy Cruz 2290 (C1425FQB) CABA – República Argentina – Tel: +5411 4899-5400 repositorio@conicet.gov.ar
TÉRMINOS Y CONDICIONES