Study on pose-based deep learning models for gloss-free Sign Language Translation

Dal Bianco, Pedro; Ríos, Gastón; Hasperué, Waldo; Stanchi, Oscar Agustín; Quiroga, Facundo; Ronchetti, Franco

doi:10.24215/16666038.24.e09

Mostrar el registro sencillo del ítem

dc.contributor.author

Dal Bianco, Pedro

dc.contributor.author

Ríos, Gastón

dc.contributor.author

Hasperué, Waldo Se ha confirmado la validez de este valor de autoridad por un usuario

dc.contributor.author

Stanchi, Oscar Agustín Se ha confirmado la validez de este valor de autoridad por un usuario

dc.contributor.author

Quiroga, Facundo

dc.contributor.author

Ronchetti, Franco Se ha confirmado la validez de este valor de autoridad por un usuario

dc.date.available

2024-11-04T11:29:49Z

dc.date.issued

2024-10

dc.identifier.citation

Dal Bianco, Pedro; Ríos, Gastón; Hasperué, Waldo; Stanchi, Oscar Agustín; Quiroga, Facundo; et al.; Study on pose-based deep learning models for gloss-free Sign Language Translation; Universidad Nacional de La Plata. Facultad de Informática; Journal of Computer Science and Technology; 24; 2; 10-2024; 99-103

dc.identifier.issn

1666-6046

dc.identifier.uri

http://hdl.handle.net/11336/247155

dc.description.abstract

Sign Language Translation (SLT) is a challenging taskdue to its cross-domain nature, different grammarsand lack of data. Currently, many SLT models relyon intermediate gloss annotations as outputs or latentpriors. Glosses can help models to correctly segmentand align signs to better understand the video. How-ever, the use of glosses comes with significant limi-tations, since obtaining annotations is quite difficult.Therefore, scaling gloss-based models to millions ofsamples remains impractical, specially considering thescarcity of sign language datasets. In a similar fashion,many models use video data that requires larger mod-els which typically only work on high end GPUs, andare less invariant to signers appearance and context.In this work we propose a gloss-free pose-based SLTmodel. Using the extracted pose as feature allow fora sign significant reduction in the dimensionality ofthe data and the size of the model. We evaluate thestate of the art, compare available models and developa keypoint-based Transformer model for gloss-freeSLT, trained on RWTH-Phoenix, a standard dataset forbenchmarking SLT models alongside GSL, a simplerlaboratory-made Greek Sign Language dataset.

dc.description.abstract

La traducción de lenguaje de señas es una tarea desafiante, ya que atraviesa múltiples dominios, diferentes gramáticas y falta de datos. Actualmente, muchos modelos de SLT dependen de glosas como anotaciones intermedias o salidas. Estas pueden ayudar a los modelos a segmentar y alinear correctamente las señas para comprender mejor el video. Sin embargo, su uso conlleva limitaciones significativas, ya que obtenerlas es bastante difícil. Por lo tanto, escalar modelos basados en glosas a millones de muestras sigue siendo impráctico, especialmente considerando la escasez de bases de datos de lengua de señas. De igual forma, muchos modelos utilizan videos como entrada, lo que requiere de modelos más grandes que típicamente solo funcionan en GPUs de alta gama y son menos invariantes a la apariencia y el contexto de los señantes. En este trabajo proponemos un modelo de SLT basado en poses y sin glosas. Usar la pose extraída como entrada permite una reducción significativa en la dimensionalidad de los datos y en el tamaño del modelo. Evaluamos el estado del arte, comparamos modelos disponibles y desarrollamos un modelo Transformer basado en keypoints para SLT sin glosas, entrenado sobre RWTH-Phoenix, un conjunto de datos estándar para la evaluación de modelos SLT, y sobre GSL, un conjunto de datos de lengua de señas griega hecho en un laboratorio.

dc.format

application/pdf

dc.language.iso

eng

dc.publisher

Universidad Nacional de La Plata. Facultad de Informática

dc.rights

info:eu-repo/semantics/openAccess

dc.rights.uri

https://creativecommons.org/licenses/by-nc-sa/2.5/ar/

dc.subject

Deep Learning

dc.subject

Gloss-free

dc.subject

Pose Estimation

dc.subject

Sign Language Datasets

dc.subject

Sign Language Translation

dc.subject.classification

Otras Ciencias de la Computación e Información Se ha confirmado la validez de este valor de autoridad por un usuario

dc.subject.classification

Ciencias de la Computación e Información Se ha confirmado la validez de este valor de autoridad por un usuario

dc.subject.classification

CIENCIAS NATURALES Y EXACTAS Se ha confirmado la validez de este valor de autoridad por un usuario

dc.title

Study on pose-based deep learning models for gloss-free Sign Language Translation

dc.title

Estudio sobre modelos de aprendizaje profundo basados en poses para Traducción de Lengua de Señas sin glosas

dc.type

info:eu-repo/semantics/article

dc.type

info:ar-repo/semantics/artículo

dc.type

info:eu-repo/semantics/publishedVersion

dc.date.updated

2024-11-01T11:27:09Z

dc.identifier.eissn

1666-6038

dc.journal.volume

24

dc.journal.number

2

dc.journal.pagination

99-103

dc.journal.pais

Argentina

dc.journal.ciudad

La Plata

dc.description.fil

Fil: Dal Bianco, Pedro. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina

dc.description.fil

Fil: Ríos, Gastón. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina

dc.description.fil

Fil: Hasperué, Waldo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina

dc.description.fil

Fil: Stanchi, Oscar Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina

dc.description.fil

Fil: Quiroga, Facundo. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina

dc.description.fil

Fil: Ronchetti, Franco. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina

dc.journal.title

Journal of Computer Science and Technology

dc.relation.alternativeid

info:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/3480

dc.relation.alternativeid

info:eu-repo/semantics/altIdentifier/doi/http://dx.doi.org/10.24215/16666038.24.e09

Archivos asociados

Tamaño: 592.9Kb

Formato: PDF

Descargar