Complementary models for audio-visual speech classification

Sad, Gonzalo Daniel; Terissi, Lucas Daniel; Gómez, Juan C.

doi:10.1007/s10772-021-09944-7

Mostrar el registro sencillo del ítem

dc.contributor.author

Sad, Gonzalo Daniel Se ha confirmado la validez de este valor de autoridad por un usuario

dc.contributor.author

Terissi, Lucas Daniel Se ha confirmado la validez de este valor de autoridad por un usuario

dc.contributor.author

Gómez, Juan C.

dc.date.available

2023-09-08T14:31:29Z

dc.date.issued

2022-03

dc.identifier.citation

Sad, Gonzalo Daniel; Terissi, Lucas Daniel; Gómez, Juan C.; Complementary models for audio-visual speech classification; Springer; International Journal of Speech Technology; 25; 1; 3-2022; 231-249

dc.identifier.issn

1381-2416

dc.identifier.uri

http://hdl.handle.net/11336/210949

dc.description.abstract

A novel scheme for disambiguating conflicting classification results in Audio-Visual Speech Recognition applications is proposed in this paper. The classification scheme can be implemented with both generative and discriminative models and can be used with different input modalities, viz. only audio, only visual, and audio visual information. The proposed scheme consists of the cascade connection of a standard classifier, trained with instances of each particular class, followed by a complementary model which is trained with instances of all the remaining classes. The performance of the proposed recognition system is evaluated on three publicly available audio-visual datasets, and using a generative model, namely a Hidden Markov model, and three discriminative techniques, viz. random forests, support vector machines, and adaptive boosting. The experimental results are promising in the sense that for the three datasets, the different models, and the different input modalities, improvements in the recognition rates are achieved in comparison to other methods reported in the literature over the same datasets.

dc.format

application/pdf

dc.language.iso

eng

dc.publisher

Springer

dc.rights

info:eu-repo/semantics/restrictedAccess

dc.rights.uri

https://creativecommons.org/licenses/by-nc-sa/2.5/ar/

dc.subject

AUDIO-VISUAL SPEECH

dc.subject

CLASSIFIER COMBINATION

dc.subject

COMPLEMENTARY MODELS

dc.subject

SPEECH CLASSIFICATION

dc.subject.classification

Otras Ciencias de la Computación e Información Se ha confirmado la validez de este valor de autoridad por un usuario

dc.subject.classification

Ciencias de la Computación e Información Se ha confirmado la validez de este valor de autoridad por un usuario

dc.subject.classification

CIENCIAS NATURALES Y EXACTAS Se ha confirmado la validez de este valor de autoridad por un usuario

dc.title

Complementary models for audio-visual speech classification

dc.type

info:eu-repo/semantics/article

dc.type

info:ar-repo/semantics/artículo

dc.type

info:eu-repo/semantics/publishedVersion

dc.date.updated

2023-07-04T15:57:03Z

dc.identifier.eissn

1572-8110

dc.journal.volume

25

dc.journal.number

1

dc.journal.pagination

231-249

dc.journal.pais

Estados Unidos Se ha confirmado la validez de este valor de autoridad por un usuario

dc.description.fil

Fil: Sad, Gonzalo Daniel. Universidad Nacional de Rosario. Facultad de Ciencias Exactas, Ingeniería y Agrimensura; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas. Universidad Nacional de Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas; Argentina

dc.description.fil

Fil: Terissi, Lucas Daniel. Universidad Nacional de Rosario. Facultad de Ciencias Exactas, Ingeniería y Agrimensura; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas. Universidad Nacional de Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas; Argentina

dc.description.fil

Fil: Gómez, Juan C.. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas. Universidad Nacional de Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas; Argentina. Universidad Nacional de Rosario. Facultad de Ciencias Exactas, Ingeniería y Agrimensura; Argentina

dc.journal.title

International Journal of Speech Technology

dc.relation.alternativeid

info:eu-repo/semantics/altIdentifier/doi/http://dx.doi.org/10.1007/s10772-021-09944-7

Archivos asociados

Tamaño: 1.358Mb

Formato: PDF

Solicitar