Artículo
Action recognition in videos is currently a topic of interest in the area of computer vision, due to potential applications such as: multimedia indexing, surveillance in public spaces, among others. In this paper we propose (1) The implementation of a CNN–LSTM architecture. First, a pre-trained VGG16 convolutional neural network extracts the features of the input video. Then, an LSTM classifies the video sequence in a particular class. (2) A study of how the number of LSTM units affects the performance of the system. To carry out the training and test phases, we used the KTH, UCF-11 and HMDB-51 datasets. (3) An evaluation of the performance of our system using accuracy as evaluation metric, given the existing balance of the classes in the datasets. We obtain 93%, 91% and 47% accuracy respectively for each dataset, improving state of the art results for the former two. Besides the results attained, the main contribution of this work lays on the evaluation of different CNN-LSTM architectures for the action recognition task. El reconocimiento de acciones en videos es actualmente un tema de interés en el área de visión por computadora, debido a potenciales aplicaciones como: indexación multimedia, vigilancia en espacios públicos, entre otras. En este artículo proponemos: (1) Implementar una arquitectura CNN–LSTM para esta tarea. Primero, una red neuronal convolucional VGG16 previamente entrenada extrae las características del video de entrada. Luego, una capa LSTM determina la clase particular del video. (2) Estudiar cómo la cantidad de unidades LSTM afecta el rendimiento del sistema. Para llevar a cabo las fases de entrenamiento y prueba, utilizamos los conjuntos de datos KTH, UCF-11 y HMDB-51. (3) Evaluar el rendimiento de nuestro sistema utilizando la precisión como métrica de evaluación, dado el balance existente entre las clases de los conjuntos de datos. Obtenemos un 93%, 91% y 47% de precisión respectivamente para cada conjunto de datos, mejorando los resultados del estado del arte para los primeros dos. Además de los resultados obtenidos, la principal contribución de este trabajo yace en la evaluación de diferentes arquitecturas CNN-LSTM para la tarea de reconocimiento de acciones
Human Action Recognition in Videos using a Robust CNN LSTM Approach
Título:
Reconocimiento de Acciones Humanas en Videos usando una Red Neuronal CNN LSTM Robusta
Fecha de publicación:
30/12/2020
Editorial:
Universidad de Palermo. Facultad de Ingeniería
Revista:
Ciencia y Tecnología
ISSN:
1850-0870
e-ISSN:
2344-9217
Idioma:
Inglés
Tipo de recurso:
Artículo publicado
Clasificación temática:
Resumen
Archivos asociados
Licencia
Identificadores
Colecciones
Articulos(ICSOH)
Articulos de INST.DE INVEST. EN CS. SOC. Y HUMANIDADES
Articulos de INST.DE INVEST. EN CS. SOC. Y HUMANIDADES
Citación
Orozco, Carlos Ismael; Xamena, Eduardo; Buemi, María Elena; Berlles, Julio Jacobo; Human Action Recognition in Videos using a Robust CNN LSTM Approach; Universidad de Palermo. Facultad de Ingeniería; Ciencia y Tecnología; 2020; 20; 30-12-2020; 23-36
Compartir
Altmétricas