Export this record: EndNote BibTex

Please use this identifier to cite or link to this item: https://tede2.pucrs.br/tede2/handle/tede/11629
Document type: Dissertação
Title: Isolated sign language recognition in LIBRAS
Other Titles: Reconhecimento de sinais isolados de LIBRAS
Author: Delucis, Marcelo Mussi 
Advisor: Kupssinskü, Lucas Silveira
First advisor-co: Barros, Rodrigo Coelho
Abstract (native): The present work focuses on the isolated recognition of sign language in Brazilian Sign Language (LIBRAS), essential for promoting digital accessibility for the Deaf community. However, data scarcity and the limited diversity of available signs and actors hinder the development of models capable of generalization and advancement in the field. Previous works, such as the MINDS dataset, are limited to reduced vocabularies, controlled environments, and low signer diversity, which tends to result, in some cases, in super-specialized models with low accuracy in scenarios different from what is seen in the training set. To address current limitations, a dataset, MALTA-LIBRAS, was developed, constructed by collecting publicly available LIBRAS videos, introducing variability in signers, environments, and recording conditions. Three architectures based on Transformers, VideoMAE, TimeSformer, and ViViT, are investigated in three experimental configurations: pre-training on action recognition datasets, application of data augmentation strategies, and exploration of possible knowledge transfer between sign languages using datasets from North American and Russian sign languages. Results on the MALTA-LIBRAS dataset indicate that models pre-trained on action recognition tasks achieve 29% accuracy, while models without pre-training achieve the equivalent of random prediction. Data augmentation techniques aid model generalization, increasing accuracy from 29% to 33.6%. Knowledge transfer between languages to LIBRAS proved limited, with gains of 2.7% in accuracy, reinforcing the need for domain-specific adaptation. It is concluded that data diversity (signers, environments) is as crucial as volume for real-world applications, and a unified framework for SLR in low-resource scenarios is proposed, combining pre-training on human actions, targeted data augmentation, and fine-tuning.
Abstract (english): O presente trabalho tem foco no reconhecimento isolado da língua de sinais na Língua Brasileira de Sinais, fundamental para promover acessibilidade digital à comunidade surda. Porém, a escassez de dados e a diversidade limitada de sinais disponíveis e atores dificultam o desenvolvimento de modelos capazes de generalização e avanço na área. Trabalhos anteriores, como o dataset MINDS, limitam-se a vocabulários reduzidos, ambientes controlados e baixa diversidade de sinalizadores, o que tende a resultar, em alguns casos, em modelos super-especializados e com baixa acurácia em cenários diferentes do que é visto no conjunto de treinamento. Com o intuito de abordar as atuais limitações, foi desenvolvido um conjunto de dados, MALTA-LIBRAS, construído pela coleção de vídeos de LIBRAS disponíveis publicamente, introduzindo variabilidade em sinalizadores, ambientes e condições de gravação. Três arquiteturas baseadas em Transformers, VideoMAE, TimeSformer e ViViT, são investigadas em três configurações experimentais: pré-treinamento em conjuntos de dados de reconhecimento de ações, aplicação de estratégias de aumento de dados e exploração de possível transferência de conhecimento entre línguas de sinais a partir de conjuntos de dados das línguas de sinais norte americana e russa. Resultados no dataset MALTA-LIBRAS indicam que os modelos pré-treinados em tarefas de reconhecimento de ações atingem 29% de acurácia, enquanto modelos sem pré-treino atingem o equivalente a predição aleatória. Técnicas de aumento de dados auxiliam na generalização do modelo, aumentando a acurácia de 29% para 33,6%. A transferência de conhecimento entre línguas para LIBRAS mostrou-se limitada, com ganhos de 2,7% em acurácia, reforçando a necessidade de adaptação específica por domínio. Conclui-se que a diversidade de dados (sinalizadores, ambientes) é tão crucial quanto o volume para aplicações reais, e é proposto um framework unificado para SLR em cenários de baixos recursos, combinando pré-treinamento em ações humanas, aumento de dados direcionado e fine-tuning.
Keywords: LIBRAS
Isolated Sign Language Recognition
Vision Transformers
Reconhecimento Isolado de Línguas de Sinais
CNPQ Knowledge Areas: CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
Language: eng
Country: Brasil
Publisher: Pontifícia Universidade Católica do Rio Grande do Sul
Institution Acronym: PUCRS
Department: Escola Politécnica
Program: Programa de Pós-Graduação em Ciência da Computação
Access type: Acesso Aberto
Fulltext access restriction: Trabalho não apresenta restrição para publicação
URI: https://tede2.pucrs.br/tede2/handle/tede/11629
Issue Date: 6-Mar-2025
Appears in Collections:Programa de Pós-Graduação em Ciência da Computação

Files in This Item:
File Description SizeFormat 
MARCELO_MUSSI_DELUCIS_DIS.pdfMARCELO_MUSSI_DELUCIS_DIS2.73 MBAdobe PDFThumbnail

Download/Open Preview


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.