Export this record: EndNote BibTex

Please use this identifier to cite or link to this item: https://tede2.pucrs.br/tede2/handle/tede/11629
Full metadata record
DC FieldValueLanguage
dc.creatorDelucis, Marcelo Mussi-
dc.creator.Latteshttp://lattes.cnpq.br/9944471444662969por
dc.contributor.advisor1Kupssinskü, Lucas Silveira-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7949995756060059por
dc.contributor.advisor-co1Barros, Rodrigo Coelho-
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/8172124241767828por
dc.date.accessioned2025-05-27T13:12:08Z-
dc.date.issued2025-03-06-
dc.identifier.urihttps://tede2.pucrs.br/tede2/handle/tede/11629-
dc.description.resumoThe present work focuses on the isolated recognition of sign language in Brazilian Sign Language (LIBRAS), essential for promoting digital accessibility for the Deaf community. However, data scarcity and the limited diversity of available signs and actors hinder the development of models capable of generalization and advancement in the field. Previous works, such as the MINDS dataset, are limited to reduced vocabularies, controlled environments, and low signer diversity, which tends to result, in some cases, in super-specialized models with low accuracy in scenarios different from what is seen in the training set. To address current limitations, a dataset, MALTA-LIBRAS, was developed, constructed by collecting publicly available LIBRAS videos, introducing variability in signers, environments, and recording conditions. Three architectures based on Transformers, VideoMAE, TimeSformer, and ViViT, are investigated in three experimental configurations: pre-training on action recognition datasets, application of data augmentation strategies, and exploration of possible knowledge transfer between sign languages using datasets from North American and Russian sign languages. Results on the MALTA-LIBRAS dataset indicate that models pre-trained on action recognition tasks achieve 29% accuracy, while models without pre-training achieve the equivalent of random prediction. Data augmentation techniques aid model generalization, increasing accuracy from 29% to 33.6%. Knowledge transfer between languages to LIBRAS proved limited, with gains of 2.7% in accuracy, reinforcing the need for domain-specific adaptation. It is concluded that data diversity (signers, environments) is as crucial as volume for real-world applications, and a unified framework for SLR in low-resource scenarios is proposed, combining pre-training on human actions, targeted data augmentation, and fine-tuning.por
dc.description.abstractO presente trabalho tem foco no reconhecimento isolado da língua de sinais na Língua Brasileira de Sinais, fundamental para promover acessibilidade digital à comunidade surda. Porém, a escassez de dados e a diversidade limitada de sinais disponíveis e atores dificultam o desenvolvimento de modelos capazes de generalização e avanço na área. Trabalhos anteriores, como o dataset MINDS, limitam-se a vocabulários reduzidos, ambientes controlados e baixa diversidade de sinalizadores, o que tende a resultar, em alguns casos, em modelos super-especializados e com baixa acurácia em cenários diferentes do que é visto no conjunto de treinamento. Com o intuito de abordar as atuais limitações, foi desenvolvido um conjunto de dados, MALTA-LIBRAS, construído pela coleção de vídeos de LIBRAS disponíveis publicamente, introduzindo variabilidade em sinalizadores, ambientes e condições de gravação. Três arquiteturas baseadas em Transformers, VideoMAE, TimeSformer e ViViT, são investigadas em três configurações experimentais: pré-treinamento em conjuntos de dados de reconhecimento de ações, aplicação de estratégias de aumento de dados e exploração de possível transferência de conhecimento entre línguas de sinais a partir de conjuntos de dados das línguas de sinais norte americana e russa. Resultados no dataset MALTA-LIBRAS indicam que os modelos pré-treinados em tarefas de reconhecimento de ações atingem 29% de acurácia, enquanto modelos sem pré-treino atingem o equivalente a predição aleatória. Técnicas de aumento de dados auxiliam na generalização do modelo, aumentando a acurácia de 29% para 33,6%. A transferência de conhecimento entre línguas para LIBRAS mostrou-se limitada, com ganhos de 2,7% em acurácia, reforçando a necessidade de adaptação específica por domínio. Conclui-se que a diversidade de dados (sinalizadores, ambientes) é tão crucial quanto o volume para aplicações reais, e é proposto um framework unificado para SLR em cenários de baixos recursos, combinando pré-treinamento em ações humanas, aumento de dados direcionado e fine-tuning.por
dc.description.provenanceSubmitted by PPG Ciência da Computação ([email protected]) on 2025-05-16T18:32:56Z No. of bitstreams: 1 MARCELO_MUSSI_DELUCIS_DIS.pdf: 2793263 bytes, checksum: 744f974b2307666f904aa03a8c3f1e9f (MD5)eng
dc.description.provenanceApproved for entry into archive by Náthali Aquino ([email protected]) on 2025-05-27T12:47:19Z (GMT) No. of bitstreams: 1 MARCELO_MUSSI_DELUCIS_DIS.pdf: 2793263 bytes, checksum: 744f974b2307666f904aa03a8c3f1e9f (MD5)eng
dc.description.provenanceMade available in DSpace on 2025-05-27T13:12:08Z (GMT). No. of bitstreams: 1 MARCELO_MUSSI_DELUCIS_DIS.pdf: 2793263 bytes, checksum: 744f974b2307666f904aa03a8c3f1e9f (MD5) Previous issue date: 2025-03-06eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpor
dc.formatapplication/pdf*
dc.thumbnail.urlhttps://tede2.pucrs.br/tede2/retrieve/193697/MARCELO_MUSSI_DELUCIS_DIS.pdf.jpg*
dc.languageengpor
dc.publisherPontifícia Universidade Católica do Rio Grande do Sulpor
dc.publisher.departmentEscola Politécnicapor
dc.publisher.countryBrasilpor
dc.publisher.initialsPUCRSpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopor
dc.rightsAcesso Abertopor
dc.subjectLIBRASeng
dc.subjectIsolated Sign Language Recognitioneng
dc.subjectVision Transformerseng
dc.subjectReconhecimento Isolado de Línguas de Sinaispor
dc.subject.cnpqCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOpor
dc.titleIsolated sign language recognition in LIBRASpor
dc.title.alternativeReconhecimento de sinais isolados de LIBRASpor
dc.typeDissertaçãopor
dc.restricao.situacaoTrabalho não apresenta restrição para publicaçãopor
Appears in Collections:Programa de Pós-Graduação em Ciência da Computação

Files in This Item:
File Description SizeFormat 
MARCELO_MUSSI_DELUCIS_DIS.pdfMARCELO_MUSSI_DELUCIS_DIS2.73 MBAdobe PDFThumbnail

Download/Open Preview


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.