Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tede2.pucrs.br/tede2/handle/tede/10782
Tipo do documento: Dissertação
Título: Detecção de linguagem tóxica aplicada a textos em português
Autor: Trajano, Douglas de Oliveira 
Primeiro orientador: Bordini, Rafael Heitor
Resumo: As redes sociais têm revolucionado a forma como a sociedade se comunica, graças à sua natureza descentralizada que permite a interação entre os usuários. No entanto, as mensagens que circulam nas redes sociais podem conter expressões de opinião, mensagens de apoio e, mas também discurso de ódio. O discurso de ódio é um problema crescente na esfera digital, geralmente causado pela polarização de opiniões ou pela falsa sensação de impunidade. Os haters, usuários que disseminam o discurso de ódio, podem ser encontrados em uma variedade de tópicos, incluindo debates políticos, entretenimento, jogos online e ambientes corporativos. A área de Processamento de Linguagem Natural (PLN) pode contribuir com ferramentas para assegurar uma comunicação saudável e garantir os direitos dos usuários no mundo digital, agindo de forma rápida, padronizada e automatizada, evitando a necessidade de moderação manual deste tipo de conteúdo. Neste estudo, utilizamos técnicas avançadas de aprendizado de máquina e aprendizado profundo para desenvolver um sistema de detecção de linguagem tóxica em mensagens em Português. O conjunto de dados utilizado para o treinamento dos modelos é composto por 6.354 (com possibilidade de extensão para 13.538) comentários anotados manualmente por especialistas. Este conjunto de dados, disponibilizado como parte do trabalho, possui anotações para 5 tarefas de PLN, utilizando um esquema de anotação hierárquico com diferentes níveis de granularidade. Os resultados dos experimentos demonstram a utilidade desse conjunto de dados para o desenvolvimento de sistemas de PLN voltados para a detecção de linguagem tóxica em textos em Português.
Abstract: The advent of social media has transformed the way in which individuals and communities interact and communicate. However, the messages on social media may contain expressions of opinion, and support messages, but they can also hate speech. The proliferation of hate speech in the digital sphere has become an increasingly pressing issue, with polarized opinions and a sense of anonymity and impunity among users often serving as contributing factors. The haters, users who spread hate speech, can be found in a variety of topics, including political discussions, entertainment, gaming, and corporate environments. The Natural Language Processing (NLP) area can contribute with tools to ensure healthy communication and protect users’ rights online. NLP applications are efficient, standardized, and automated, eliminating the need for manual moderation of such content. In this study, we used advanced machine learning and deep learning techniques to develop a toxic language detection system in Portuguese messages. The dataset used for training the models consists of 6,354 (with the possibility of extending to 13,538) comments manually annotated by experts. This dataset, made available as part of the work, has annotations for 5 NLP tasks, using a hierarchical annotation scheme with different levels of granularity. The results of the experiments demonstrate the usefulness of this dataset for the development of NLP systems aimed at detecting toxic language in texts in Portuguese.
Palavras-chave: Processamento de Linguagem Natural
Extração de Informações
Classificação de Texto
Reconhecimento de Entidades
Detecção de Discurso de Ódio
Linguagem Tóxica
Comentário Ofensivo
Segurança Online
Comentário Tóxico
Toxicidade
Racismo
Homofobia
Xenofobia
Natural Language Processing
Information Extraction
Text Classification
NamedEntity Recognition
Hate Speech Detection
Toxic Language
Offensive Comment
Toxic Comment
Toxicity
Racism
Homophobia
Xenophobia
Área(s) do CNPq: CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
Idioma: por
País: Brasil
Instituição: Pontifícia Universidade Católica do Rio Grande do Sul
Sigla da instituição: PUCRS
Departamento: Escola Politécnica
Programa: Programa de Pós-Graduação em Ciência da Computação
Tipo de acesso: Acesso Aberto
Restrição de acesso: Trabalho não apresenta restrição para publicação
URI: https://tede2.pucrs.br/tede2/handle/tede/10782
Data de defesa: 27-Fev-2023
Aparece nas coleções:Programa de Pós-Graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DOUGLAS DE OLIVEIRA TRAJANO_DIS.pdfDOUGLAS_DE_OLIVEIRA_TRAJANO_DIS1,47 MBAdobe PDFThumbnail

Baixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.