Detecção de linguagem tóxica aplicada a textos em português

Export this record:

Please use this identifier to cite or link to this item: https://tede2.pucrs.br/tede2/handle/tede/10782

Full metadata record

DC Field	Value	Language
dc.creator	Trajano, Douglas de Oliveira	-
dc.creator.Lattes	http://lattes.cnpq.br/5924591783668175	por
dc.contributor.advisor1	Bordini, Rafael Heitor	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4589262718627942	por
dc.date.accessioned	2023-05-25T17:02:12Z	-
dc.date.issued	2023-02-27	-
dc.identifier.uri	https://tede2.pucrs.br/tede2/handle/tede/10782	-
dc.description.resumo	As redes sociais têm revolucionado a forma como a sociedade se comunica, graças à sua natureza descentralizada que permite a interação entre os usuários. No entanto, as mensagens que circulam nas redes sociais podem conter expressões de opinião, mensagens de apoio e, mas também discurso de ódio. O discurso de ódio é um problema crescente na esfera digital, geralmente causado pela polarização de opiniões ou pela falsa sensação de impunidade. Os haters, usuários que disseminam o discurso de ódio, podem ser encontrados em uma variedade de tópicos, incluindo debates políticos, entretenimento, jogos online e ambientes corporativos. A área de Processamento de Linguagem Natural (PLN) pode contribuir com ferramentas para assegurar uma comunicação saudável e garantir os direitos dos usuários no mundo digital, agindo de forma rápida, padronizada e automatizada, evitando a necessidade de moderação manual deste tipo de conteúdo. Neste estudo, utilizamos técnicas avançadas de aprendizado de máquina e aprendizado profundo para desenvolver um sistema de detecção de linguagem tóxica em mensagens em Português. O conjunto de dados utilizado para o treinamento dos modelos é composto por 6.354 (com possibilidade de extensão para 13.538) comentários anotados manualmente por especialistas. Este conjunto de dados, disponibilizado como parte do trabalho, possui anotações para 5 tarefas de PLN, utilizando um esquema de anotação hierárquico com diferentes níveis de granularidade. Os resultados dos experimentos demonstram a utilidade desse conjunto de dados para o desenvolvimento de sistemas de PLN voltados para a detecção de linguagem tóxica em textos em Português.	por
dc.description.abstract	The advent of social media has transformed the way in which individuals and communities interact and communicate. However, the messages on social media may contain expressions of opinion, and support messages, but they can also hate speech. The proliferation of hate speech in the digital sphere has become an increasingly pressing issue, with polarized opinions and a sense of anonymity and impunity among users often serving as contributing factors. The haters, users who spread hate speech, can be found in a variety of topics, including political discussions, entertainment, gaming, and corporate environments. The Natural Language Processing (NLP) area can contribute with tools to ensure healthy communication and protect users’ rights online. NLP applications are efficient, standardized, and automated, eliminating the need for manual moderation of such content. In this study, we used advanced machine learning and deep learning techniques to develop a toxic language detection system in Portuguese messages. The dataset used for training the models consists of 6,354 (with the possibility of extending to 13,538) comments manually annotated by experts. This dataset, made available as part of the work, has annotations for 5 NLP tasks, using a hierarchical annotation scheme with different levels of granularity. The results of the experiments demonstrate the usefulness of this dataset for the development of NLP systems aimed at detecting toxic language in texts in Portuguese.	eng
dc.description.provenance	Submitted by PPG Ciência da Computação ([email protected]) on 2023-05-11T18:15:15Z No. of bitstreams: 1 DOUGLAS DE OLIVEIRA TRAJANO_DIS.pdf: 1508066 bytes, checksum: c0d1176f79f14a57ab325767922b4d63 (MD5)	eng
dc.description.provenance	Approved for entry into archive by Sheila Dias ([email protected]) on 2023-05-25T16:55:30Z (GMT) No. of bitstreams: 1 DOUGLAS DE OLIVEIRA TRAJANO_DIS.pdf: 1508066 bytes, checksum: c0d1176f79f14a57ab325767922b4d63 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2023-05-25T17:02:12Z (GMT). No. of bitstreams: 1 DOUGLAS DE OLIVEIRA TRAJANO_DIS.pdf: 1508066 bytes, checksum: c0d1176f79f14a57ab325767922b4d63 (MD5) Previous issue date: 2023-02-27	eng
dc.format	application/pdf	*
dc.thumbnail.url	https://tede2.pucrs.br/tede2/retrieve/187591/DOUGLAS%20DE%20OLIVEIRA%20TRAJANO_DIS.pdf.jpg	*
dc.language	por	por
dc.publisher	Pontifícia Universidade Católica do Rio Grande do Sul	por
dc.publisher.department	Escola Politécnica	por
dc.publisher.country	Brasil	por
dc.publisher.initials	PUCRS	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	por
dc.rights	Acesso Aberto	por
dc.subject	Processamento de Linguagem Natural	por
dc.subject	Extração de Informações	por
dc.subject	Classificação de Texto	por
dc.subject	Reconhecimento de Entidades	por
dc.subject	Detecção de Discurso de Ódio	por
dc.subject	Linguagem Tóxica	por
dc.subject	Comentário Ofensivo	por
dc.subject	Segurança Online	por
dc.subject	Comentário Tóxico	por
dc.subject	Toxicidade	por
dc.subject	Racismo	por
dc.subject	Homofobia	por
dc.subject	Xenofobia	por
dc.subject	Natural Language Processing	eng
dc.subject	Information Extraction	eng
dc.subject	Text Classification	eng
dc.subject	NamedEntity Recognition	eng
dc.subject	Hate Speech Detection	eng
dc.subject	Toxic Language	eng
dc.subject	Offensive Comment	eng
dc.subject	Toxic Comment	eng
dc.subject	Toxicity	eng
dc.subject	Racism	eng
dc.subject	Homophobia	eng
dc.subject	Xenophobia	eng
dc.subject.cnpq	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO	por
dc.title	Detecção de linguagem tóxica aplicada a textos em português	por
dc.type	Dissertação	por
dc.restricao.situacao	Trabalho não apresenta restrição para publicação	por
Appears in Collections:	Programa de Pós-Graduação em Ciência da Computação

Files in This Item:

File	Description	Size	Format
DOUGLAS DE OLIVEIRA TRAJANO_DIS.pdf	DOUGLAS_DE_OLIVEIRA_TRAJANO_DIS	1.47 MB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

PUCRS

Digital Library of Theses and Dissertations