Resolução de correferências em língua portuguesa : pessoa, local e organização

Export this record:

Please use this identifier to cite or link to this item: https://tede2.pucrs.br/tede2/handle/tede/5257

Full metadata record

DC Field	Value	Language
dc.creator	Fonseca, Evandro Brasil	-
dc.creator.Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4247903U3	por
dc.contributor.advisor1	Vieira, Renata	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6218967777630412	por
dc.date.accessioned	2015-04-14T14:50:12Z	-
dc.date.available	2014-06-26	-
dc.date.issued	2014-03-21	-
dc.identifier.citation	FONSECA, Evandro Brasil. Resolução de correferências em língua portuguesa : pessoa, local e organização. 2014. 78 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2014.	por
dc.identifier.uri	http://tede2.pucrs.br/tede2/handle/tede/5257	-
dc.description.resumo	Resolução de correferências é um processo que consiste em identificar as diversas formas que uma mesma entidade nomeada pode assumir em um determinado texto. Em outras palavras, esse processo consiste em identificar determinados termos e expressões que remetem a uma mesma entidade. A resolução automática de correferência textual está inserida num contexto muito importante na área de Processamento da Linguagem Natural (PLN), pois vários sistemas necessitam dessa tarefa, como, por exemplo, a extração de relação entre entidades nomeadas. O nível de processamento linguístico depende do conhecimento de mundo, e isso ainda é um desafio para a área. A necessidade crescente por ferramentas de PLN e a escassez de recursos livres para a língua portuguesa motivaram trabalhar com essa língua nesta dissertação de mestrado. O presente trabalho teve por objetivo desenvolver uma ferramenta open source para a resolução de correferências em língua portuguesa, tendo como foco as categorias de entidades nomeadas Pessoa, Local e Organização. Optou-se por essas três categorias por essas serem as mais relevantes para a maioria das tarefas de PLN, pelo fato de tratarem entidades mais específicas e de interesse comum. Além disso, são as categorias mais exploradas em trabalhos voltados à resolução de correferência. Escolheu-se trabalhar apenas com recursos open source pelo fato de a maioria dos trabalhos para a língua portuguesa utilizar recursos proprietários. Isso acaba limitando a disponibilidade da ferramenta e, consequentemente, o seu uso. A metodologia utilizada é baseada em aprendizado de máquina supervisionado. Para tal, o uso de features que auxiliem na correta classificação de pares de sintagmas como correferentes ou não-correferentes é fundamental para,posteriormente,agrupá-los, gerando cadeias de correferência.Embora ainda existam muitos desafios a serem resolvidos, os resultados do sistema descrito nesta dissertação são animadores, quando comparados indiretamente, por meio de uma mesma métrica, ao atual estado da arte.	por
dc.description.abstract	Coreference resolution is a process that consists in identifying the several forms that a specific named entity may assume on certain text. In other words, this process consists in identifying certain terms and expressions that refer certain named entity. The automatic textual coreference resolution is in a very important context in the Natural Language Processing (NLP) area, because several systems need itstasks, such as the relation extraction between named entities. The linguistic processing level depends on the knowledgeabout the world, and this is a challenge for thisarea, mainly for the Portuguese language. The growing necessity of NLP tools and the lack of open source resources for Portuguese have inspired the research on this language, and they became the focus of this dissertation. The present work aims at building an open source tool for the Coreference resolution in Portuguese, focusing on the Person, Location and Organization domains. These three categories were chosen given their relevance for most NLP tasks, because they represent more specifically entities of common interest.Furthermore, they are the most explored categories in the related works. The choice for working only with open source resourcesis because most of related works forPortuguese usesprivate software, which limits his availability and his usability.The methodology is based on supervised machine learning. For this task, the use of features that help on the correct classification of noun phrase pairs as coreferent or non-coreferent are essential for grouping them later, thus building coreference chains.Although there are still many challenges to be overcome, the results of the system described in this dissertationare encouraging when compared indirectly, by using the same metric,to the current state of the art.	eng
dc.description.provenance	Made available in DSpace on 2015-04-14T14:50:12Z (GMT). No. of bitstreams: 1 458767.pdf: 3173862 bytes, checksum: 0f4ea1ec0b9741e176522697d0d4dd1d (MD5) Previous issue date: 2014-03-21	eng
dc.format	application/pdf	por
dc.thumbnail.url	http://tede2.pucrs.br:80/tede2/retrieve/15441/458767.pdf.jpg	*
dc.language	por	por
dc.publisher	Pontifícia Universidade Católica do Rio Grande do Sul	por
dc.publisher.department	Faculdade de Informáca	por
dc.publisher.country	BR	por
dc.publisher.initials	PUCRS	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	por
dc.rights	Acesso Aberto	por
dc.subject	INFORMÁTICA	por
dc.subject	PROCESSAMENTO DA LINGUAGEM NATURAL	por
dc.subject	LINGUÍSTICA COMPUTACIONAL	por
dc.subject	APRENDIZAGEM DE MÁQUINA	por
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.title	Resolução de correferências em língua portuguesa : pessoa, local e organização	por
dc.type	Dissertação	por
Appears in Collections:	Programa de Pós-Graduação em Ciência da Computação

Files in This Item:

File	Description	Size	Format
458767.pdf	Texto Completo	3.1 MB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

PUCRS

Digital Library of Theses and Dissertations