Extração de relações do domínio de organizações para o português

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tede2.pucrs.br/tede2/handle/tede/5248

Tipo do documento:	Tese
Título:	Extração de relações do domínio de organizações para o português
Autor:	Abreu, Sandra Collovini de
Primeiro orientador:	Vieira, Renata
Resumo:	A tarefa de Extração de Relações a partir de textos é um dos principais desafios da área de Extração de Informação, tendo em vista o conhecimento linguístico exigido e a sofisticação das técnicas de processamento da língua empregados. Essa tarefa visa identificar e classificar relações semânticas que ocorrem entre entidades reconhecidas em um determinado texto. Por exemplo, o trecho No próximo Sábado, Ronaldo Lemos, diretor da Creative Commons, irá participar de um debate (...)" expressa uma relação de vínculo-institucional" que ocorre entre as entidades nomeadas Ronaldo Lemos" e Creative Commons". Esta tese propõe um processo para extração de descritores de relação, os quais descrevem relações explícitas entre entidades nomeadas do domínio de Organizações (Pessoa, Organização e Local) utilizando o modelo probabilístico Conditional Random Fields (CRF), e sua aplicação em textos da Língua Portuguesa. O modelo probabilístico CRF tem sido aplicado eficientemente em diversas tarefas de processamento de texto sequencial, incluindo recentemente a tarefa de Extração de Relações. A fim de aplicar o processo proposto, um corpus de referência para extração de relações, necessário para o aprendizado, foi anotado manualmente, tomando como base um corpus de referência para entidades nomeadas (HAREM). Com base em uma extensa revisão da literatura sobre a tarefa de extração automática de relações, features de diferentes naturezas foram definidas. Uma avaliação experimental foi realizada com o objetivo de avaliar o modelo aprendido utilizando as features definidas. Diferentes configurações de features de entrada para o CRF foram avaliadas. Dentre elas, destacou-se a inclusão da feature semântica baseada na categoria da entidade nomeada, já que essa feature conseguiu expressar melhor o tipo de relação que se deseja identificar entre o par de entidades nomeadas. Por fim, os melhores resultados obtidos correspondem à extração de relações entre as entidades nomeadas das categorias Organização e Pessoa, na qual as taxas de F-measure foram de 57% e 63%, considerando as extrações corretas e parcialmente corretas, respectivamente.
Abstract:	The task of Relation Extraction from texts is one of the main challenges in the area of Information Extraction, considering the required linguistic knowledge and the sophistication of the language processing techniques employed. This task aims at identifying and classifying semantic relations that occur between entities recognized in a given text. For example, the sentence Next Saturday, Ronaldo Lemos, director of Creative Commons, will participate in a debate [...]" expresses a institutionalbond" relation that occurs between the named entities Ronaldo Lemos" and Creative Commons". This thesis proposes a process for extraction of relation descriptors, which describes the explicit relations between named entities in the Organization domain (Person, Organization and Location) by applying, to texts in Portuguese, Conditional Random Fields (CRF), a probabilistic model that has been used in various tasks e⇥ciently in processing sequential text, including the task of Relation Extraction. In order to implement the proposed process, a reference corpus for extracting relations, necessary for learning, was manually annotated based on a reference corpus for named entities (HAREM). Based on an extensive literature review on the automatic extraction of relations task, features of different types were defined. An experimental evaluation was performed to evaluate the learned model utilizing the defined features. Different input feature configurations for CRF were evaluated. Among them, the highlight was the inclusion of the semantic feature based on the named entity category, since this feature could express, in a better way, the kind of relationship between the pair of named entities we want to identify. Finally, the best results correspond to the extraction of relations between the named entities of Organization and Person categories, in which the F -measure rates were 57% and 63%, considering the correct and partially correct extractions, respectively.
Palavras-chave:	INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL RECUPERAÇÃO DA INFORMAÇÃO ONTOLOGIA
Área(s) do CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma:	por
País:	BR
Instituição:	Pontifícia Universidade Católica do Rio Grande do Sul
Sigla da instituição:	PUCRS
Departamento:	Faculdade de Informáca
Programa:	Programa de Pós-Graduação em Ciência da Computação
Citação:	ABREU, Sandra Collovini de. Extração de relações do domínio de organizações para o português. 2014. 112 f. Tese (Doutorado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2014.
Tipo de acesso:	Acesso Aberto
URI:	http://tede2.pucrs.br/tede2/handle/tede/5248
Data de defesa:	16-Jan-2014
Aparece nas coleções:	Programa de Pós-Graduação em Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
457562.pdf	Texto Completo	2,37 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

PUCRS

Biblioteca Digital de Teses e Dissertações