Processos de construção automática de tesauro

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tede2.pucrs.br/tede2/handle/tede/5158

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Granada, Roger Leitzke	-
dc.creator.Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4282547J6	por
dc.contributor.advisor1	Lima, Vera Lúcia Strube de	-
dc.contributor.advisor1Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781127A8	por
dc.date.accessioned	2015-04-14T14:49:42Z	-
dc.date.available	2012-03-07	-
dc.date.issued	2011-03-29	-
dc.identifier.citation	GRANADA, Roger Leitzke. Processos de construção automática de tesauro. 2011. 114 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2011.	por
dc.identifier.uri	http://tede2.pucrs.br/tede2/handle/tede/5158	-
dc.description.resumo	Com o progresso da tecnologia, a quantidade de informação disponível em formato digital tem aumentado rapidamente. Esse aumento se reflete na crescente importância de sistemas de Recuperação de Informações (RI) eficientes, obtendo as informações corretas quando requisitadas pelos usuários. Tesauros podem ser associados a sistemas de RI, permitindo que o sistema realize consultas não apenas pelo termo-chave, mas também por termos relacionados, obtendo documentos relacionados, que antes não eram recuperados. A criação manual, processo longo e oneroso que dava origem aos primeiros tesauros, passa a ser realizada automaticamente, através de diferentes métodos e processos disponíveis atualmente. Com esta motivação, este trabalho propõe estudar três processos de construção automática de tesauros. Um método utiliza técnicas estatísticas para a identificação dos melhores termos relacionados. Outro método utiliza conhecimento sintático, sendo necessário extrair, além das categorias gramaticais de cada termo, as relações que um verbo tem com seu sujeito ou objeto. O último método faz a utilização de conhecimento sintático e de conhecimento semântico dos termos, identificando relações que não são aparentes. Para isso, esse último método utiliza uma adaptação da técnica de Análise Semântica Latente. Foram desenvolvidos estes três métodos de geração tesauros a partir de documentos do domínio de privacidade de dados. Os resultados foram aplicados a um sistema de RI, permitindo a avaliação por especialistas do domínio. Como conclusão, observamos que, em determinados casos, é melhor a aplicação de técnicas que não utilizem conhecimento semântico dos termos, obtendo melhores resultados com métodos que utilizam apenas o conhecimento sintático dos mesmos.	por
dc.description.abstract	The advances in technology have made the amount of information available in digital format increase rapidly. This increase reflects on the importance of efficient systems to Information Retrieval (IR), getting the right information when it's requested by users. Thesauri can be associated with IR systems, allowing the system to query not only by the key term, but also by related terms, obtaining related documents that were not retrieved. The manual construction, long and costly process that gave rise to the first thesaurus, shall be performed automatically, using different methods and processes available today. With this motivation, this dissertation proposes to study three cases of automatic thesauri construction. One method uses statistical techniques to identify the best related terms. Another method uses syntactic knowledge, being necessary to extract, besides the grammatical categories of each term, the relations that a verb have with its subject or object. The latter method makes use of syntactic knowledge and semantic knowledge of the terms, identifying non apparent relations. For this, this latter method uses an adaptation of the Latent Semantic Analysis technique. We developed three methods for automatic thesaurus construction using documents from the field of data privacy. The results were applied to an IR system, allowing the evaluation by domain experts. In conclusion, we observed that, in certain cases, it's better to apply techniques that do not use semantic knowledge of the terms, obtaining better results with methods that use only the syntactic knowledge of them.	eng
dc.description.provenance	Made available in DSpace on 2015-04-14T14:49:42Z (GMT). No. of bitstreams: 1 437178.pdf: 938995 bytes, checksum: 7f4e4a024eb9af218b4ff88670a9ca88 (MD5) Previous issue date: 2011-03-29	eng
dc.format	application/pdf	por
dc.thumbnail.url	http://tede2.pucrs.br:80/tede2/retrieve/15927/437178.pdf.jpg	*
dc.language	por	por
dc.publisher	Pontifícia Universidade Católica do Rio Grande do Sul	por
dc.publisher.department	Faculdade de Informáca	por
dc.publisher.country	BR	por
dc.publisher.initials	PUCRS	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	por
dc.rights	Acesso Aberto	por
dc.subject	INFORMÁTICA	por
dc.subject	TESAUROS - ELABORAÇÃO	por
dc.subject	INDEXAÇÃO DE ASSUNTOS	por
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.title	Processos de construção automática de tesauro	por
dc.type	Dissertação	por
Aparece nas coleções:	Programa de Pós-Graduação em Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
437178.pdf	Texto Completo	916,99 kB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

PUCRS

Biblioteca Digital de Teses e Dissertações