Uma análise comparativa entre as abordagens linguística e estatística para extração automática de termos relevantes de corpora

Export this record:

Please use this identifier to cite or link to this item: https://tede2.pucrs.br/tede2/handle/tede/8233

Full metadata record

DC Field	Value	Language
dc.creator	Santos, Carlos Alberto dos	-
dc.contributor.advisor1	Vieira, Renata	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6218967777630412	por
dc.date.accessioned	2018-08-01T14:31:21Z	-
dc.date.issued	2018-04-27	-
dc.identifier.uri	http://tede2.pucrs.br/tede2/handle/tede/8233	-
dc.description.resumo	Sabe-se que o processamento linguístico de corpora demanda grande esforço computacional devido à complexidade dos seus algoritmos, mas que, apesar disso, os resultados alcançados são melhores que aqueles gerados pelo processamento estatístico, onde a demanda computacional é menor. Esta dissertação descreve uma análise comparativa entre os processos linguístico e estatístico de extração de termos. Foram realizados experimentos através de quatro corpora em língua inglesa, construídos a partir de artigos científicos, sobre os quais foram executadas extrações de termos utilizando essas abordagens. As listas de termos resultantes foram refinadas com o uso de métricas de relevância e stop list, e em seguida comparadas com as listas de referência dos corpora através da técnica do recall. Essas listas, por sua vez, foram construídas a partir do contexto desses corpora e com ajuda de pesquisas na Internet. Os resultados mostraram que a extração estatística combinada com as técnicas da stop list e as métricas de relevância pode produzir resultados superiores ao processo de extração linguístico refinado pelas mesmas métricas. Concluiu se que a abordagem estatística composta por essas técnicas pode ser a opção ideal para extração de termos relevantes, por exigir poucos recursos computacionais e por apresentar resultados superiores àqueles encontrados no processamento linguístico.	por
dc.description.abstract	It is known that linguistic processing of corpora demands high computational effort because of the complexity of its algorithms, but despite this, the results reached are better than that generated by the statistical processing, where the computational demand is lower. This dissertation describes a comparative analysis between the process linguistic and statistical of term extraction. Experiments were carried out through four corpora in English idiom, built from scientific papers, on which terms extractions were carried out using the approaches. The resulting terms lists were refined with use of relevance metrics and stop list, and then compared with the reference lists of the corpora across the recall technical. These lists, in its turn, were built from the context these corpora, whith help of Internet searches. The results shown that the statistical extraction combined with the stop list and relevance metrics can produce superior results to linguistic process extraction using the same metrics. It’s concluded that statistical approach composed by these metrics can be ideal option to relevance terms extraction, by requiring few computational resources and by to show superior results that found in the linguistic processing.	eng
dc.description.provenance	Submitted by PPG Ciência da Computação ([email protected]) on 2018-07-26T19:48:07Z No. of bitstreams: 1 CARLOS ALBERTO DOS SANTOS_DIS.pdf: 1271475 bytes, checksum: 856ae87ad633d3c772b413816caa43d1 (MD5)	eng
dc.description.provenance	Approved for entry into archive by Sheila Dias ([email protected]) on 2018-08-01T13:39:36Z (GMT) No. of bitstreams: 1 CARLOS ALBERTO DOS SANTOS_DIS.pdf: 1271475 bytes, checksum: 856ae87ad633d3c772b413816caa43d1 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2018-08-01T14:31:21Z (GMT). No. of bitstreams: 1 CARLOS ALBERTO DOS SANTOS_DIS.pdf: 1271475 bytes, checksum: 856ae87ad633d3c772b413816caa43d1 (MD5) Previous issue date: 2018-04-27	eng
dc.format	application/pdf	*
dc.thumbnail.url	http://tede2.pucrs.br:80/tede2/retrieve/172937/CARLOS%20ALBERTO%20DOS%20SANTOS_DIS.pdf.jpg	*
dc.language	por	por
dc.publisher	Pontifícia Universidade Católica do Rio Grande do Sul	por
dc.publisher.department	Escola Politécnica	por
dc.publisher.country	Brasil	por
dc.publisher.initials	PUCRS	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	por
dc.rights	Acesso Aberto	por
dc.subject	Eextração de Termos	por
dc.subject	Mineração de Texto	por
dc.subject	Lista de Referência	por
dc.subject	Stop List	eng
dc.subject	Métricas Estatísticas	por
dc.subject	Extração Linguística	por
dc.subject	Extração Estatística	por
dc.subject	Term Extraction	eng
dc.subject	Text Mining	eng
dc.subject	Reference List	eng
dc.subject	Stop List	eng
dc.subject	Statistical Metrics	eng
dc.subject	Linguistic Extraction	eng
dc.subject	Statistical Extraction	eng
dc.subject.cnpq	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO	por
dc.title	Uma análise comparativa entre as abordagens linguística e estatística para extração automática de termos relevantes de corpora	por
dc.type	Dissertação	por
dc.restricao.situacao	Trabalho não apresenta restrição para publicação	por
Appears in Collections:	Programa de Pós-Graduação em Ciência da Computação

Files in This Item:

File	Description	Size	Format
CARLOS ALBERTO DOS SANTOS_DIS.pdf	CARLOS_ALBERTO_DOS_SANTOS_DIS	1.24 MB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

PUCRS

Digital Library of Theses and Dissertations