Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tede2.pucrs.br/tede2/handle/tede/8035
Registro completo de metadados
Campo DCValorIdioma
dc.creatorAmaral, Daniela Oliveira Ferreira do-
dc.creator.Latteshttp://lattes.cnpq.br/9264512686430709por
dc.contributor.advisor1Vieira, Renata-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6218967777630412por
dc.date.accessioned2018-05-14T19:35:09Z-
dc.date.issued2017-09-14-
dc.identifier.urihttp://tede2.pucrs.br/tede2/handle/tede/8035-
dc.description.resumoO tratamento da informação textual torna-se cada vez mais relevante para muitos domínios. Nesse sentido, uma das primeira tarefas para Extração de Informações a partir de textos é o Reconhecimento de Entidades Nomeadas (REN), que consiste na identificação de referências feitas a determinadas entidades e sua classificação. REN compreende muitos domínios, entre eles os mais usuais são medicina e biologia. Um dos domínios desafiadores no reconhecimento de EN é o de Geologia, sendo essa uma área carente de recursos linguísticos computacionais. A presente tese propõe um método para o reconhecimento de EN relevantes no domínio da Geologia, subárea Bacia Sedimentar Brasileira, em textos da língua portuguesa. Definiram-se features genéricas e geológicas para a geração do modelo de aprendizado. Entre as abordagens automáticas para classificação de EN, a mais proeminente é o modelo probabilístico Conditional Random Fields (CRF). O CRF tem sido utilizado eficazmente no processamento de textos em linguagem natural. A fim de gerar um modelo de aprendizado foi criado o GeoCorpus, um corpus de referência para REN Geológicas, anotado por especialistas. Avaliações experimentais foram realizadas com o objetivo de comparar o método proposto com outros classificadores. Destacam-se os melhores resultados para o CRF, o qual alcançou 76,78% e 54,33% em Precisão e Medida-F.por
dc.description.abstractThe treatment of textual information has been increasingly relevant in many do- mains. One of the first tasks for extracting information from texts is the Named Entities Recognition (NER), which consists of identifying references to certain entities and finding out their classification. There are many NER domains, among them the most usual are medicine and biology. One of the challenging domains in the recognition of Named Entities (NE) is the Geology domain, which is an area lacking computational linguistic resources. This thesis proposes a method for the recognition of relevant NE in the field of Geology, specifically to the subarea of Brazilian Sedimentary Basin, in Portuguese texts. Generic and geological features were defined for the generation of a machine learning model. Among the automatic approaches to NE classification, the most prominent is the Conditional Ran- dom Fields (CRF) probabilistic model. CRF has been effectively used for word processing in natural language. To generate our model, we created GeoCorpus, a reference corpus for Geological NER, annotated by specialists. Experimental evaluations were performed to compare the proposed method with other classifiers. The best results were achieved by CRF, which shows 76,78% of Precision and 54,33% of F-Measure.eng
dc.description.provenanceSubmitted by PPG Ciência da Computação ([email protected]) on 2018-05-03T18:01:24Z No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5)eng
dc.description.provenanceApproved for entry into archive by Sheila Dias ([email protected]) on 2018-05-14T19:20:24Z (GMT) No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5)eng
dc.description.provenanceMade available in DSpace on 2018-05-14T19:35:09Z (GMT). No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) Previous issue date: 2017-09-14eng
dc.formatapplication/pdf*
dc.thumbnail.urlhttp://tede2.pucrs.br:80/tede2/retrieve/171974/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.jpg*
dc.languageporpor
dc.publisherPontifícia Universidade Católica do Rio Grande do Sulpor
dc.publisher.departmentEscola Politécnicapor
dc.publisher.countryBrasilpor
dc.publisher.initialsPUCRSpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopor
dc.rightsAcesso Abertopor
dc.subjectReconhecimento de Entidades Nomeadaspor
dc.subjectConditional Random Fieldseng
dc.subjectCorpuseng
dc.subjectGeologiapor
dc.subjectBacia Sedimentar Brasileirapor
dc.subjectNamed Entity Recognitioneng
dc.subjectGeologyeng
dc.subjectBrazilian Sedimentary Basineng
dc.subject.cnpqCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOpor
dc.titleReconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiraspor
dc.typeTesepor
dc.restricao.situacaoTrabalho não apresenta restrição para publicaçãopor
Aparece nas coleções:Programa de Pós-Graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdfDANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES6,19 MBAdobe PDFThumbnail

Baixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.