Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tede2.pucrs.br/tede2/handle/tede/9908
Registro completo de metadados
Campo DCValorIdioma
dc.creatorMastella, Juliana Obino-
dc.contributor.advisor1De Rose, César Augusto Fonticielha-
dc.date.accessioned2021-10-14T17:50:39Z-
dc.date.issued2020-08-31-
dc.identifier.urihttp://tede2.pucrs.br/tede2/handle/tede/9908-
dc.description.resumoNos últimos anos testemunhou-se um crescimento exponencial do volume, da variabilidade e da velocidade com que novos dados são gerados. Sabe-se que a maior parte desses dados se apresenta de forma não-estruturada, o que aumenta ainda mais o desafio de analisar esses dados. Nesse cenário, a aplicação de técnicas de Processamento da Linguagem Natural (PLN) para classificação de textos de forma automática tem despertado o interesse de pesquisadores dos mais diversos domínios do conhecimento, dentre os quais pode-se destacar as Ciências Jurídicas. O Direito inerentemente depende da análise de um grande volume de informações textuais, o que o torna uma área com grande potencial para aplicação de técnicas de PLN. A escolha do algoritmo para solucionar um determinado problema de classificação de textos não é uma tarefa trivial. A qualidade e a viabilidade da abordagem de classificação escolhida dependerão do problema a ser resolvido, do volume e do comportamento dos dados, além da melhor utilização dos recursos computacionais disponíveis para que o resultado seja entregue em tempo adequado. Motivada pelo problema da classificação automática de textos jurídicos para aplicação a processos eletrônicos de um Tribunal Estadual Brasileiro, esta pesquisa propõe uma metodologia para otimizar a escolha de parâmetros do algoritmo de classificação de documentos jurídicos paralelizando o treinamento de Redes Neurais Recorrentes Bi-LSTM. Para aplicação a dados reais, 107.010 petições de um Tribunal Estadual Brasileiro, com classes previamente anotadas, foram submetidas ao treinamento de 216 Redes Neurais Recorrentes em paralelo. Ao final do treinamento, o modelo com melhor desempenho individual apresentou F1 = 0,846. Combinando-se os 4 melhores resultados individuais através de uma técnica Ensemble, pela regra da soma, não foi identificada melhora no desempenho (F1 = 0,826). Através do treinamento em paralelo dos modelos, foi possível chegar a um resultado superior à maioria das parametrizações testadas (10% melhor do que a pior parametrização testada e 9,8% superior à média das combinações testadas) em aproximadamente 20 vezes menos tempo do que se levaria para testar todas as mesmas possibilidades de maneira sequencial.por
dc.description.abstractIn last years it has been witnessed an exponential growth of data volume, data variability and data velocity. It is known that most of them are in an unstructured availability which intensify the data analysis challenge. Considering this scenario, the usage os Natural Language Processing (NLP) tools for text classification has been inspiring researchers from several knowlage domains, among them it can be highlighted the Legal Sciences. The justice in its root depends on analysis of huge text data volume which turns it into an important potential area for applying NLP tools. The choice of an algorithm for solving a specific text classification issue is not a trivial task. The picked classification approach quality and viability will depends on the issue to be solved, the data volume and the data behavior, in addition to the best use of available computational resources in order to results be delivered in time. Motivated by the problem of automatic classification of legal texts for application to electronic processes of a Brazilian State Court, this research proposes a methodology to optimize the choice of parameters for the classification algorithm of legal documents paralleling the training of Bi-LSTM Recurrent Neural Networks. For data application 107,010 petitions from a Brazilian State Court, with classes previously noted, underwent training of 216 Recurrent Neural Networks in parallel. At the end of training, the best individual performance was F1 = 0.846. Combining the 4 best models through an Ensemble technique resulted in a final model with lower performance than the best individual one (F1 = 0.826). Through the parallel training of models it was possible to reach a superior result to the majority of the tested parameterizations (10 % better than the worst parameterization tested and 9.8% better than the average ) in approximately 20 times less time than it would take for test all the same possibilities sequentially.eng
dc.description.provenanceSubmitted by PPG Ciência da Computação ([email protected]) on 2021-10-14T13:19:25Z No. of bitstreams: 1 JULIANA OBINO MASTELLA_DIS.pdf: 1387653 bytes, checksum: d545a6b285249f7f12c6b6826d9baa36 (MD5)eng
dc.description.provenanceApproved for entry into archive by Sheila Dias ([email protected]) on 2021-10-14T17:41:16Z (GMT) No. of bitstreams: 1 JULIANA OBINO MASTELLA_DIS.pdf: 1387653 bytes, checksum: d545a6b285249f7f12c6b6826d9baa36 (MD5)eng
dc.description.provenanceMade available in DSpace on 2021-10-14T17:50:39Z (GMT). No. of bitstreams: 1 JULIANA OBINO MASTELLA_DIS.pdf: 1387653 bytes, checksum: d545a6b285249f7f12c6b6826d9baa36 (MD5) Previous issue date: 2020-08-31eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpor
dc.formatapplication/pdf*
dc.thumbnail.urlhttp://tede2.pucrs.br:80/tede2/retrieve/182281/JULIANA%20OBINO%20MASTELLA_DIS.pdf.jpg*
dc.languageporpor
dc.publisherPontifícia Universidade Católica do Rio Grande do Sulpor
dc.publisher.departmentEscola Politécnicapor
dc.publisher.countryBrasilpor
dc.publisher.initialsPUCRSpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopor
dc.rightsAcesso Abertopor
dc.subjectClassificação de Textospor
dc.subjectAlgoritmos de Classificaçãopor
dc.subjectMineração de Textospor
dc.subjectClassificação de Documentospor
dc.subjectDocumentos Jurídicospor
dc.subjectPLNpor
dc.subjectParalelismopor
dc.subjectText Classificationeng
dc.subjectClassification Algorithmseng
dc.subjectText Miningeng
dc.subjectDocuments Classificationeng
dc.subjectLegal Documentseng
dc.subjectNLPeng
dc.subjectParameter Sweepeng
dc.subjectParallelismeng
dc.subject.cnpqCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOpor
dc.titleUma metodologia usando ambientes paralelos para otimização da classificação de textos aplicada a documentos jurídicospor
dc.title.alternativeA methodology using parallel environments to optimize text classification in legal documentseng
dc.typeDissertaçãopor
dc.restricao.situacaoTrabalho não apresenta restrição para publicaçãopor
Aparece nas coleções:Programa de Pós-Graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
JULIANA OBINO MASTELLA_DIS.pdfDIS_JULIANA_OBINO_MASTELLA_COMPLETO1,36 MBAdobe PDFThumbnail

Baixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.