@MASTERSTHESIS{ 2020:978424285, title = {Uma metodologia usando ambientes paralelos para otimiza??o da classifica??o de textos aplicada a documentos jur?dicos}, year = {2020}, url = "http://tede2.pucrs.br/tede2/handle/tede/9908", abstract = "Nos ?ltimos anos testemunhou-se um crescimento exponencial do volume, da variabilidade e da velocidade com que novos dados s?o gerados. Sabe-se que a maior parte desses dados se apresenta de forma n?o-estruturada, o que aumenta ainda mais o desafio de analisar esses dados. Nesse cen?rio, a aplica??o de t?cnicas de Processamento da Linguagem Natural (PLN) para classifica??o de textos de forma autom?tica tem despertado o interesse de pesquisadores dos mais diversos dom?nios do conhecimento, dentre os quais pode-se destacar as Ci?ncias Jur?dicas. O Direito inerentemente depende da an?lise de um grande volume de informa??es textuais, o que o torna uma ?rea com grande potencial para aplica??o de t?cnicas de PLN. A escolha do algoritmo para solucionar um determinado problema de classifica??o de textos n?o ? uma tarefa trivial. A qualidade e a viabilidade da abordagem de classifica??o escolhida depender?o do problema a ser resolvido, do volume e do comportamento dos dados, al?m da melhor utiliza??o dos recursos computacionais dispon?veis para que o resultado seja entregue em tempo adequado. Motivada pelo problema da classifica??o autom?tica de textos jur?dicos para aplica??o a processos eletr?nicos de um Tribunal Estadual Brasileiro, esta pesquisa prop?e uma metodologia para otimizar a escolha de par?metros do algoritmo de classifica??o de documentos jur?dicos paralelizando o treinamento de Redes Neurais Recorrentes Bi-LSTM. Para aplica??o a dados reais, 107.010 peti??es de um Tribunal Estadual Brasileiro, com classes previamente anotadas, foram submetidas ao treinamento de 216 Redes Neurais Recorrentes em paralelo. Ao final do treinamento, o modelo com melhor desempenho individual apresentou F1 = 0,846. Combinando-se os 4 melhores resultados individuais atrav?s de uma t?cnica Ensemble, pela regra da soma, n?o foi identificada melhora no desempenho (F1 = 0,826). Atrav?s do treinamento em paralelo dos modelos, foi poss?vel chegar a um resultado superior ? maioria das parametriza??es testadas (10% melhor do que a pior parametriza??o testada e 9,8% superior ? m?dia das combina??es testadas) em aproximadamente 20 vezes menos tempo do que se levaria para testar todas as mesmas possibilidades de maneira sequencial.", publisher = {Pontif?cia Universidade Cat?lica do Rio Grande do Sul}, scholl = {Programa de P?s-Gradua??o em Ci?ncia da Computa??o}, note = {Escola Polit?cnica} }