Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tede2.pucrs.br/tede2/handle/tede/5028
Tipo do documento: Dissertação
Título: Métodos de clusterização para apoio à classificação estética de documentos
Autor: Primo, Tiago Thompsen 
Primeiro orientador: Oliveira, João Batista Souza de
Resumo: Neste trabalho serão abordados estudos referentes à classificação de grande quantidade de documentos de conteúdo variável. Em tal processo quando um grande número de documentos é gerado, existe a necessidade de um usuário verificá-los um a um com a intenção de separá-los em bons (com pouco ou nenhum problema estrutural) ou ruins (que possuem problemas estruturais), processo este considerado lento e oneroso. Considerando este problema, neste trabalho foi desenvolvida uma ferramenta de classificação estética de documentos que visa reduzir esta intervenção humana. A ferramenta desenvolvida é baseada em métricas que avaliam o quanto um documento automaticamente gerado difere de seu template, criando para cada um destes documentos uma assinatura baseada nas técnicas de fingerprint, objetivando primeiramente distingui-los entre si para então utilizar técnicas de clusterização criando grupos de documentos com características semelhantes. O algoritmo K-Medóides é usado para fazer tal agrupamento, tal algoritmo funciona criando grupos de objetos considerando um destes como base para a criação de cada cluster. A idéia deste trabalho é reduzir a intervenção humana fazendo com que um usuário classifique em bom ou ruim apenas determinados documentos de cada grupo formado pelo algoritmo de clusterização. São também apresentados resultados de quatro experimentos realizados com esta ferramenta avaliando as contribuições para diminuir a intervenção humana no processo de classificação de documentos.
Palavras-chave: INFORMÁTICA
ALGORITMOS
AGRUPAMENTO DE INFORMAÇÕES (INFORMÁTICA)
DOCUMENTAÇÃO
Área(s) do CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: BR
Instituição: Pontifícia Universidade Católica do Rio Grande do Sul
Sigla da instituição: PUCRS
Departamento: Faculdade de Informáca
Programa: Programa de Pós-Graduação em Ciência da Computação
Citação: PRIMO, Tiago Thompsen. Métodos de clusterização para apoio à classificação estética de documentos. 2008. 117 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2008.
Tipo de acesso: Acesso Aberto
URI: http://tede2.pucrs.br/tede2/handle/tede/5028
Data de defesa: 24-Mar-2008
Aparece nas coleções:Programa de Pós-Graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
406128.pdfTexto Completo15,68 MBAdobe PDFThumbnail

Baixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.