Evaluating the performance and improving the usability of parallel and distributed word embedding tools

Export this record:

Please use this identifier to cite or link to this item: https://tede2.pucrs.br/tede2/handle/tede/9245

Full metadata record

DC Field	Value	Language
dc.creator	Silva, Mateus Lyra da	-
dc.creator.Lattes	http://lattes.cnpq.br/8584495387617430	por
dc.contributor.advisor1	De Rose, César Augusto Fonticielha	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6703453792017497	por
dc.date.accessioned	2020-08-28T14:36:04Z	-
dc.date.issued	2020-03-30	-
dc.identifier.uri	http://tede2.pucrs.br/tede2/handle/tede/9245	-
dc.description.resumo	A representação de palavras por meio de vetores chamada de Word Embeddings (WE) vem recebendo grande atenção do campo de Processamento de Linguagem natural (NLP). Modelos WE são capazes de expressar similaridades sintáticas e semânticas, bem como relacionamentos e contextos de palavras em um determinado corpus. Apesar de as implementações mais populares de algoritmos de WE apresentarem baixa escalabilidade, existem novas abordagens que aplicam técnicas de High-Performance Computing (HPC). Nesta dissertação é apresentado um estudo interdisciplinar direcionado a utilização de recursos e aspectos de desempenho dos algoritmos de WE encontrados na literatura. Para melhorar a escalabilidade e usabilidade, o presente trabalho propõe uma integração para ambientes de execução locais e remotos, que contém um conjunto das versões mais otimizadas. Usando estas otimizações é possível alcançar um ganho de desempenho médio de 15x para multicores e 105x para multinodes comparado à versão original. Há também uma grande redução no consumo de memória comparado às versões mais populares em Python. Uma vez que o uso apropriado de ambientes de alta performance pode requerer conhecimento especializado de seus usuários, neste trabalho também é proposto um modelo de otimização de parâmetros que utiliza uma rede neural Multilayer Perceptron (MLP) e o algoritmo Simulated Annealing (SA) para sugerir conjuntos de parâmetros que considerem os recursos computacionais, o que pode ser um auxílio para usuários não especialistas no uso de ambientes computacionais de alto desempenho.	por
dc.description.abstract	The representation of words by means of vectors, also called Word Embeddings (WE), has been receiving great attention from the Natural Language Processing (NLP) field. WE models are able to express syntactic and semantic similarities, as well as relationships and contexts of words within a given corpus. Although the most popular implementations of WE algorithms present low scalability, there are new approaches that apply High-Performance Computing (HPC) techniques. This is an opportunity for an analysis of the main differences among the existing implementations, based on performance and scalability metrics. In this Dissertation, we present an interdisciplinary study that addresses resource utilization and performance aspects of known WE algorithms found in the literature. To improve scalability and usability we propose an integration for local and remote execution environments that contains a set of the most optimized versions. Utilizing these optimizations it is possible to achieve an average performance gain of 15x for multicores and 105x for multinodes compared to the original version. There is also a big reduction in the memory footprint compared to the most popular Python versions. Since an appropriated use of HPC environments may require expert knowledge, we also propose a parameter tuning model utilizing an Multilayer Perceptron (MLP) neural network and Simulated Annealing (SA) algorithm to suggest the best parameter setup considering the computational resources, that may be an aid for non-expert users in the usage of HPC environments.	eng
dc.description.provenance	Submitted by PPG Ciência da Computação ([email protected]) on 2020-07-29T17:35:26Z No. of bitstreams: 1 Dissertacao_homolog.pdf: 8822751 bytes, checksum: f5bebcc4f366a19c4cec808bd2e531ff (MD5)	eng
dc.description.provenance	Approved for entry into archive by Lucas Martins Kern ([email protected]) on 2020-08-28T14:30:54Z (GMT) No. of bitstreams: 1 Dissertacao_homolog.pdf: 8822751 bytes, checksum: f5bebcc4f366a19c4cec808bd2e531ff (MD5)	eng
dc.description.provenance	Made available in DSpace on 2020-08-28T14:36:04Z (GMT). No. of bitstreams: 1 Dissertacao_homolog.pdf: 8822751 bytes, checksum: f5bebcc4f366a19c4cec808bd2e531ff (MD5) Previous issue date: 2020-03-30	eng
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES	por
dc.format	application/pdf	*
dc.thumbnail.url	http://tede2.pucrs.br:80/tede2/retrieve/178708/Dissertacao_homolog.pdf.jpg	*
dc.language	eng	por
dc.publisher	Pontifícia Universidade Católica do Rio Grande do Sul	por
dc.publisher.department	Escola Politécnica	por
dc.publisher.country	Brasil	por
dc.publisher.initials	PUCRS	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	por
dc.rights	Acesso Aberto	por
dc.subject	Word2vec	por
dc.subject	HPC	por
dc.subject	Memória distribuída	por
dc.subject	Multicomputadores	por
dc.subject	MPI	por
dc.subject	OpenMP	por
dc.subject	Word2vec	eng
dc.subject	HPC	eng
dc.subject	Shared memory	eng
dc.subject	Multicomputers	eng
dc.subject	MPI	eng
dc.subject	OpenMP	eng
dc.subject.cnpq	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO	por
dc.title	Evaluating the performance and improving the usability of parallel and distributed word embedding tools	por
dc.type	Dissertação	por
dc.restricao.situacao	Trabalho não apresenta restrição para publicação	por
Appears in Collections:	Programa de Pós-Graduação em Ciência da Computação

Files in This Item:

File	Description	Size	Format
Dissertacao_homolog.pdf	MATHEUS_LYRA_DA_SILVA_DIS	8.62 MB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

PUCRS

Digital Library of Theses and Dissertations