Data and stream parallelism optimizations on GPUs

Export this record:

Please use this identifier to cite or link to this item: https://tede2.pucrs.br/tede2/handle/tede/10347

Full metadata record

DC Field	Value	Language
dc.creator	Araujo, Gabriell Alves de	-
dc.creator.Lattes	http://lattes.cnpq.br/3777865499064744	por
dc.contributor.advisor1	Fernandes, Luiz Gustavo Leão	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/5979862734558983	por
dc.contributor.advisor-co1	Griebler, Dalvan Jair	-
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/1989039890812573	por
dc.date.accessioned	2022-07-11T14:21:58Z	-
dc.date.issued	2022-03-31	-
dc.identifier.uri	https://tede2.pucrs.br/tede2/handle/tede/10347	-
dc.description.resumo	Nowadays, most computers are equipped with Graphics Processing Units (GPUs) to provide massive-scale parallelism at a low cost. Parallel programming is necessary to exploit this architectural capacity fully. However, it represents a challenge for programmers since it requires refactoring algorithms, designing parallelism techniques, and hardwarespecific knowledge. Moreover, GPU parallelism is even more challenging since GPUs have peculiar hardware characteristics and employ a parallelism paradigm called many-core programming. In this sense, parallel computing research has focused on studying efficient programming techniques for GPUs and developing abstractions that reduce the effort when writing parallel code. SPar is a domain-specific language (DSL) that goes in this direction. Programmers can use SPar to express stream parallelism in a simpler way without significantly impacting performance. SPar offers high-level abstractions via code annotations while the SPar compiler generates parallel code. SPar recently received an extension to allow parallel code generation for CPUs and GPUs in stream applications. The CPU cores control the flow of data in the generated code. At the same time, the GPU applies massive parallelism in the computation of each stream element. To this end, SPar generates code for an intermediate library called GSParLib, a pattern-oriented parallel API that provides a unified programming model targeting CUDA and OpenCL runtime, allowing parallelism exploitation of different vendor GPUs. However, the GPU support for both SPar and GSParLib is still in its initial steps; they provide only basic features, and no studies have comprehensively evaluated SPar and GSParLib’s performance. This work contributes by parallelizing representative high-performance computing (HPC) benchmarks, implementing new features and optimizations for GPUs in the GSParLib and SPar, and presenting a method for providing agnostic frameworks independent of low-level programming interfaces. Our set of improvements covers most of the critical limitations of GSParLib regarding performance and programmability. In our experiments, the optimized version of GSParLib achieved up to 54,500.00% of speedup improvement over the original version of GSParLib on data parallelism benchmarks and up to 718,43% of throughput improvement on stream parallelism benchmarks.	por
dc.description.abstract	Nos dias de hoje, a maioria dos computadores são equipados com unidades de processamento gráfico (GPUs) para prover capacidade massiva de paralelismo a baixo custo. Para explorar completamente a capacidade destas arquiteturas é necessário o uso de programação paralela. No entanto, isso representa um desafio para os programadores, pois requer a refatoração de algoritmos, técnicas de paralelismo e conhecimento específico sobre o hardware. Além disso, o paralelismo das GPUs é ainda mais desafiador, pois GPUs possuem características de hardware peculiares, e outro paradigma de paralelismo chamado de programação many-core. Nesse sentido, pesquisas de computação paralela tem se concentrado no estudo de técnicas de programação eficientes para GPUs, e também no desenvolvimento de abstrações que diminuem o esforço de programação. SPar é uma linguagem específica de domínio (DSL) que segue essa direção de pesquisa. Programadores podem utilizar a SPar para expressar paralelismo de stream sem impactar significativamente o desempenho. A SPar oferece abstrações de alto nível através de anotações no código-fonte, enquanto o compilador da SPar gera código paralelo. Recentemente foi adicionada uma extensão na SPar, a qual permite que seja gerado código paralelo para CPUs e GPUs em aplicações de stream. Os núcleos da CPU controlam o fluxo de dados, e a GPU aplica paralelismo massivo na computação de cada elemento do fluxo de dados. Para este fim, a SPar gera código para uma biblioteca intermediária chamada GSParLib. GSParLib é uma API paralela orientada a padrões que provê um modelo único de programação para a runtime dos frameworks CUDA e OpenCL, permitindo a exploração do paralelismo em GPUs de diferentes fabricantes. Porém, o suporte para GPUs em ambas SPar e GSParLib ainda está em seus passos iniciais; SPar e GSParLib oferecem apenas funcionalidades básicas, e nenhum estudo avaliou o desempenho de forma abrangente. A contribuição deste trabalho concentra-se em paralelizar benchmarks representativos da área de computação de alto-desempenho (HPC), fornecer novos recursos e otimizações para GPUs na GSParLib e SPar, e apresentar um método para prover frameworks que sejam agnósticos e independentes de interfaces de programação de baixo nível. O conjunto de melhorias cobre a maioria das limitações críticas de desempenho e programabilidade da GSParLib. Nos experimentos deste trabalho, a versão otimizada da GSParLib foi capaz de atingir até 54.500,00% de melhoria no speedup em relação à versão original da GSParLib nos benchmarks de paralelismo de dados e até 718,43% de melhoria no throughput nos benchmarks de paralelismo de stream.	por
dc.description.provenance	Submitted by PPG Ciência da Computação ([email protected]) on 2022-07-08T12:31:12Z No. of bitstreams: 1 GABRIELL_ALVES_DE_ARAUJO_DIS.pdf: 2974046 bytes, checksum: 98520b2931cb04f5641b146541e736b0 (MD5)	eng
dc.description.provenance	Approved for entry into archive by Caroline Xavier ([email protected]) on 2022-07-11T14:06:39Z (GMT) No. of bitstreams: 1 GABRIELL_ALVES_DE_ARAUJO_DIS.pdf: 2974046 bytes, checksum: 98520b2931cb04f5641b146541e736b0 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2022-07-11T14:21:58Z (GMT). No. of bitstreams: 1 GABRIELL_ALVES_DE_ARAUJO_DIS.pdf: 2974046 bytes, checksum: 98520b2931cb04f5641b146541e736b0 (MD5) Previous issue date: 2022-03-31	eng
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES	por
dc.format	application/pdf	*
dc.thumbnail.url	https://tede2.pucrs.br/tede2/retrieve/184734/GABRIELL_ALVES_DE_ARAUJO_DIS.pdf.jpg	*
dc.language	eng	por
dc.publisher	Pontifícia Universidade Católica do Rio Grande do Sul	por
dc.publisher.department	Escola Politécnica	por
dc.publisher.country	Brasil	por
dc.publisher.initials	PUCRS	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	por
dc.rights	Acesso Aberto	por
dc.subject	Parallel Programming	eng
dc.subject	GPU Programming	eng
dc.subject	Heterogeneous Computing	eng
dc.subject	Data Parallelism	eng
dc.subject	Stream Parallelism	eng
dc.subject	Structured Parallel Programming	eng
dc.subject	Parallel Patterns	eng
dc.subject	Benchmarks	eng
dc.subject	Stream Processing Applications	eng
dc.subject	Domain-specific Language	eng
dc.subject	Algorithmic Skeletons	eng
dc.subject	Performance Evaluation	eng
dc.subject	High Performance Computing	eng
dc.subject	C	eng
dc.subject	C++	eng
dc.subject	CUDA	eng
dc.subject	OpenCL	eng
dc.subject	Programação Paralela	por
dc.subject	Programação de GPUs	por
dc.subject	Computação Heterogênea	por
dc.subject	Paralelismo de Dados	por
dc.subject	Paralelismo de Stream	por
dc.subject	Programação Paralela Estruturada	por
dc.subject	Padrões Paralelos	por
dc.subject	Benchmarks	por
dc.subject	Aplicações de Processamento de Stream	por
dc.subject	Linguagem Específica de Domínio	por
dc.subject	Esqueletos Algorítmicos	por
dc.subject	Avaliação de Desempenho	por
dc.subject	Computação de Alto Desempenho	por
dc.subject	C	por
dc.subject	C++	por
dc.subject	CUDA	por
dc.subject	OpenCL	por
dc.subject.cnpq	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO	por
dc.title	Data and stream parallelism optimizations on GPUs	por
dc.type	Dissertação	por
dc.restricao.situacao	Trabalho não apresenta restrição para publicação	por
Appears in Collections:	Programa de Pós-Graduação em Ciência da Computação

Files in This Item:

File	Description	Size	Format
GABRIELL_ALVES_DE_ARAUJO_DIS.pdf	GABRIELL_ALVES_DE_ARAUJO_DIS	2.9 MB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

PUCRS

Digital Library of Theses and Dissertations