Accelerating machine learning using risc-v vector extension in a manycore platform

Export this record:

Please use this identifier to cite or link to this item: https://tede2.pucrs.br/tede2/handle/tede/11675

Full metadata record

DC Field	Value	Language
dc.creator	Nunes, Willian Analdo	-
dc.creator.Lattes	http://lattes.cnpq.br/0471039028178549	por
dc.contributor.advisor1	Moraes, Fernando Gehm	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/2509301929350826	por
dc.date.accessioned	2025-06-10T21:41:32Z	-
dc.date.issued	2025-03-11	-
dc.identifier.uri	https://tede2.pucrs.br/tede2/handle/tede/11675	-
dc.description.resumo	The increasing computational demands of Machine Learning (ML) workloads, particularly Convolutional Neural Networks (CNNs), require efficient hardware acceleration solutions. This dissertation investigates the RISC-V Vector Extension (RVV) to accelerate the CNN inference in single-core and manycore architectures. The research presents the RS5 processor, an RTL implementation of a RISC-V-based core enhanced with a subset of RVV instructions designed for efficient data parallelism. Additionally, this processor was integrated into the Memphis-V manycore platform, enabling further performance scaling through parallel execution. A comprehensive evaluation was conducted to analyze the impact of RVV-based acceleration on performance, energy consumption, memory footprint, and hardware área costs. The results demonstrate that the vectorized implementation of CNN operations on the RS5 processor achieves a speedup of up to 7.68x (1-D CNN layer) in single-core execution compared to a scalar baseline, reducing energy consumption by up to 61% and achieves speed-ups of up to 16x in a dot-product application. When deployed in the manycore environment, additional performance gains were observed, with the first layer of AlexNet achieving up to 5.7× acceleration over the scalar single-core implementation and reducing code size by up to 87% in the second layer. The integration of auto-vectorization and manually optimized vector assembly further highlighted the effectiveness of RVV in accelerating ML workloads. Experimental results demonstrate that the integration of RVV significantly enhances CNN inference speed. The manycore implementation further amplifies these benefits, highlighting the potential of RISC-V-based vector architectures for efficient ML acceleration. This work contributes to hardware acceleration by showcasing a scalable, open-source solution for CNN applications.	por
dc.description.abstract	O crescente aumento na demanda computacional de cargas de trabalho de Machine Learning (ML), especialmente Redes Neurais Convolucionais (CNNs), exige soluções eficientes de aceleração em hardware. Esta dissertação investiga o uso da Extensão Vetorial do RISC-V (RVV) para acelerar a inferência de CNNs em arquiteturas single-core e manycore. O estudo apresenta o processador RS5, uma implementação RTL de um núcleo baseado em RISC-V aprimorado com um subconjunto de instruções RVV projetado para paralelismo eficiente de dados. Além disso, este processador foi integrado à plataforma manycore Memphis-V, permitindo uma maior escala de desempenho por meio da execução paralela. Foi realizada uma avaliação abrangente para analisar como a aceleração baseada em RVV impacta no desempenho, consumo de energia, uso de memória e custos de área de hardware. Os resultados demonstram que a implementação vetorizada das operações de CNN no processador RS5 atinge um speedup de até 7,68× (camada 1-D CNN) na execução single-core em comparação com a versão escalar, reduzindo o consumo de energia em até 61% e alcançando ganhos de desempenho de até 16× em uma aplicação de produto escalar (dot-product). Quando implantado no ambiente manycore, foram observados ganhos adicionais de desempenho, com a primeira camada da AlexNet atingindo uma aceleração de até 5,7× sobre a implementação escalar single-core e reduzindo o tamanho do código em até 87,5% na segunda camada. A integração da auto-vetorização e da otimização manual em assembly vetorial destacou ainda mais a eficácia do RVV na aceleração de cargas de trabalho de ML. Os resultados experimentais demonstram que a integração do RVV melhora significativamente a velocidade de inferência de CNNs. A implementação manycore amplifica ainda mais esses benefícios, evidenciando o potencial das arquiteturas vetoriais baseadas em RISC-V para aceleração eficiente de ML. Este trabalho contribui para a área de aceleração em hardware ao apresentar uma solução escalável e de código aberto para aplicações de CNNs.	por
dc.description.provenance	Submitted by PPG Ciência da Computação ([email protected]) on 2025-05-26T16:26:44Z No. of bitstreams: 1 WILLIAN_ANALDO_NUNES_DIS.pdf: 8902273 bytes, checksum: f88a9dba455ef87bb66c8cd9fc0141f7 (MD5)	eng
dc.description.provenance	Approved for entry into archive by Sarajane Pan ([email protected]) on 2025-06-10T20:03:02Z (GMT) No. of bitstreams: 1 WILLIAN_ANALDO_NUNES_DIS.pdf: 8902273 bytes, checksum: f88a9dba455ef87bb66c8cd9fc0141f7 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2025-06-10T21:41:32Z (GMT). No. of bitstreams: 1 WILLIAN_ANALDO_NUNES_DIS.pdf: 8902273 bytes, checksum: f88a9dba455ef87bb66c8cd9fc0141f7 (MD5) Previous issue date: 2025-03-11	eng
dc.format	application/pdf	*
dc.thumbnail.url	https://tede2.pucrs.br/tede2/retrieve/193901/WILLIAN_ANALDO_NUNES_DIS.pdf.jpg	*
dc.language	eng	por
dc.publisher	Pontifícia Universidade Católica do Rio Grande do Sul	por
dc.publisher.department	Escola Politécnica	por
dc.publisher.country	Brasil	por
dc.publisher.initials	PUCRS	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	por
dc.rights	Acesso Aberto	por
dc.subject	RISC-V	eng
dc.subject	Vector Processing	eng
dc.subject	Hardware Acceleration	eng
dc.subject	Manycores	eng
dc.subject	Convolutional Neural Networks	eng
dc.subject	RISC-V	por
dc.subject	Processamento Vetorial	por
dc.subject	Aceleração de Hardware	por
dc.subject	Manycores	por
dc.subject	Redes Neurais Convolucionais	por
dc.subject.cnpq	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO	por
dc.title	Accelerating machine learning using risc-v vector extension in a manycore platform	por
dc.title.alternative	Aceleração de aprendizado de máquina usando extensão vetorial risc-v em uma plataforma manycore	por
dc.type	Dissertação	por
dc.restricao.situacao	Trabalho não apresenta restrição para publicação	por
Appears in Collections:	Programa de Pós-Graduação em Ciência da Computação

Files in This Item:

File	Description	Size	Format
WILLIAN_ANALDO_NUNES_DIS.pdf	WILLIAN_ANALDO_NUNES_DIS	8.69 MB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

PUCRS

Digital Library of Theses and Dissertations