Accelerating machine learning using risc-v vector extension in a manycore platform

Export this record:

Please use this identifier to cite or link to this item: https://tede2.pucrs.br/tede2/handle/tede/11675

Document type:	Dissertação
Title:	Accelerating machine learning using risc-v vector extension in a manycore platform
Other Titles:	Aceleração de aprendizado de máquina usando extensão vetorial risc-v em uma plataforma manycore
Author:	Nunes, Willian Analdo
Advisor:	Moraes, Fernando Gehm
Abstract (native):	The increasing computational demands of Machine Learning (ML) workloads, particularly Convolutional Neural Networks (CNNs), require efficient hardware acceleration solutions. This dissertation investigates the RISC-V Vector Extension (RVV) to accelerate the CNN inference in single-core and manycore architectures. The research presents the RS5 processor, an RTL implementation of a RISC-V-based core enhanced with a subset of RVV instructions designed for efficient data parallelism. Additionally, this processor was integrated into the Memphis-V manycore platform, enabling further performance scaling through parallel execution. A comprehensive evaluation was conducted to analyze the impact of RVV-based acceleration on performance, energy consumption, memory footprint, and hardware área costs. The results demonstrate that the vectorized implementation of CNN operations on the RS5 processor achieves a speedup of up to 7.68x (1-D CNN layer) in single-core execution compared to a scalar baseline, reducing energy consumption by up to 61% and achieves speed-ups of up to 16x in a dot-product application. When deployed in the manycore environment, additional performance gains were observed, with the first layer of AlexNet achieving up to 5.7× acceleration over the scalar single-core implementation and reducing code size by up to 87% in the second layer. The integration of auto-vectorization and manually optimized vector assembly further highlighted the effectiveness of RVV in accelerating ML workloads. Experimental results demonstrate that the integration of RVV significantly enhances CNN inference speed. The manycore implementation further amplifies these benefits, highlighting the potential of RISC-V-based vector architectures for efficient ML acceleration. This work contributes to hardware acceleration by showcasing a scalable, open-source solution for CNN applications.
Abstract (english):	O crescente aumento na demanda computacional de cargas de trabalho de Machine Learning (ML), especialmente Redes Neurais Convolucionais (CNNs), exige soluções eficientes de aceleração em hardware. Esta dissertação investiga o uso da Extensão Vetorial do RISC-V (RVV) para acelerar a inferência de CNNs em arquiteturas single-core e manycore. O estudo apresenta o processador RS5, uma implementação RTL de um núcleo baseado em RISC-V aprimorado com um subconjunto de instruções RVV projetado para paralelismo eficiente de dados. Além disso, este processador foi integrado à plataforma manycore Memphis-V, permitindo uma maior escala de desempenho por meio da execução paralela. Foi realizada uma avaliação abrangente para analisar como a aceleração baseada em RVV impacta no desempenho, consumo de energia, uso de memória e custos de área de hardware. Os resultados demonstram que a implementação vetorizada das operações de CNN no processador RS5 atinge um speedup de até 7,68× (camada 1-D CNN) na execução single-core em comparação com a versão escalar, reduzindo o consumo de energia em até 61% e alcançando ganhos de desempenho de até 16× em uma aplicação de produto escalar (dot-product). Quando implantado no ambiente manycore, foram observados ganhos adicionais de desempenho, com a primeira camada da AlexNet atingindo uma aceleração de até 5,7× sobre a implementação escalar single-core e reduzindo o tamanho do código em até 87,5% na segunda camada. A integração da auto-vetorização e da otimização manual em assembly vetorial destacou ainda mais a eficácia do RVV na aceleração de cargas de trabalho de ML. Os resultados experimentais demonstram que a integração do RVV melhora significativamente a velocidade de inferência de CNNs. A implementação manycore amplifica ainda mais esses benefícios, evidenciando o potencial das arquiteturas vetoriais baseadas em RISC-V para aceleração eficiente de ML. Este trabalho contribui para a área de aceleração em hardware ao apresentar uma solução escalável e de código aberto para aplicações de CNNs.
Keywords:	RISC-V Vector Processing Hardware Acceleration Manycores Convolutional Neural Networks RISC-V Processamento Vetorial Aceleração de Hardware Manycores Redes Neurais Convolucionais
CNPQ Knowledge Areas:	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
Language:	eng
Country:	Brasil
Publisher:	Pontifícia Universidade Católica do Rio Grande do Sul
Institution Acronym:	PUCRS
Department:	Escola Politécnica
Program:	Programa de Pós-Graduação em Ciência da Computação
Access type:	Acesso Aberto
Fulltext access restriction:	Trabalho não apresenta restrição para publicação
URI:	https://tede2.pucrs.br/tede2/handle/tede/11675
Issue Date:	11-Mar-2025
Appears in Collections:	Programa de Pós-Graduação em Ciência da Computação

Files in This Item:

File	Description	Size	Format
WILLIAN_ANALDO_NUNES_DIS.pdf	WILLIAN_ANALDO_NUNES_DIS	8.69 MB	Adobe PDF	Download/Open Preview ×

Show full item record Recommend this item

PUCRS

Digital Library of Theses and Dissertations