A framework for fast architecture exploration of convolutional neural network accelerators

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tede2.pucrs.br/tede2/handle/tede/10437

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Juracy, Leonardo Rezende	-
dc.creator.Lattes	http://lattes.cnpq.br/1919912901166999	por
dc.contributor.advisor1	Moraes, Fernando Gehm	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/2509301929350826	por
dc.contributor.advisor-co1	Moreira, Matheus Trevisan	-
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/3487439989692887	por
dc.date.accessioned	2022-09-08T19:39:35Z	-
dc.date.issued	2022-08-05	-
dc.identifier.uri	https://tede2.pucrs.br/tede2/handle/tede/10437	-
dc.description.resumo	Machine Learning (ML) is a sub-area of artificial intelligence comprehending algorithms to solve classification and pattern recognition problems. One of the most common ways to deliver ML nowadays is using Artificial Neural Networks, specifically Convolutional Neural Networks (CNN). GPUs became the reference platforms for both training and inference phases of CNNs due to their tailored architecture to the CNN operators. However, GPUs are powerhungry architectures. A path to enable the deployment of CNNs in energy-constrained devices is by adopting hardware accelerators for the inference phase. However, the literature presents gaps regarding analyses and comparisons of these accelerators to evaluate Power-Performance-Area (PPA) trade-offs. Typically, the literature estimates PPA from the number of executed operations during the inference phase, such as the number of Multiplier-Accumulators (MAC), which may not reflect the actual hardware behavior. Thus, it is necessary to deliver accurate hardware estimations, enabling design space exploration (DSE) to deploy CNNs according to the design constraints. This Thesis proposes two DSE approaches for CNNs. The former adopts a cycle-accurate system simulator and uses a highlevel language to describe the hardware abstractly. This first approach uses TensorFlow as a front-end for training, while the back-end generates performance estimations through physical synthesis of hardware accelerators. The second approach is a fast and accurate DSE, using an analytical model fitted from the physical synthesis of hardware accelerators. The analytic model estimates area, performance, power, energy, and memory accesses. The observed worst-case average error comparing the analytical model to the data obtained from the physical synthesis is smaller than 8%. Although the second approach generate accurate results in a fast way, the first approach enables simulating a complete computational system, considering a possible accelerators modeling redundancy. This Thesis advances the state-of-the-art by offering methods to generate a comprehensive PPA evaluation, integrating front-end frameworks (e.g., TensorFlow) to a back-end design flow.	por
dc.description.abstract	Aprendizado de Máquina (ML, do inglês, Machine Learning) é uma subárea da inteligência artificial que compreende algoritmos para resolver problemas de classificação e reconhecimento de padrões. Uma das maneiras mais comuns de desenvolver ML atualmente é usando Redes Neurais Artificiais, especificamente Redes Neurais Convolucionais (CNN, do inglês, Convolutional Neural Networks). As GPUs tornaram-se as plataformas de referência para as fases de treinamento e inferência das CNNs devido à sua arquitetura adaptada aos operadores da CNN. No entanto, as GPUs são arquiteturas que consomem muita energia. Um caminho para permitir a implementação de CNNs em dispositivos com restrição de energia é adotar aceleradores de hardware para a fase de inferência. No entanto, a literatura apresenta lacunas em relação às análises e comparações desses aceleradores para avaliar os compromissos Potência-Desempenho-Área (PPA, do inglês, Power-Performance-Area). Normalmente, a literatura estima PPA a partir do número de operações executadas durante a fase de inferência, como o número de MACs (do inglês, Multiplier-Accumulator), o que pode não refletir o comportamento real do hardware. Assim, é necessário fornecer estimativas de hardware precisas, permitindo a exploração do espaço de projeto (DSE, do inglês, Design Space Exploration) para implementar as CNNs de acordo com as restrições de projeto. Esta Tese propõe duas abordagens de DSE para CNNs. A primeira adota um simulador de sistema com precisão de ciclo de relógio e usa uma linguagem de alto nível para descrever o hardware de forma abstrata. Essa primeira abordagem, usa o TensorFlow como front-end para treinamento, enquanto o back-end gera estimativas de desempenho por meio da síntese física de aceleradores de hardware. A segunda abordagem, é um DSE rápido e preciso, usando um modelo analítico construído a partir dos resultados da síntese física de aceleradores de hardware. O modelo analítico estima a área de silício, desempenho, potência, energia e quantidade de acessos à memória. O erro médio do pior caso observado comparando o modelo analítico com os dados obtidos da síntese física é inferior a 8%. Embora a segunda abordagem permita obter resultados precisos e de forma rápida, a primeira abordagem permite simular um sistema computacional completo, considerando possíveis redundâncias na modelagem de aceleradores. Esta Tese avança o estado da arte, apresentando métodos para gerar uma avaliação abrangente de PPA, integrando estruturas de front-end (por exemplo, TensorFlow) a um fluxo de design de back-end.	por
dc.description.provenance	Submitted by PPG Ciência da Computação ([email protected]) on 2022-08-30T18:56:04Z No. of bitstreams: 1 LEONARDO_REZENDE_JURACY_TES.pdf: 14967984 bytes, checksum: 221d49c18ed90dac4a56a4a45543dff8 (MD5)	eng
dc.description.provenance	Approved for entry into archive by Sheila Dias ([email protected]) on 2022-09-08T19:15:17Z (GMT) No. of bitstreams: 1 LEONARDO_REZENDE_JURACY_TES.pdf: 14967984 bytes, checksum: 221d49c18ed90dac4a56a4a45543dff8 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2022-09-08T19:39:35Z (GMT). No. of bitstreams: 1 LEONARDO_REZENDE_JURACY_TES.pdf: 14967984 bytes, checksum: 221d49c18ed90dac4a56a4a45543dff8 (MD5) Previous issue date: 2022-08-05	eng
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES	por
dc.format	application/pdf	*
dc.thumbnail.url	https://tede2.pucrs.br/tede2/retrieve/185324/LEONARDO_REZENDE_JURACY_TES.pdf.jpg	*
dc.language	eng	por
dc.publisher	Pontifícia Universidade Católica do Rio Grande do Sul	por
dc.publisher.department	Escola Politécnica	por
dc.publisher.country	Brasil	por
dc.publisher.initials	PUCRS	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	por
dc.rights	Acesso Aberto	por
dc.subject	Redes Neurais Convolucionais	por
dc.subject	Acelerador de Hardware de Convolução	por
dc.subject	Simulador de Sistema	por
dc.subject	PPA	por
dc.subject	Exploração do Espaço de Projeto	por
dc.subject	Convolutional Neural Networks	eng
dc.subject	Convolution Hardware Accelerator	eng
dc.subject	System Simulator	eng
dc.subject	PPA	eng
dc.subject	Design Space Exploration	eng
dc.subject.cnpq	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO	por
dc.title	A framework for fast architecture exploration of convolutional neural network accelerators	por
dc.type	Tese	por
dc.restricao.situacao	Trabalho não apresenta restrição para publicação	por
Aparece nas coleções:	Programa de Pós-Graduação em Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
LEONARDO_REZENDE_JURACY_TES.pdf	LEONARDO_REZENDE_JURACY_TES	14,62 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

PUCRS

Biblioteca Digital de Teses e Dissertações