Fault-tolerance at the management level in many-core systems

Export this record:

Please use this identifier to cite or link to this item: https://tede2.pucrs.br/tede2/handle/tede/8982

Full metadata record

DC Field	Value	Language
dc.creator	Fochi, Vinicius Morais	-
dc.creator.Lattes	http://lattes.cnpq.br/2438180808391791	por
dc.contributor.advisor1	Moraes, Fernando Gehm	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/2509301929350826	por
dc.date.accessioned	2019-10-28T18:16:45Z	-
dc.date.issued	2019-08-23	-
dc.identifier.uri	http://tede2.pucrs.br/tede2/handle/tede/8982	-
dc.description.resumo	The technology nodes reduction enabled the emergence of NoC-based many- cores with dozens to hundreds of processing elements (PEs). Despite the processing power offered by a large number of processors and communication flexibility due to the adoption of NoCs, it is necessary to manage the many-core resources to ensure scalability. The execu- tion of the management tasks requires processing elements reserved exclusively to execute such actions. A centralized approach would induce a significant load to the managers PEs (MPE) in large-scale systems. The adoption of distributed approaches, with MPEs hierar- chically organized, reduces the management load, being the organization adopted in this work. Recent proposals for Many-core System-on-chip (MCSoCs) management focus on different aspects: power, performance, system resources. These management techniques are applied to the systemic level of the MCSoCs. However, in the reviewed works, there is a gap in proposals related to permanent faults in processors with management functions. This Thesis aims to tackle two main problems. First, to treat permanent faults in management processors, developing a set of new techniques so that the MCSoCs continues to oper- ate correctly, without re-executing applications running on it. Second, to solve the single point of failure issue regarding the communication of the MCSoCs with the external world. The original contribution of this Thesis is a distributed MCSoC architecture, with fault recov- ery capability at critical points in the system. The recovery method includes hardware and software modules, fault monitoring, and management recovering. The proposal uses task migration techniques, and heuristics to select the position of the new manager. This Thesis proposes a recovery method when an MPE became faulty. The method is scalable, able to act in systems from dozens up to hundreds of processors. The method is transparent to the applications executing in the MCSoC, with a small execution overhead observed during the management and task migration.	por
dc.description.abstract	A redução dos nodos tecnológicos permitiu o surgimento de sistemas com múlti- plos núcleos de processamento utilizando redes intra-chip (MCSoCs - many-core systems- on-chip), com dezenas a centenas de elementos de processamento (PEs). Apesar do poder de processamento oferecido pelo grande numero de PEs e da flexibilidade de comunicação devido à adoção de NoCs, é necessário gerenciar os recursos do sistema para garantir sua escalabilidade. A execução das tarefas de gerência requer PEs reservados exclusivamente para executar essas ações. Uma abordagem centralizada induziria uma carga de traba- lho significativa para os PEs de gerência (MPE) em sistemas de grande escala. A adoção de abordagens distribuídas, com MPEs hierarquicamente organizadas, reduz a carga de gerência, sendo a organização adotada nesta Tese. Propostas recentes de gerência em MCSoCs focam em diferentes aspectos: potência, desempenho, utilização dos recursos do sistema. Essas técnicas são aplicadas no nível sistêmico dos MCSoCs. No entanto, nos trabalhos analisados, há uma lacuna nas propostas relacionadas a falhas permanentes nos MPEs. Esta Tese tem por objetivo abordar dois problemas principais. Primeiro, tratar fa- lhas permanentes nos MPEs, desenvolvendo um conjunto de novas técnicas para que os MCSoCs continuem a operar corretamente, sem reexecutar as aplicações em execução. Segundo, resolver a questão do ponto único de falha na comunicação dos MCSoCs com o mundo externo. A contribuição original desta Tese é uma arquitetura MCSoC distribuída, com capacidade de recuperação de falhas em pontos críticos do sistema. O método de re- cuperação inclui módulos de hardware e software, monitoramento de falhas e recuperação de gerenciamento. A proposta utiliza técnicas de migração de tarefas e heurísticas para selecionar a posição do novo MPE. Esta Tese propõe um método de recuperação quando um MPE torna-se falho. O método é escalável, capaz de atuar em sistemas de dezenas a centenas de processadores. O método é transparente para as aplicações executadas no MCSoC, com uma pequena sobrecarga no tempo de execução, observado durante a migração de gerência e migração de tarefas.	por
dc.description.provenance	Submitted by PPG Ciência da Computação ([email protected]) on 2019-10-16T12:27:57Z No. of bitstreams: 1 VINICIUS MORAIS FOCHI_TES.pdf: 4935856 bytes, checksum: 1cdcc1463050860900a892884bde83d3 (MD5)	eng
dc.description.provenance	Approved for entry into archive by Sarajane Pan ([email protected]) on 2019-10-28T17:58:07Z (GMT) No. of bitstreams: 1 VINICIUS MORAIS FOCHI_TES.pdf: 4935856 bytes, checksum: 1cdcc1463050860900a892884bde83d3 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2019-10-28T18:16:45Z (GMT). No. of bitstreams: 1 VINICIUS MORAIS FOCHI_TES.pdf: 4935856 bytes, checksum: 1cdcc1463050860900a892884bde83d3 (MD5) Previous issue date: 2019-08-23	eng
dc.format	application/pdf	*
dc.thumbnail.url	http://tede2.pucrs.br:80/tede2/retrieve/177045/VINICIUS%20MORAIS%20FOCHI_TES.pdf.jpg	*
dc.language	eng	por
dc.publisher	Pontifícia Universidade Católica do Rio Grande do Sul	por
dc.publisher.department	Escola Politécnica	por
dc.publisher.country	Brasil	por
dc.publisher.initials	PUCRS	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	por
dc.rights	Acesso Aberto	por
dc.subject	MCSoCs	eng
dc.subject	NoC	eng
dc.subject	System Management	eng
dc.subject	Fault-Recovery	eng
dc.subject	Task Migration	eng
dc.subject	Fault-Tolerance	eng
dc.subject	Application Admission	eng
dc.subject	BrNoC	eng
dc.subject	Gerenciamento de sistemas	por
dc.subject	Recuperação de Falhas	por
dc.subject	Migração de Tarefas	por
dc.subject	Tolerância a Falhas	por
dc.subject	Admissão de Aplicativos	por
dc.subject.cnpq	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO	por
dc.title	Fault-tolerance at the management level in many-core systems	por
dc.type	Tese	por
dc.restricao.situacao	Trabalho não apresenta restrição para publicação	por
Appears in Collections:	Programa de Pós-Graduação em Ciência da Computação

Files in This Item:

File	Description	Size	Format
VINICIUS MORAIS FOCHI_TES.pdf	VINICIUS_MORAIS_FOCHI_TES	4.82 MB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

PUCRS

Digital Library of Theses and Dissertations