@MASTERSTHESIS{ 2015:584865021, title = {Tolerância a falhas em elementos de processamento de MPSoCs}, year = {2015}, url = "http://tede2.pucrs.br/tede2/handle/tede/6435", abstract = "A pesquisa em MPSoCs (do inglês, Multiprocessor System on Chip) tem sido motivada pela necessidade crescente de maior capacidade de processamento das aplicações de sistemas embarcados. Devido à esta tendência, os MPSoCs tornam-se cada vez mais complexos e miniaturizados. Estas características trazem associados desafios como escalabilidade e dependabilidade. O sistema que tem a necessidade de ser confiável e estar disponível em todo o seu tempo operação precisa ser tolerante a falhas a ponto de recuperar-se automaticamente. Dessa forma o usuário não será exposto a perdas de informação, execução malsucedida ou até mesmo a falha total do sistema. Este trabalho propõe um método de tolerância a falhas com foco na recuperação de falhas. O método utiliza conceitos utilizados em computação distribuída para solucionar o problema de falhas permanentes em elementos de processamento de um MPSoCs. O método proposto, implementado exclusivamente em software, recupera um sistema exposto a uma falha permanente de um elemento de processamento, realizando uma realocação das tarefas que estavam sendo executadas pelo elemento que falhou para um elemento de processamento saudável do sistema. As tarefas da aplicação que falharam devem reiniciar suas execuções do ponto de partida dado que o contexto da execução não é salvo, mantendo assim um baixo overhead no sistema, como demonstrado nos resultados obtidos. Os experimentos foram realizados na plataforma HeMPS com uma avaliação dos parâmetros mais relevantes como tempo de recuperação, impacto em banda de comunicação, escala e outros, que justificam a viabilidade e as vantagens do método proposto. Na ausência de falhas, o protocolo proposto não altera o tempo de execução, porém aumenta o tamanho de memória do kernel para 21 Kbytes, 20% de acréscimo comparado com o kernel original. Os resultados obtidos na presença de falhas mostram que o tempo total de recuperação de falhas do método é de 0,2ms a 1ms, dependendo do número de tarefas realocadas devido ao PE defeituoso. O maior impacto de tempo no protocolo se dá com a etapa de realocação de tarefas.", publisher = {Pontifícia Universidade Católica do Rio Grande do Sul}, scholl = {Programa de Pós-Graduação em Ciência da Computação}, note = {Faculdade de Informática} }