@PHDTHESIS{ 2015:386509094, title = {Layered approach for runtime fault recovery in NOC-Based MPSOCS}, year = {2015}, url = "http://tede2.pucrs.br/tede2/handle/tede/6279", abstract = "Mecanismos de toler?ncia a falhas em MPSoCs s?o obrigat?rios para enfrentar defeitos ocorridos durante a fabrica??o ou falhas durante a vida ?til do circuito integrado. Por exemplo, falhas permanentes na rede de interconex?o do MPSoC podem interromper aplica??es mesmo que a rede tenha caminhos sem falha para um determinado destino. A toler?ncia a falhas em tempo de execu??o fornece mecanismos de auto-organiza??o para continuar a oferecer servi?os de processamento apesar de n?cleos defeituosos devido ? presen?a de falhas permanentes e/ou transit?rias durante toda a vida dos chips. Esta Tese apresenta uma abordagem em camadas para um MPSoC tolerante a falhas, onde cada camada ? respons?vel por resolver uma parte do problema. O m?todo ? constru?do sobre uma nova proposta de rede especializada utilizada para procurar caminhos livre de falha. A primeira camada, denominada camada f?sica, ? respons?vel pela detec??o de falhas e isolamento das partes defeituosas da rede. A segunda camada, denominada camada de rede, ? respons?vel por substituir um caminho defeituoso por um caminho alternativo livre de falhas. Um m?todo de roteamento tolerante a falhas executa o mecanismo de busca de caminhos e reconfigura a rede para usar este caminho livre de falhas. A terceira camada, denominada camada de transporte, implementa um protocolo de comunica??o tolerante a falhas que detecta quando pacotes n?o s?o entregues ao destino, acionando o m?todo proposto na camada de rede. A ?ltima camada, camada de aplica??o, ? respons?vel por mover as tarefas do elemento de processamento (PE) defeituoso para um PE saud?vel, salvar o estado interno da tarefa, e restaur?-la em caso de falha durante a execu??o. Os resultados na camada de rede mostram um m?todo r?pido para encontrar caminhos livres de falhas. O processo de procura de caminhos alternativos leva tipicamente menos de 2000 ciclos de rel?gio (ou 20 microssegundos). Na camada de transporte, diferentes abordagens foram avaliadas para detectar uma mensagem n?o entregue e acionar a retransmiss?o. Os resultados mostram que a sobrecarga para retransmitir a mensagem ? 2,46 vezes maior quando comparado com o tempo para transmitir uma mensagem sem falha, sendo que todas outras mensagens subsequentes s?o transmitidas sem sobrecarga. Para as aplica??es DTW, MPEG e sint?tica, o caso m?dio de sobrecarga no tempo de execu??o da aplica??o ? de 0,17%, 0,09% e 0,42%, respectivamente. Isto representa menos do que 5% do tempo de execu??o de uma dada aplica??o no pior caso. Na camada de aplica??o, todo o protocolo de recupera??o de falhas executa rapidamente, com uma baixa sobrecarga no tempo de execu??o sem falhas (5,67%) e com falhas (17,33% - 28,34%).", publisher = {Pontif?cia Universidade Cat?lica do Rio Grande do Sul}, scholl = {Programa de P?s-Gradua??o em Ci?ncia da Computa??o}, note = {Faculdade de Inform?tica} }