Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction

Export this record:

Please use this identifier to cite or link to this item: https://tede2.pucrs.br/tede2/handle/tede/10117

Full metadata record

DC Field	Value	Language
dc.creator	Tasoniero, Felipe Roque	-
dc.creator.Lattes	http://lattes.cnpq.br/4264740668955178	por
dc.contributor.advisor1	Barros, Rodrigo Coelho	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8172124241767828	por
dc.date.accessioned	2022-03-17T12:46:20Z	-
dc.date.issued	2021-10-28	-
dc.identifier.uri	http://tede2.pucrs.br/tede2/handle/tede/10117	-
dc.description.resumo	Recent studies on Differentiable Rendering models related to 3D reconstruction focus on fully convolutional-based models for data feature extraction or for the decoding process. On the other hand, computer vision tasks such as image recognition, segmentation, image generation, and object detection is benefiting largely from using fully self-attention approaches known as Transformers. Due to the recent success of the Transformer backbone models applied to computer vision, in this work we aim to explore four different approaches of self-attention-based models for implicit 3D object reconstruction from images. In our first approach, we have implemented the SAGAN Self-Attention layers together with convolutions layers; in our second approach, we have implemented a patchwise self-attention model to completely replace the convolutional encoder; next, we have implemented a Transformer model called Pyramid Vision Transformer to replace the convolutional based encoder from the DVR model; finally, we have implemented the Nyströmformer model, an optimizer to reduce the computational cost and to improve the feature extracting capability. Considering all approaches, our results have shown that we can achieve competitive results by using Transformer models, as well as adding an optimizer to reduce the computational cost. By applying the optimization model and reducing the computational cost, it was possible to modify the decoder module to increase the reconstruction results, resulting in improvements of up to 8.5% compared to the baseline approaches.	por
dc.description.abstract	Pesquisas recentes sobre modelos de Renderização Diferenciável relacionados à reconstrução 3D de imagens utilizam modelos totalmente convolucionais para extração de features ou para o processamento de decodificação. Por outro lado, várias tarefas de visão computacional como reconhecimento visual, segmentação, geração de imagens e detecção de objetos tiveram grande melhoria de desempenho ao fazer uso de modelos baseados em self-attention, conhecidos tradicionalmente como Transformers. Devido a tal sucesso, neste trabalho pretendemos explorar quatro diferentes abordagens de modelos baseados em selfattention para reconstrução implícita de objetos 3D. Em nossa primeira abordagem, implementamos as camadas de self-attention da SAGAN junto as camadas convolucionais; em nossa segunda abordagem, implementamos o modelo patchwise self-attention para substituir completamente o codificador convolucional. Em seguida, implementamos um modelo de Transformer chamado Pyramid Vision Transformer para substituir o codificador convolucional do modelo DVR; finalmente, em nossa quarta abordagem, implementamos o modelo Nyströmformer como um otimizador para reduzir o custo computacional e para melhorar a capacidade de extração de features. Considerando todas as abordagens, nossos resultados mostraram que podemos alcançar resultados competitivos usando Transformers, bem como adicionando um otimizador para reduzir seu custo computacional. Com a aplicação do modelo de otimização e consequente redução do custo computacional, foi possível modificar o módulo referente ao decodificador de forma a melhorar os resultados de reconstrução, alcançando melhorias de até 8,5% em relação aos baselines.	por
dc.description.provenance	Submitted by PPG Ciência da Computação ([email protected]) on 2022-03-15T20:16:00Z No. of bitstreams: 1 FELIPE_ROQUE_TASONIERO_DIS.pdf: 4457229 bytes, checksum: 3cd611f9e87d2041f168cce3d347f4a5 (MD5)	eng
dc.description.provenance	Approved for entry into archive by Sarajane Pan ([email protected]) on 2022-03-17T12:39:42Z (GMT) No. of bitstreams: 1 FELIPE_ROQUE_TASONIERO_DIS.pdf: 4457229 bytes, checksum: 3cd611f9e87d2041f168cce3d347f4a5 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2022-03-17T12:46:20Z (GMT). No. of bitstreams: 1 FELIPE_ROQUE_TASONIERO_DIS.pdf: 4457229 bytes, checksum: 3cd611f9e87d2041f168cce3d347f4a5 (MD5) Previous issue date: 2021-10-28	eng
dc.format	application/pdf	*
dc.thumbnail.url	http://tede2.pucrs.br:80/tede2/retrieve/183450/FELIPE_ROQUE_TASONIERO_DIS.pdf.jpg	*
dc.language	eng	por
dc.publisher	Pontifícia Universidade Católica do Rio Grande do Sul	por
dc.publisher.department	Escola Politécnica	por
dc.publisher.country	Brasil	por
dc.publisher.initials	PUCRS	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	por
dc.rights	Acesso Aberto	por
dc.subject	Deep Learning	eng
dc.subject	3D Reconstruction	eng
dc.subject	Computer Vision	eng
dc.subject	Transformers	eng
dc.subject	Aprendizado Profundo	por
dc.subject	Reconstrução 3D	por
dc.subject	Visão Computacional	por
dc.subject	Transformers	por
dc.subject.cnpq	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO	por
dc.title	Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction	por
dc.type	Dissertação	por
dc.restricao.situacao	Trabalho não apresenta restrição para publicação	por
Appears in Collections:	Programa de Pós-Graduação em Ciência da Computação

Files in This Item:

File	Description	Size	Format
FELIPE_ROQUE_TASONIERO_DIS.pdf	FELIPE_ROQUE_TASONIERO_DIS	4.35 MB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

PUCRS

Digital Library of Theses and Dissertations