Share record |
![]() ![]() |
Please use this identifier to cite or link to this item:
https://tede2.pucrs.br/tede2/handle/tede/11642
Document type: | Tese |
Title: | Efficient and multilingual text-to image synthesis : exploring novel architectures and cross-language Sstrategies |
Author: | Souza, Douglas Matos de ![]() |
Advisor: | Ruiz, Duncan Dubugras Alcoba |
Abstract (native): | Text-to-image synthesis is the task of generating images from text descriptions. Given a textual description, a text-to-image algorithm can generate multiple novel images that contain the details described in the text. Text-to-image algorithms are appealing for various real-world tasks. With such algorithms, machines can draw truly novel images that can be used for content generation or assisted drawing, for example. The general framework of text-to-image approaches can be divided into two main parts: i) a text encoder and ii) a generative model for images, which learns a conditional distribution over encoded text. Currently, text-to-image approaches leverage multiple neural networks to overcome the challenges of learning a generative model over images, increasing the overall framework´s complexity as well as the required computation for generating high-resolution images. Additionally, no works so far have explored cross-language models in the context of text-to-image generation, limiting current approaches to supporting only English. This limitation has a significant downside as it restricts access to the technology to users familiar with the English language, leaving out a substantial number of people who could benefit. In this thesis, we make the following contributions to address each of the aforementioned gaps. First, we propose a new end-to-end text-to-image approach that relies on a single neural network for the image generator model, reducing complexity and computation. Second, we propose a new loss function that improves training and yields more accurate models. Finally, we study how text encoders affect the overall performance of text-to-image generation and propose a novel cross-language approach to extend models to support multiple languages simultaneously. |
Abstract (english): | A síntese de texto para imagem é a tarefa de gerar imagens a partir de descrições textuais. Dada uma descrição textual, um algoritmo de síntese de imagens a partir de texto pode gerar várias imagens inéditas que contenham os detalhes descritos no texto. Estes algoritmos são atrativos para várias tarefas do mundo real. Com tais algoritmos, seria possível utilizar máquinas para criar imagens totalmente inéditas para geração de conteúdo ou para realizar desenhos assistidos, por exemplo. A estrutura geral das abordagens para síntese de imagens a partir de texto pode ser dividida em duas partes principais: i) um codificador de texto e ii) um modelo gerador para imagens, que aprende uma distribuição condicional sobre o texto codificado. Atualmente, as abordagens de síntese de imagens a partir de texto utilizam várias redes neurais para superar os desafios de aprender um modelo gerador sobre as imagens, aumentando a complexidade geral da abordagem, bem como a computação necessária para gerar imagens de alta resolução. Até o momento, nenhum trabalho explorou modelos que suportem múltiplos idiomas no contexto da geração de imagens a partir de texto, limitando as abordagens atuais a suportarem apenas o inglês. Esta limitação apresenta uma desvantagem significativa, pois restringe o acesso à tecnologia apenas para usuários familiarizados com a língua inglesa, deixando de fora um número substancial de pessoas que poderiam se beneficiar. Nesta tese, realizamos as seguintes contribuições para abordar cada uma das lacunas mencionadas anteriormente. Primeiramente, propomos uma nova abordagem de síntese de imagem a partir de texto, de ponta a ponta, que utiliza apenas uma rede neural para o modelo gerador de imagens, reduzindo a complexidade e a computação necessária. Em segundo lugar, propomos uma nova função de custo, que aprimora o treinamento e produz modelos mais precisos. Por fim, estudamos como os codificadores de texto afetam o desempenho geral da geração de imagens a partir de texto e propomos uma nova abordagem de múltiplas linaguagens para ampliar os modelos e suportar múltiplos idiomas simultaneamente. |
Keywords: | Cross-Language Text-To-Image Synthesis Generative Adversarial Networks Generative Models Deep Neural Networks |
CNPQ Knowledge Areas: | CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
Language: | eng |
Country: | Brasil |
Publisher: | Pontifícia Universidade Católica do Rio Grande do Sul |
Institution Acronym: | PUCRS |
Department: | Escola Politécnica |
Program: | Programa de Pós-Graduação em Ciência da Computação |
Access type: | Acesso Aberto |
Fulltext access restriction: | Trabalho não apresenta restrição para publicação |
URI: | https://tede2.pucrs.br/tede2/handle/tede/11642 |
Issue Date: | 15-Jan-2024 |
Appears in Collections: | Programa de Pós-Graduação em Ciência da Computação |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
DOUGLAS_MATOS_DE_SOUZA_TES.pdf | DOUGLAS_MATOS_DE_SOUZA_TES | 16.11 MB | Adobe PDF | ![]() Download/Open Preview |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.