Export this record: EndNote BibTex

Please use this identifier to cite or link to this item: https://tede2.pucrs.br/tede2/handle/tede/9031
Full metadata record
DC FieldValueLanguage
dc.creatorLopes, Maurício Armani-
dc.creator.Latteshttp://lattes.cnpq.br/8869080845383842por
dc.contributor.advisor1Barros, Rodrigo Coelho-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8172124241767828por
dc.date.accessioned2019-11-21T16:46:06Z-
dc.date.issued2019-08-27-
dc.identifier.urihttp://tede2.pucrs.br/tede2/handle/tede/9031-
dc.description.resumoGeneralization algorithms suffer from several problems. Commonly, deep learning algorithms are prone to overfit a limited amount of data, generating unsatisfactory results for unseen data. In the case of deep generative models, this problem manifests itself differently. The model tends to ignore nuances from the real distribution and to collapse into the most common attributes. To some degree, this is a desired behavior, but this can lead the algorithm to generate images with very reduced diversity, not exploring all attributes provided by the real distribution. Deep generative networks (e.g. GANs) have no explicit objective to encourage diversity during training. Furthermore, GANs were initially designed to generate random realistic samples with no control for the user. We propose a disentanglement-base method to tackle both problems at once for text-to-image synthesis frameworks. First, we force the disentanglement of concepts not described by textual descriptions (e.g. background). Then, we use the learned disentangled representations to provide random combinations for the generator. This guides the generator to a more complete mapping, hence increasing diversity using the same amount of data. With disentangled representations, the framework also gains control over synthesis for each concept. We conduct several experiments and ablation studies to validate our contributions on a singleobject dataset. Results show improvements for both goals and no side-effects for the traditional text-to-image frameworks. Our approach can easily be used on top of other frameworks to increase control, diversity, and realism.por
dc.description.abstractAlgoritmos de generalização sofrem vários problemas. Comumente, os algoritmos de aprendizado profundo tendem a se ajustar a uma quantidade limitada de dados, gerando resultados insatisfatórios para dados não vistos. No caso de modelos geradores profundos, esse problema se manifesta de forma diferente. O modelo tende a ignorar nuances da distribuição real e colapsar em atributos mais comuns. Embora em algum grau, esse seja um comportamento desejado, isso pode levar o algoritmo a gerar imagens com diversidade muito reduzida, não explorando todos os atributos fornecidos pela distribuição real. Redes generativas profundas (por exemplo, GANs) não têm custo explícito para incentivar a diversidade durante o treinamento. Além disso, as GANs foram inicialmente projetadas para gerar amostras aleatórias sem controle do usuário. Propomos um método baseado em desentrelaçamento para resolver ambos os problemas de uma só vez para algoritmos de síntese de imagem a partir de texto. Primeiro, forçamos o desentrelaçamento de conceitos não descritos por descrições textuais (por exemplo, o segundo plano). Então, usamos as representações desentrelaçadas para fornecer combinações aleatórias para o gerador. Isso orienta o gerador para um mapeamento mais completo, gerando um aumento na diversidadea partir da mesma quantidade de dados. Com representações desentrelaçadas, o framework também ganha controle sobre a geração para cada conceito. Realizamos vários experimentos e estudos de ablação para validar nossas contribuições em um conjunto de dados de um único objeto. Os resultados mostram melhorias para ambos os objetivos e nenhum efeito colateral para os frameworks tradicionais. Nossa abordagem pode ser facilmente usada em outros frameworks para aumentar o controle, a diversidade e o realismo.por
dc.description.provenanceSubmitted by PPG Ciência da Computação ([email protected]) on 2019-11-19T18:25:37Z No. of bitstreams: 1 MAURÍCIO ARMANI LOPES_DIS.pdf: 8844823 bytes, checksum: 0b7e771b9a14ee0bb76ff8e79b3b2dc7 (MD5)eng
dc.description.provenanceApproved for entry into archive by Sheila Dias ([email protected]) on 2019-11-21T16:36:51Z (GMT) No. of bitstreams: 1 MAURÍCIO ARMANI LOPES_DIS.pdf: 8844823 bytes, checksum: 0b7e771b9a14ee0bb76ff8e79b3b2dc7 (MD5)eng
dc.description.provenanceApproved for entry into archive by Sheila Dias ([email protected]) on 2019-11-21T16:36:50Z (GMT) No. of bitstreams: 1 MAURÍCIO ARMANI LOPES_DIS.pdf: 8844823 bytes, checksum: 0b7e771b9a14ee0bb76ff8e79b3b2dc7 (MD5)eng
dc.description.provenanceMade available in DSpace on 2019-11-21T16:46:06Z (GMT). No. of bitstreams: 1 MAURÍCIO ARMANI LOPES_DIS.pdf: 8844823 bytes, checksum: 0b7e771b9a14ee0bb76ff8e79b3b2dc7 (MD5) Previous issue date: 2019-08-27eng
dc.formatapplication/pdf*
dc.thumbnail.urlhttp://tede2.pucrs.br:80/tede2/retrieve/177278/MAUR%c3%8dCIO%20ARMANI%20LOPES_DIS.pdf.jpg*
dc.languageengpor
dc.publisherPontifícia Universidade Católica do Rio Grande do Sulpor
dc.publisher.departmentEscola Politécnicapor
dc.publisher.countryBrasilpor
dc.publisher.initialsPUCRSpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopor
dc.rightsAcesso Abertopor
dc.subjectGenerative Modelseng
dc.subjectGANseng
dc.subjectText-to-image Synthesiseng
dc.subjectDisentanglementeng
dc.subjectModelos Geradorespor
dc.subjectSíntese de texto à imagempor
dc.subjectDesentrelaçamentopor
dc.subject.cnpqCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOpor
dc.titleFully-disentangled text-to-image synthesispor
dc.typeDissertaçãopor
dc.restricao.situacaoTrabalho não apresenta restrição para publicaçãopor
Appears in Collections:Programa de Pós-Graduação em Ciência da Computação

Files in This Item:
File Description SizeFormat 
MAURÍCIO ARMANI LOPES_DIS.pdfMAURICIO_ARMANI_LOPES_DIS8.64 MBAdobe PDFThumbnail

Download/Open Preview


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.