Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tede2.pucrs.br/tede2/handle/tede/9778
Registro completo de metadados
Campo DCValorIdioma
dc.creatorGavenski, Nathan Schneider-
dc.creator.Latteshttp://lattes.cnpq.br/1494557026825121por
dc.contributor.advisor1Barros, Rodrigo Coelho-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8172124241767828por
dc.date.accessioned2021-07-08T14:00:00Z-
dc.date.issued2021-03-26-
dc.identifier.urihttp://tede2.pucrs.br/tede2/handle/tede/9778-
dc.description.resumoHumans have the ability to learn through observation. The computational equivalent of learning by observation is behavioral cloning, an imitation learning technique that teaches an agent how to behave through expert demonstrations. Recent approaches work towards making use of unlabeled data with fully-observable snapshots of the states, decoding the observed information into actions in a self-supervised fashion. However, there are several problems still left to be addressed, including the many times the iterative learning scheme gets stuck into bad local minima. In this work, we propose three different methods, Augmented Behavioral Cloning from Observation, Imitating Unknown Policies via Exploration, and Combined Reinforcement and Imitation Learning, which aim to solve the problems of the decaying learning process, nonexplorative policies, and sample efficiency during the iterative process. The results from Augmented Behavioral Cloning from Observations show that a sampling mechanism can create more appropriate iterative learning cycles, while Imitating Unknown Policies via Exploration results convey that an exploration strategy can achieve results even better than the expert, reaching the state-of-the-art of the task. Lastly, the Combined Reinforcement and Imitation Learning framework shows that adding a reinforcement learning method within the imitation learning framework can create more efficient policies and reach similar results to the second method with fewer samples. Both the second and the third methods offer distinct trade-offs between performance and efficiency, depending on the difficulty of acquiring expert samples.por
dc.description.abstractOs seres humanos têm a capacidade de aprender através da observação. O equivalente computacional deste aprendizado se chama clonagem de comportamento, uma técnica de aprendizado por imitação na qual um agente estuda o comportamento de um especialista. Abordagens recentes trabalham no uso de dados não rotulados com representações fidedignas dos estados, decodificando as informações observadas em ações de maneira auto-supervisionada. No entanto, ainda existem vários problemas a serem resolvidos, incluindo problemas de mínimos locais e dependência de vetores de estados. Nesta dissertação, apresentamos três novos métodos de aprendizado por imitação: Augmented Behavioral Cloning from Observation, Imitating Unknown Policies via Exploration, e Combined Reinforcement and Imitation Learning, que têm por objetivo resolver os problemas de decaimento de aprendizado durante o processo iterativo, de falta de políticas não-exploratórias, e de fraca eficiência de amostragem durante o treinamento dos agentes. Os resultados de Augmented Behavioral Cloning from Observations mostram que um mecanismo de amostragem pode criar ciclos de aprendizagem iterativos mais apropriados. Já os experimentos com Imitating Unknown Policies via Exploration ressaltam que um mecanismo de exploração pode alcançar resultados superiores do especialista e bater o estado da arte. Por fim, a análise do framework de Combined Reinforcement and Imitation Learning, mostra que adicionar um mecanismo de aprendizagem por reforço pode criar políticas mais eficientes e chegar a resultados semelhantes ao segundo método, mas com muito menos amostras. O segundo e o terceiro métodos oferecem diferentes trade-offs entre desempenho e eficiência, dependendo da dificuldade de aquisição de amostras especializadas.por
dc.description.provenanceSubmitted by PPG Ciência da Computação ([email protected]) on 2021-07-07T16:59:31Z No. of bitstreams: 1 NATHAN SCHNEIDER GAVENSKI_DIS.pdf: 1641868 bytes, checksum: 2f7cb59e3701675754d95b7e7ed1e417 (MD5)eng
dc.description.provenanceApproved for entry into archive by Sarajane Pan ([email protected]) on 2021-07-08T13:53:55Z (GMT) No. of bitstreams: 1 NATHAN SCHNEIDER GAVENSKI_DIS.pdf: 1641868 bytes, checksum: 2f7cb59e3701675754d95b7e7ed1e417 (MD5)eng
dc.description.provenanceMade available in DSpace on 2021-07-08T14:00:00Z (GMT). No. of bitstreams: 1 NATHAN SCHNEIDER GAVENSKI_DIS.pdf: 1641868 bytes, checksum: 2f7cb59e3701675754d95b7e7ed1e417 (MD5) Previous issue date: 2021-03-26eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpor
dc.formatapplication/pdf*
dc.thumbnail.urlhttp://tede2.pucrs.br:80/tede2/retrieve/181578/NATHAN%20SCHNEIDER%20GAVENSKI_DIS.pdf.jpg*
dc.languageengpor
dc.publisherPontifícia Universidade Católica do Rio Grande do Sulpor
dc.publisher.departmentEscola Politécnicapor
dc.publisher.countryBrasilpor
dc.publisher.initialsPUCRSpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopor
dc.rightsAcesso Abertopor
dc.subjectImitation Learningeng
dc.subjectBehavioral Cloningeng
dc.subjectSelf-supervised Learningeng
dc.subjectAprendizado por Imitaçãopor
dc.subjectClonagem de Comportamentopor
dc.subjectAprendizado Auto-Supervisionadopor
dc.subject.cnpqCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOpor
dc.titleSelf-supervised imitation learning from observationpor
dc.typeDissertaçãopor
dc.restricao.situacaoTrabalho não apresenta restrição para publicaçãopor
Aparece nas coleções:Programa de Pós-Graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
NATHAN SCHNEIDER GAVENSKI_DIS.pdfNATHAN_SCHNEIDER_GAVENSKI_DIS1,6 MBAdobe PDFThumbnail

Baixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.