Compartilhe o registro |
|
Use este identificador para citar ou linkar para este item:
https://tede2.pucrs.br/tede2/handle/tede/11131
Tipo do documento: | Tese |
Título: | Advances in imitation learning from observation |
Título(s) alternativo(s): | Avanços em aprendizado de imitação por observação |
Autor: | Santos Júnior, Juarez Monteiro dos |
Primeiro orientador: | Barros, Rodrigo Coelho |
Resumo: | Imitation from Observation, a computational technique that instructs agents by observing expert demonstrations, suffers from considerable hurdles such as sub-optimal performance, local minima issues, and ineffective state-space exploration. Although recent strategies leverage unlabeled data to decode information self-supervisedly, persistent challenges remain. This thesis presents four novel methods for imitation learning from observation in response to those challenges. Furthermore, a comprehensive study on the resilience of imitation learning methods is provided to enable a nuanced comprehension of their robustness and performance across various scenarios. The achieved positive outcomes substantiate the merits of the proposed methods. A sampling mechanism is shown to enhance iterative learning cycles, rendering them more balanced. Integrating an exploration mechanism shows potential to surpass expert performance, establishing state-of-the-art results in the field. Moreover, the employment of reinforcement and adversarial learning mechanisms demonstrate their ability to forge more efficient policies, accomplishing good results with fewer samples. The proposed strategies boost performance and efficiency while minimizing the complexity of acquiring expert data |
Abstract: | A Imitação por Observação, técnica computacional destinada ao ensino de agentes por meio da observação de demonstrações de especialistas, enfrenta desafios significativos como baixo desempenho, problemas com mínimos locais e exploração ineficaz do espaço de estados. Apesar das recentes abordagens empregarem dados não rotulados para decodificar informações de maneira auto-supervisionada, persistem os desafios a serem superados. Em resposta a tais desafios, a presente tese introduz quatro novos métodos destinados à imitação por observação. Ainda, apresenta um estudo aprofundado sobre a resiliência dos métodos de aprendizado por imitação, proporcionando uma melhor compreensão de seu desempenho e robustez em diversos contextos. As contribuições dos métodos propostos são evidenciadas pelos resultados positivos alcançados. Foi verificado que o uso de um mecanismo de amostragem pode aperfeiçoar os ciclos iterativos de aprendizado, tornandoos mais equilibrados. A inclusão de um mecanismo de exploração revelou potencial para exceder o desempenho de especialistas e estabelecer novos patamares na área. Além disso, o emprego de mecanismos de aprendizado por reforço e de aprendizado adversário mostrou-se capaz de gerar políticas mais eficientes, obtendo resultados significativos com menos amostras. As estratégias propostas melhoraram o desempenho e a eficiência dos atuais métodos, ao mesmo tempo que minimizam a complexidade da aquisição de dados de especialistas |
Palavras-chave: | Imitation Learning Behavioral Cloning Self-Supervised learning Aprendizado por Imitação Aprendizado por Observação Aprendizado Profundo |
Área(s) do CNPq: | CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
Idioma: | por |
País: | Brasil |
Instituição: | Pontifícia Universidade Católica do Rio Grande do Sul |
Sigla da instituição: | PUCRS |
Departamento: | Escola Politécnica |
Programa: | Programa de Pós-Graduação em Ciência da Computação |
Tipo de acesso: | Acesso Aberto |
Restrição de acesso: | Trabalho não apresenta restrição para publicação |
URI: | https://tede2.pucrs.br/tede2/handle/tede/11131 |
Data de defesa: | 30-Ago-2023 |
Aparece nas coleções: | Programa de Pós-Graduação em Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
juarez_tese final.pdf | JUAREZ_MONTEIRO_DOS_SANTOS_JÚNIOR_TES | 2,93 MB | Adobe PDF | Baixar/Abrir Pré-Visualizar |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.