A model for automatized data integration in hadoop-based data lakes

Export this record:

Please use this identifier to cite or link to this item: https://tede2.pucrs.br/tede2/handle/tede/10250

Full metadata record

DC Field	Value	Language
dc.creator	Couto, Júlia Mara Colleoni	-
dc.creator.Lattes	http://lattes.cnpq.br/0619802843633726	por
dc.contributor.advisor1	Ruiz, Duncan Dubugras Alcoba	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8250832800932125	por
dc.date.accessioned	2022-05-24T21:12:14Z	-
dc.date.issued	2022-03-31	-
dc.identifier.uri	https://tede2.pucrs.br/tede2/handle/tede/10250	-
dc.description.resumo	The massive amount of data currently generated by our computing systems and devices, known as big data, require specific technologies to be stored, processed, and distributed. Data lakes are architectures to store data of various formats to be queried when necessary, without needing a predefined schema. Data lakes aim to manage big data ecosystems, and most are currently created based on the Hadoop framework. A known challenge related to data lakes is integrating data from different formats. Data integration is a complex task that requires the attention of a specialist, besides being time-consuming and error-prone. However, this task can be facilitated if we use techniques to know the data profile. This thesis develops a model to automate the heterogeneous data integration process in Hadoop-based data lakes. In this sense, we design a method with five phases to help achieve the research objective: Foundation, Implementation, Experimentation, Evaluation, and Final Model. Our main contributions include the findings of three systematic literature reviews, where we deeply discuss themes related to data lakes, big data profiling, and data integration in data lakes, which served as a basis for the development of a model that enables the automatized integration of heterogeneous data in Hadoop-based data lakes, besides the experiments with bioinformatics data.	por
dc.description.abstract	A imensa quantidade de dados que são gerados atualmente pelos nossos sistemas computacionais e dispositivos, conhecida por big data, requer tecnologias específicas, como data lakes, para que possam ser armazenados, processados e distribuídos. Data lakes são arquiteturas onde dados dos mais diversos formatos são armazenados para que sejam consultados quando necessário, sem a necessidade de esquemas prévios. Data lakes possibilitam o gerenciamento de ecossistemas de big data, e, hoje em dia, a maioria é criada tendo como base o framework Hadoop. Um dos desafios relacionados a data lakes é a integração dos dados de variados formatos. A integração dos dados é uma tarefa complexa que requer a atenção de um especialista, toma tempo e é sujeita a erros. Contudo, essa tarefa pode ser facilitada se forem utilizadas técnicas para conhecer o perfil dos dados. Nesta tese, desenvolve-se um modelo para automatizar o processo de integração de dados heterogêneos em data lakes baseados em Hadoop. O método desenhado para auxiliar a atingir os objetivos de pesquisa divide-se em 5 fases: Fundamentação, Implementação, Experimentação, Avaliação e Modelo final. As principais contribuições desta tese incluem os achados de três revisões sistemáticas da literatura, onde são exaustivamente discutidos os temas relacionados a data lakes, big data profiling e integração de dados em data lakes, e que serviram de base para o desenvolvimento de um modelo que possibilita a integração automatizada de dados heterogêneos em data lakes baseados no Hadoop, além dos experimentos com dados de bioinformática.	por
dc.description.provenance	Submitted by PPG Ciência da Computação ([email protected]) on 2022-05-24T13:56:04Z No. of bitstreams: 1 JULIA_MARA_COLLEONI_COUTO_TES.pdf: 2996794 bytes, checksum: d0cf4e247394144891edcf726dd847f3 (MD5)	eng
dc.description.provenance	Approved for entry into archive by Sarajane Pan ([email protected]) on 2022-05-24T21:06:49Z (GMT) No. of bitstreams: 1 JULIA_MARA_COLLEONI_COUTO_TES.pdf: 2996794 bytes, checksum: d0cf4e247394144891edcf726dd847f3 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2022-05-24T21:12:14Z (GMT). No. of bitstreams: 1 JULIA_MARA_COLLEONI_COUTO_TES.pdf: 2996794 bytes, checksum: d0cf4e247394144891edcf726dd847f3 (MD5) Previous issue date: 2022-03-31	eng
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES	por
dc.format	application/pdf	*
dc.thumbnail.url	https://tede2.pucrs.br/tede2/retrieve/184206/JULIA_MARA_COLLEONI_COUTO_TES.pdf.jpg	*
dc.language	eng	por
dc.publisher	Pontifícia Universidade Católica do Rio Grande do Sul	por
dc.publisher.department	Escola Politécnica	por
dc.publisher.country	Brasil	por
dc.publisher.initials	PUCRS	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	por
dc.rights	Acesso Aberto	por
dc.subject	Big Data	eng
dc.subject	Data Lake	eng
dc.subject	Hadoop	eng
dc.subject	Data Profiling	eng
dc.subject	Data Integration	eng
dc.subject	Big Data	por
dc.subject	Data Lake	por
dc.subject	Hadoop	por
dc.subject	Perfilagem de Dados	por
dc.subject	Integração de Dados	por
dc.subject.cnpq	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO	por
dc.title	A model for automatized data integration in hadoop-based data lakes	por
dc.type	Tese	por
dc.restricao.situacao	Trabalho não apresenta restrição para publicação	por
Appears in Collections:	Programa de Pós-Graduação em Ciência da Computação

Files in This Item:

File	Description	Size	Format
JULIA_MARA_COLLEONI_COUTO_TES.pdf	JÚLIA_MARA_COLLEONI_COUTO_TES	2.93 MB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

PUCRS

Digital Library of Theses and Dissertations