SISTEM ZA OBUHVAT I OBRADU PODATAKA IZ HETEROGENIH IZVORA PODATAKA I NJIHOVO SKLADIŠTENJE U JEZERU PODATAKA

  • Milorad Trninić
Ključne reči: Veliki skupovi podataka, distribuirani informacioni sistemi, ETL.

Apstrakt

U ovom radu predstavljen je sistem za obuhvat i obradu podataka iz heterogenih izvora. Projektovanje pomenutog sistema motivisala je potreba za velikim skupom podataka u cilju treniranja modela mašinskog učenja čiji je kvalitet direktno proporcinalan raznolikosti i količini dostupnih podataka. Sistem omogućava proširivost i skalabilnost komponenti za obuhvat i obradu kako bi zadovoljio zahtev rada sa velikim skupom podataka različite strukture. Svi obuhvaćeni podaci se trajno pohranjuju u jezero podataka u neizmenjenom obliku. Procesi obrade podataka transformišu obuhvaćene podatake u skladu sa potrebama klijenta. Implementirani sistem je dokaz koncepta za obuhvat, trajnu pohranu i obradu velikog skupa podataka sa ciljem pripreme podataka za treniranje modela mašinskog učenja.

Reference

[1] Yoni Iny, “Upsolver - Technical Whitepaper: The Modern Data Lake Architecture”, 2019
[2] https://kafka.apache.org/documentation/ (pristupljeno u avgustu 2020.)
[3] https://spark.apache.org/ (pristupljeno u julu 2020.)
[4] Tom White, Hadoop: The Definitive Guide, Fourth Edition, O'Reilly Media, Inc., 2009
[5] Kristina Chodorow, Michael Dirolf, MongoDB: The Definitive Guide, O'Reilly Media, Inc., 2015
[6] https://spark.apache.org/docs/latest/ml-guide.html (pristupljeno u avgustu 2020.)
[7] https://en.wikipedia.org/wiki/Natural_language_processing#Common_NLP_Tasks (pristupljeno u septembru 2020.)
Objavljeno
2020-11-05
Sekcija
Elektrotehničko i računarsko inženjerstvo