MIKROSERVIS ZA EKSTRAKCIJU TEKSTA IZ WORD I PDF DOKUMENATA

  • Dejan Bešić
Ključne reči: Mikroservis, ekstrakcija, tekst, Word, PDF, konverzija

Apstrakt

U ovom radu će biti opisano rešenje ekstakcije teksta iz dokumenata u Word i PDF formatu. Pored same implementacije rešenja, diskutovaće se biblioteke koje su potrebne za ekstrakciju teksta, kao i za konverziju jednog formata dokumenta u drugi. Opisaće se struktura PDF dokumenta, zbog čega su u upotrebi kao i koji su problemi prilikom ekstraktovanja teksta. Problem ekstraktovanja teksta iz Word i PDF dokumenata se svodi na problem ekstraktovanja teksta iz PDF dokumenata.

Reference

[1] Servisno orijentisana arhitektura i integrisanje poslovnih aplikacija. Preuzeto sa https://www2.masfak.ni.ac.rs/uploads/articles/www2_5._soa_skraceno.pdf
[2] Servisno-orijentisana arhitektura, IBM, https://www.ibm.com/cloud/learn/soa
[3] Microservice Architecture, https://microservices.io/patterns/microservices.html
[4] Apache POI, https://en.wikipedia.org/wiki/Apache_POI
[5] Gotenberg, https://thecodingmachine.github.io/gotenberg
[6] Apache PDFBox, https://en.wikipedia.org/wiki/Apache_PDFBox
Objavljeno
2021-07-04
Sekcija
Elektrotehničko i računarsko inženjerstvo