PREPOZNAVANJE TEKSTA POMOĆU KOGNITIVNIH SERVISA U AMAZON VEB SERVISIMA

  • Mia Knežević
Ključne reči: Amazon veb servisi, kognitivni servisi, mašinsko učenje, Textract, Lambda funkcija

Apstrakt

Ovaj rad se zasniva na istraživanju upotrebe mašinskog učenja za prepoznavanje i ekstrakciju teksta i podataka iz setova dokumenata u različitim formatima, koji sadrže slike tekstova napisanih rukom ili na različitim jezicima, štampanim slovima u digitalnom formatu. Istraživanje je fokusirano na upotrebu Amazon Textract-a, kognitivnog servisa koji pružaju Amazon veb servisi, za automatsku obradu dokumenata. Cilj istraži­vanja jeste da se upotrebom različitih ulaza prikupe rezultati koji će se iskoristiti za testiranje i analiziranje tačnosti prepoznavanja teksta i performansi obrade dokumenata od strane Amazon Textract servisa, kao i prilagodljivosti na različite ulazne dokumente i kvalitet ulaznih dokumenata. Za tehničku implementaciju zadatka korišćeni su sledeći Amazonovi servisi: Simple Storage Service. Lambda funkcija i Textract servis.

Reference

[1] About AWS, preuzeto sa https://aws.amazon.com/about-aws/
[2] Artificial intelligence services AWS, preuzeto sa https://aws.amazon.com/machine-learning/ai-services/
[3] Amazon Textract, preuzeto sa https://aws.amazon.com/textract/
[4] AWS Lambda Function, preuzeto sa: https://docs.aws.amazon.com/lambda/latest/dg/welcome.html
[5] Amazon Simple Storage Service, preuzeto sa https://aws.amazon.com/s3/
[6] Python, preuzeto sa https://www.python.org/
[7] Suminda Niroshan, “AWS Textract with Lambda Walkthrough” (28. Jun 2019), preuzeto sa: https://medium.com/@sumindaniro/aws-textract-with-lambda-walkthrough-ed4473aedd9d
[8] Dr Urs Marti, Institut za računarske nauke i poslovnu matematiku, ETH Zurich, Švajcarska, “IAM Handwriting Database”, (1999) preuzeto sa: https://fki.tic.heia-fr.ch/databases/iam-handwriting-database
[9] Nikolaos Arvanitopoulos, Gaspard Chevassus, Daniele Maggetti, Sabine Süsstrunk, “A Handwritten French Dataset for Word Spotting: CFRAMUZ” (Novembar 2017), preuzeto sa https://dl.acm.org/doi/10.1145/3151509.3151523
[10] Jens Walter, “my receipts (pdf scans)”, preuzeto sa: https://www.kaggle.com/datasets/jenswalter/receipts
[11] Francisco Cruz, Mauro Castelli “Dataset of invoices and receipts including annotation of relevant fields” (21. Mart 2022), preuzeto sa https://zenodo.org/record/6371710#.ZAHGW3aZOUl
Objavljeno
2023-09-06
Sekcija
Elektrotehničko i računarsko inženjerstvo