GENERISANJE TEKSTUALNOG OPISA SLIKE POMOĆU MAŠINSKOG UČENJA

Ivan Činčurak

doi:10.24867/22BE20Cincurak

Ivan Činčurak

DOI: https://doi.org/10.24867/22BE20Cincurak

Ključne reči: opisivanje slika, metrike za sličnost teksta, enkoder-dekoder arhitektura, mehanizam pažnje

Apstrakt

Automatsko opisivanje slike je postalo atraktivna tema u poslednjih nekoliko godina. Postoji velika potreba mašinskog opisivanja situacija u automobilskoj industriji. Google Image pretraga bi takođe mogla biti poboljšana. Takođe, moguće bi bilo unaprediti nadzorne kamere uklanjanjem potrebe za postojanje osobe koja bi konstantno morala da nadgleda kamere i čeka da se određena situacija desi, umesto da pogleda samo kada je opis slike na videu približan nekom unapred definisanom skupu tekstova. U ovom radu isprobana su tri načina za automatsko generisanje opisa slike. Prvi je primenom enkoder-dekoder arhitekture sa mehanizmom pažnje, drugi je bez ovog mehanizma, dok je treći upotrebom rekurentnih neuronskih mreža. Rešenje je evaluirano metrikama BLeU, ROUGE i Doc2Vec. Modeli su trenirani i testirani na MSCOCO skupu podataka. Dodatno, model je testiran podacima scrape-ovanim sa Google Images pretrage.

Reference

[1] Xu, Kelvin, et al. "Show, attend and tell: Neural image caption generation with visual attention." International conference on machine learning. PMLR, 2015.
[2] Bai, S., & An, S. (2018). A survey on automatic image caption generation. Neurocomputing, 311, 291-304
[3] Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2016). Show and tell: Lessons learned from the 2015 mscoco image captioning challenge. IEEE transactions on pattern analysis and machine intelligence, 39(4), 652-663.
[4] Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Fei-Fei, L. (2015). ImageNet large scale visual recognition challenge. International journal of computer vision, 115(3), 211-252.
[5] Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics (pp. 311-318)
[6] Xia, P., Zhang, L., & Li, F. (2015). Learning similarity with cosine similarity ensemble. Information Sciences, 307, 39-52
[7] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ra-manan, P. Doll ar, and C. L. Zitnick. Microsoft coco: Com-mon objects in context. InEuropean Conference on Computer Vision, pages 740–755. Springer, 2014.