MODELOVANJE TEMA U TEKSTU NA OSNOVU NASLOVA DOKUMENATA

  • Minja Lepar Fakultet tehničkih nauka
Ključne reči: modelovanje tema, LDA, klasifikacija, SVM, Naive Bayes, Random Forest

Apstrakt

U radu je predstavljen pristup za modelovanje tema i klasifikaciju tekstualnih dokumenata. Konkretno, vršena je 1) primena LDA (Latent Dirichlet Allocation) nad tekstom zarad dobijanja tema, pri čemu je evaluacija rađena kvalitativno, kroz semantiku pronađenih tema; 2) klasifikacija dokumenta primenom reprezentacije teksta dobijene kombinacijom tf-idf obeležja i tema izvučenih pomoću LSA (Latent Semantic Analysis); nad ovom reprezentacijom treniran je Naive Bayes klasifikator, a evaluacija je vršena računanjem F-mere, 3) klasifikacija dokumenta primenom tf-idf reprezentacije teksta, gde je eksperimentisano sa treniranjem SVM (Support Vector Machines) i RF (Random Fores)  modela; I u ovom slučaju evaluacija je vršena računanjem F-mere.

 

Reference

[1] Evangelopoulos, N., Zhang, X. and Prybutok, V.R., 2012. Latent semantic analysis: five methodological recommendations. European Journal of Information Systems, 21(1), pp.70-86.
[2] Wiemer-Hastings, P., Wiemer-Hastings, K. and Graesser, A., 2004, November. Latent semantic analysis. In Proceedings of the 16th international joint conference on Artificial intelligence (pp. 1-14).
[3] Krestel, R., Fankhauser, P. and Nejdl, W., 2009. Latent dirichlet allocation for tag recommendation. In Proceedings of the third ACM conference on Recommender systems (pp. 61-68).
[4] Jelodar, H., Wang, Y., Yuan, C., Feng, X., Jiang, X., Li, Y. and Zhao, L., 2019. Latent Dirichlet allocation (LDA) and topic modeling: models, applications, a survey. Multimedia Tools and Applications, 78(11), pp.15169-15211.
[5] Blei, D.M., Ng, A.Y. and Jordan, M.I., 2003. Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), pp.993-1022.
[6] Rajasundari, T., Subathra, P. and Kumar, P.N., 2017. Performance analysis of topic modeling algorithms for news articles. Journal of Advanced Research in Dynamical and Control Systems, 11, pp.175-183.
[7] Dalal, M.K. and Zaveri, M.A., 2011. Automatic text classification: a technical review. International Journal of Computer Applications, 28(2), pp.37-40.
[8] Sedghpour, A.S. and Sedghpour, M.R.S., 2020. Web Document Categorization Using Naive Bayes Classifier and Latent Semantic Analysis. arXiv preprint arXiv:2006.01715.
[9] Fawagreh, K., Gaber, M.M. and Elyan, E., 2014. Random forests: from early developments to recent advancements. Systems Science & Control Engineering: An Open Access Journal, 2(1), pp.602-609.
[10] Abdelsalam, K. topic_balanced_dataset, Version 1. Retrieved June 13, 2021 from https://www.kaggle.com/karimamd95/topic-balaned-dataset/version/1.
Objavljeno
2023-03-05
Sekcija
Elektrotehničko i računarsko inženjerstvo