ANALIZA I OBRADA TEKSTA POMOĆU RAZLIČITIH MODELA TEMA

  • Olivera Hrnjaković
Ključne reči: modelovanje tema, analiza teksta, LDA

Apstrakt

Ovaj rad opisuje trenutne mogućnosti i ograničenja postojećih algoritama za izdvajanju tema iz teksta. Dat je teorijski prikaz popularnih modela tema uz sve neophodne korake analize i obrade teksta koji se izvršavaju pre slanja podataka na ulaz modela. Praktičan deo rada je izdvajanje tema iz pitanja sa sajta Stack overflow. Upoređeni su LSA, PLSA i LDA pristup, a evaluacija modela je izvršena određivanjem koherent­nosti tema odgovarajućim merama,  imenovanjem tema i analizom njihove vizuelizacije u prostoru. Kako modeli tema unapred zahtevaju navođenje broja tema koje će biti izdvojene iz teksta, deo rada posećen je optimizaciji hiperparametara. Izabrani model za modelovanje tema jeste LDA sa 6 tema. Da bi se dobila numerička procena performansi modela 30 pitanja je ručno označeno imenima dobijenih tema i simuliran je klasifikacioni model. Ova pitanja su korišćena kao test skup podataka u kreiranom LDA klasifikacionom modelu. Postignuta je uspešnost od 77% tačnosti.

Reference

[1] Topic model. In Wikipedia, The Free Encyclopedia. Retrieved August, 2019, from https://en.wikipedia.org/wiki/Topic_model
[2] Python Questions from Stack Overflow Retrieved from https://www.kaggle.com/stackoverflow/pythonquestions
[3] Wang, Chong, and David M. Blei. "Collaborative topic modeling for recommending scientific articles." Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2011.
[4] Barua, Anton, Stephen W. Thomas, and Ahmed E. Hassan. "What are developers talking about? an analysis of topics and trends in stack overflow." Empirical Software Engineering 19.3 (2014): 619-654.
[5] Bergamaschi, Sonia, Laura Po, and Serena Sorrentino. "Comparing Topic Models for a Movie Recommendation System." WEBIST (2). 2014.
[6] Mimno, David, et al. "Optimizing semantic coherence in topic models." Proceedings of the conference on empirical methods in natural language processing. Association for Computational Linguistics, 2011.
[7] Perplexity To Evaluate Topic Models
Retrieved from http://qpleple.com/perplexity-to-evaluate-topic-models/
[8] tf–idf. In Wikipedia, The Free Encyclopedia. Retrieved August, 2019, from https://en.wikipedia.org/wiki/Tf%E2%80%93idf
[9] Source code. https://github.com/laserwave/plsa/blob/master/plsa.py
[10] Evaluate Topic Models: Latent Dirichlet Allocation (LDA) Retrieved from https://towardsdatascience.com/evaluate-topic-model-in-python-latent-dirichlet-allocation-lda-7d57484bb5d0
[11] Binkley, David, et al. "Understanding LDA in source code analysis." Proceedings of the 22nd international conference on program comprehension. ACM, 2014.
Objavljeno
2019-12-28
Sekcija
Elektrotehničko i računarsko inženjerstvo