Kasutaja:ManTotters/Teemamudel

Masinõppes ja loomuliku keele töötluses nimetatakse teemamudeliks (ingl k topic model) statistilist mudelit, mille kaudu saab leida abstrakseid “teemasid”, mis esinevad dokumentide kogumikus. Teemamudeldamist kasutatakse tihti tekstikaeves teksti varjatud semantiliste struktuuride leidmiseks. “Teemad”, mida teemamudeldamise tehnikaga luuakse, on kogumid sarnastest sõnadest. Teemamudel kujutab endast matemaatilist mudelit, mis lubab vaadelda dokumentide hulka ning leida, millised võiksid olla dokumentides esinevad teemad ning millises osakaalus erinevaid teemasid ühes dokumendis leidub.

Teemamudeleid nimetatakse ka tõenäosuslikeks teemamudeliteks, mis viitab statistilistele algoritmidele, mille abil saab leida latentseid semantilisi struktuure suuremahulises tekstis. Infoajastul on loodava kirjaliku materjali hulk suurem, kui teksti läbi töötamise võimekus. Teemamudelid aitavad suuri struktureerimata tekstikogumeid organiseerida ning tuvastada nende sisu. Kuigi esialgselt arendati teemamudelid tekstikaeveks, on neid kasutatud informatiivsete struktuuride leidmiseks näiteks geeniandmetel, piltides ja võrkudes. Teemamudelitest on kasu ka teistes valdkondades, näiteks bioinformaatikas.^[1]

Ajalugu

Esialgset teemamudelit kirjeldasid Papadimitriou, Raghavan, Tamaki and Vempala aastal 1998.^[2] Teist tüüpi lähenemine, töenäosuslik latentne semantiline analüüs (PLSA) loodi Thomas Hoffmanni poolt 1999. Aastal.^[3] Varjatud Dirichlet jaotamine (LDA) (ingl k Latent Dirichlet allocation) on tõenäoliselt kõige levinum praegu kasutusel olev teemamudel, mis töötati välja David Blei, Andrew Ng ja Michael I. Jordani poolt aastal 2002. LDA on PLSA meetodi üldistus, mis kasutab hõredaid Dirichlet eeljaotusi dokument-teema ja teema-sõna jaotustel, kodeerides sellega endasse eelduse, et dokumendid sisaldavad endas väikese arvu teemasid ning teemad katavad tihti suure hulga sõnu.^[4] Teised teemamudelid on tihti LDA laiendused, nagu näiteks Pachinko jaotamine, mis täiustab LDA meetodit, modelleerides lisaks sõnade korrelatsioonile (teemad) ka teemadevahelisi korrelatsioone. Hierarhiline latentne puu analüüs (HLTA) (ingl k Hierarchical latent tree analysis) on LDA alternatiiv, mis modelleerib sõnade koosesinemist, kasutades puud latentsetest muutujatest, mis vastavad pehmetele dokumentide kogumitele, mida omakorda tõlgendatakse teemadena.

Teemamudelid info konteksti leidmiseks

Yin ja teised tutvustasid teemamudelit geograafiliselt jaotatud dokumentidel, kus dokumendi positsiooni kirjeldavad latentsed regioonid, mis tuletatakse inferentsi käigus.^[5]

Chang ja Blei lisasid dokumentide teemamudelile informatsiooni võrgu kohta, võimaldades sellega modelleerida hüperlinke veebilehtede vahel.^[6]

HLTA meetodit on rakendatud kogumile hiljuti olulistes tehisintellekti ja masinõppe keskustes avaldatud teadusartiklitele. Saadud mudel kannab nime The AI Tree. Saadud teemasid kasutatakse, et indekseerida artikleid leheküljel https://aipano.cse.ust.hk, et aidata uurijatel jälgida uuringute trende, identifitseerida potentsiaalselt lugemisväärilisi artikleid, ning aidata konverentside organiseerijatel ning ajakirjade toimetajatel identifitseerida retsensente esitustele.

Tarkvara

BigARTM (https://github.com/bigartm/bigartm)

Mallet (tarkvaraprojekt) (http://mallet.cs.umass.edu/)

Stanfordi teemamudeldamise tööriistad(http://nlp.stanford.edu/software/tmt/tmt-0.4/)

Gensim – Topic Modeling for Humans (http://radimrehurek.com/gensim/)

R topicmodels pakett (https://cran.r-project.org/package=topicmodels)

Lettier's LDA Topic Modeling - Brauseripõhine implementatsioon LDA teemamudeldamiseks.( https://github.com/lettier/lda-topic-modeling)

Viited

↑ Blei, David. Aprill 2012. Probabilistic Topic Models. Communications of the ACM. 55 (4): 77–84.
↑ Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh. 1998. Latent Semantic Indexing: A probabilistic analysis (Postscript). Proceedings of ACM PODS: 159–168.
↑ Hofmann, Thomas. 1999. Probabilistic Latent Semantic Indexing. Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. https://web.archive.org/web/20101214074049/http://www.cs.brown.edu/~th/papers/Hofmann-SIGIR99.pdf
↑ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John. Jaanuar 2003. Latent Dirichlet allocation. Journal of Machine Learning Research. 3: 993–1022.
↑ Yin, Zhijun. 2011. Geographical topic discovery and comparison. Proceedings of the 20th International Conference on World Wide Web: 247–256.
↑ Chang, Jonathan 2009. Relational Topic Models for Document Networks. Aistats. 9: 81–88. http://www.jmlr.org/proceedings/papers/v5/chang09a/chang09a.pdf

[1] Blei, David. Aprill 2012. Probabilistic Topic Models. Communications of the ACM. 55 (4): 77–84.

[2] Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh. 1998. Latent Semantic Indexing: A probabilistic analysis (Postscript). Proceedings of ACM PODS: 159–168.

[3] Hofmann, Thomas. 1999. Probabilistic Latent Semantic Indexing. Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. https://web.archive.org/web/20101214074049/http://www.cs.brown.edu/~th/papers/Hofmann-SIGIR99.pdf

[4] Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John. Jaanuar 2003. Latent Dirichlet allocation. Journal of Machine Learning Research. 3: 993–1022.

[5] Yin, Zhijun. 2011. Geographical topic discovery and comparison. Proceedings of the 20th International Conference on World Wide Web: 247–256.

[6] Chang, Jonathan 2009. Relational Topic Models for Document Networks. Aistats. 9: 81–88. http://www.jmlr.org/proceedings/papers/v5/chang09a/chang09a.pdf

[1]

[2]

[3]

[4]

[5]

[6]