Topic Extraction from Text Document using Latent Dirichlet Allocation (LDA) Model

  • Posted on: 6 January 2016
  • By: oon

Di lingkungan pembahasan tentang machine learning (dan statistik), dikenal ada dua hal yang kalo disingkat menjadi LDA:

  • Linear Discrimant Analysis [1] adalah metode untuk classification, misalnya untuk membedakan dua atau lebih kelas dari banyak objek.
  • Latent Dirichlect Allocation [2] adalah metode untuk pemodelan topik, pertama kali dipresentasikan sebagai graphical model untuk pendeteksian topik (topic discovery) oleh Blei at al tahun 2003 [3]. LDA disini adalah sebuah generative model [6], yakni suatu model yang diambil secara acak dari nilai-nilai data yang diobservasi.

Berhubungan dengan artikel ini membahas tentang ekstraksi topik dari dokumen, maka akan menggunakan Latent Dirichlect Allocation, untuk melakukan pemodelan topik.
Ehm.. iya kalo dilihat secara matematika, kalkulasi LDA ini cukup rumit [2][3][4].
Di artikel ini akan dibahas secara praktis penggunaan LDA saja.

Aplikasi open source yang mengimplementasikan LDA ini cukup banyak, misalnya gensim [6] dan scikit-learn [7].

(bersambung).

[1]https://en.wikipedia.org/wiki/Linear_discriminant_analysis
[2]https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
[3]http://jmlr.csail.mit.edu/papers/v3/blei03a.html
[4]http://www.aioptify.com/lda.php
[5]Topic Modeling (chapter 4), https://www.packtpub.com/big-data-and-business-intelligence/building-mac...
[6]https://radimrehurek.com/gensim/models/ldamodel.html
[7]http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.L...

Add new comment

Filtered HTML

  • Web page addresses and e-mail addresses turn into links automatically.
  • Allowed HTML tags: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Lines and paragraphs break automatically.

Plain text

  • No HTML tags allowed.
  • Web page addresses and e-mail addresses turn into links automatically.
  • Lines and paragraphs break automatically.
By submitting this form, you accept the Mollom privacy policy.