gensim

Modelling Wikipedia Articles (enwiki) Using Gensim make_wiki.py

  • Posted on: 2 January 2016
  • By: oon
Gensim topic modelling for humans

(Artikel mengenai topik ini akan ditulis dalam bahasa Indonesia.)

Awal mulai penulisan artikel ini karena ingin mencoba (ekplorasi) aplikasi gensim, lalu mencari informasi apa yang bisa dilakukan aplikasi gensim untuk data yang cukup besar, lalu dari beberapa referensi mengacu pada pengolahan data wikipedia yang lebih dari 10GB (dalam format kompresi bz2 yang terkenal sangat efisien).

Ya tentu pertama yang harus dilakukan adalah download file artikel dari wikimedia: download enwiki-latest-pages-articles.xml.bz2 dari situs dumps.wikimedia.org