Distributional Features Fore Text Categorization
- Details
- Category: Machine Learning
- Published on Thursday, 15 December 2011 14:29
- Written by Administrator
- Hits: 173
Pengelompokan teks adalah menetapkan kategori yang telah ditetapkan ke teks bahasa alami. Penelitian sebelumnya biasanya menetapkan kata dengan nilai-nilai tersebut bahwa apakah kata ini muncul dalam dokumen yang bersangkutan atau seberapa sering kata ini muncul. Meskipun nilai-nilai ini berguna untuk pengelompokan teks, mereka tidak sepenuhnya mengungkapkan informasi yang sangat banyak yang terkandung dalam dokumen tersebut.
Penelitian ini mengeksplorasi efek dari jenis lain nilai-nilai, yang mengungkapkan distribusi kata dalam dokumen.
formulasi Distributional Features ini sebagai berikut:
Nilai-nilai baru ini ditugaskan untuk kata disebut fitur distribusi, yang meliputi kekompakan penampilan (the compactness of the appearances of the word) dari kata itu dan posisi penampilan pertama (the position of the first appearance) dari kata. Fitur distribusi ini menggunakan persamaan gaya tfidf dan fitur yang berbeda digabungkan menggunakan teknik pembelajaran ansambel. Berbeda dengan menggunakan nilai frekuensi istilah tradisional semata-mata, termasuk fitur distribusi hanya membutuhkan sedikit tambahan biaya, sedangkan kinerja kategorisasi dapat ditingkatkan. Analisis lebih lanjut menunjukkan bahwa distribusi fitur yang sangat berguna ketika dokumen panjang dan gaya penulisan casual.
Coding, Simulasi dan Analisis Distributional Features, bisa dengan menggunakan java, c++/csharp dan bahasa pemograman lainnya.
butuh bantuan?
kontak saya:
0821170 65644
This e-mail address is being protected from spambots. You need JavaScript enabled to view it.
Atqona Lab & Research Centre (ALRC)
BANDUNG

