Skip to content

yusufsyaifudin/tokenizer-id

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Tokenizer for Bahasa Indonesia

Build Status

Kelas Tokenizer akan memecah sekumpulan teks menjadi kalimat dan sekumpulan kalimat menjadi token. Kelas Tokenizer ini merupakan kelas yang saya buat sendiri untuk keperluan skripsi saya.

Instalasi

Sebelumnya pastikan versi java runtime Anda minimal versi 1.7 atau lebih baik 1.8 keatas. Untuk menginstall, tambahkan kode berikut pada berkas pom.xml:

<repositories>
    <repository>
      <id>yusufsyaifudin</id>
      <name>tokenizer-id</name>
      <url>https://github.com/yusufsyaifudin/tokenizer-id/raw/1.0.0/</url>
    </repository>
</repositories> 

dan kode berikut pada dependency pom.xml

<dependencies>
    <dependency>
      <groupId>yusufs.nlp</groupId>
      <artifactId>tokenizerid</artifactId>
      <version>1.0.0</version>
      <scope>compile</scope>
    </dependency>
</dependencies>

Penggunaan

Pecah teks menjadi sekumpulan kalimat

String text = "Kalimat satu. Kalimat dua. \"Selamat pagi!\" kata X.";
Tokenizer tokenizer = new Tokenizer();
ArrayList<String> sentences = tokenizer.extractSentence(text);

sehingga variable sentences akan berisi array dengan nilai:

  • Kalimat satu.
  • Kalimat dua.
  • "Selamat pagi!" kata X.

Pecah kalimat menjadi sekumpulan token

String sentence = "\"Selamat pagi!\" kata X.";
Boolean withPunct = true; // apakah tanda baca diikut-sertakan atau tidak
Tokenizer tokenizer = new Tokenizer();
ArrayList<String> tokens = tokenizer.tokenize(sentence, withPunct);

sehingga tokens akan berisi:

  • "
  • Selamat
  • pagi
  • !
  • "
  • kata
  • X
  • .

atau dapat juga tokenisasi menjadi string yaitu:

String sentence = "\"Selamat pagi!\" kata X.";
Boolean withPunct = true; // apakah tanda baca diikut-sertakan atau tidak
Tokenizer tokenizer = new Tokenizer();
String tokens = tokenizer.tokenizeToString(sentence, withPunct);

sehingga tokens menjadi " Selamat pagi ! " kata X . dimana setiap token telah dipisah oleh spasi.

Contoh

Contoh penggunaan bisa dilihat pada gist yang saya buat disini https://gist.github.com/yusufsyaifudin/4af421ccf269b11205ac