Klastering Suara Laki Laki Dan Perempuan Menggunakan Algoritma K Means Berdasarkan Hasil Ekstraksi...

7/26/2019 Klastering Suara Laki Laki Dan Perempuan Menggunakan Algoritma K Means Berdasarkan Hasil Ekstraksi FFT

1/4

Klastering Suara Laki-Laki dan Perempuan

Menggunakan Algoritma K-Means

Berdasarkan Hasil Ekstraksi FFT (Fast Fourier Transform)

Eko Aditya Santoso, Umar Sagaf, Muhammad Efendi, Reza Fahrur Rasyid, Teguh Adi Gunawan

email :[email protected], [email protected], [email protected],

[email protected], [email protected]

ABSTRAK

Klastering suara adalah salah satu dari bidang ilmu pengenalan pola yang dibuat agar suatu sistem dapat

melakukan pengelompokan untuk membedakan suara laki - laki ataupun perempuan. Mekanisme kerja yang

dilakukan adalah dengan mengumpulkan contoh-contoh suara, kemudian dilakukan ekstraksi ciri menggunakan

FFT yang dimana menghasilkan dua fitur utama yaitu nilai maksimum frekuensi dan nilai maksimum

simpangan frekuensi yang lalu disimpan dalam file. Pada saat ada input suara yang dimasukan, sistem akan

mengolahnya dengan menggabungkan hasil ekstrasi cirinya dengan hasil ekstraksi ciri yang terdapat dalam file,

lalu algoritma K-means digunakan untuk menghitung jarak terdekat antar centroid sehingga dapat

dikelompokkan menjadi cluster 0 (laki laki) dan cluster 1 (perempuan).

Hasil dari uji coba ini menggunakan 20 data latih dan 10 data uji menghasilkan tingkat akurasi 80% untuk

data latih dan 70% untuk data uji. ABSTRACT

Voice clustering is part of Patern Recognition science. So, system can perform clustering to distinguish

male or female voices. Application mechanism is to collect sound samples, then using the extraction of FFT

feature, which produces two main features, namely maximum frequency value and maximum frequency

deviation value then stored in a file. At the moment when the sound input is entered, the system will process

them by combining the results of the extraction characteristics with feature extraction that stored in the file, then

K-means clustering algorithm is used to calculate the shortest distance between the centroid, thus the system can

grouped them into clusters 0 (male) and cluster 1 (female).

The results of this research by using 20 training data and 10 testing data will produced 80% accuracy rate

for training data and 70% for the testing data.

Kata kunci :K-Means,FFT,frekuensi,amplitude,cluster

1. Pendahuluan

Suara manusia memiliki keragaman bentuk

yang berbeda-beda, keragaman tersebut dapat

terlihat dari persepsi fisik manusia terhadap suara

antara lain: frekuensi, jenis suara, pitch, timbre dan

volume. Perbedaan tersebut dapat terdengar secara

jelas antara seseorang berjenis kelamin laki-laki

dan perempuan. Kemudahan untuk

mengidentifikasi tersebut bertambah apabila

seseorang dapat mendengar dan melihat secara

langsung ucapan dan suara dari lawan

pembicaranya [1].

Aplikasi deteksi jenis kelamin berdasarkansuara adalah system yang dapat melakukan

klusterisasi data suara ke dalam kluster laki-laki

dan perempuan.

Tujuan Penelitian ini adalah untuk membangun

aplikasi yang dapat mengenali jenis kelamin

berdasarkan suaranya, rencana pengembangannya

selanjutnya adalah mampu diaplikasikan pada robot

atau mesin penjawab otomatis. Dengan adanya

pengenalan gender ini nantinya robot atau mesin

penjawab otomatis dapat menggunakan

istilahistilah yang tepat sebagai kata sapa

(contohnya: Pak, Ibu, Mr, Mrs) sehingga terkesan

lebih interaktif. Selain itu dengan mengenali antaraperbedaan suara laki-laki dan perempuan

diharapkan nantinya akan dibuat suara artificial

sesuai dengan jenis kelaminnya.

2. Audio Feature

1. Amplitudo

Amplitudo Yaitu fungsi periodik yang

mempunyai maksimum dan minimum, dan

Amplitudo adalah setengah dari jarak antara titik

terendah dan titik tertinggi pada grafik. Dengan

kata lain Amplitudo merupakan simpangan terjauh

dari sebuah getaran [2].

2. Periode

Secara umum periode didefinisikan sebagaiwaktu yang dibutuhkan untuk sebuah isyarat atau

gelombang mencapai satu gelombang penuh.

Pengertian ini berlaku untuk isyarat monokromatis.

Isyarat monokromatis yang dimaksud adalah

gelombangnya bersifat tunggal, dimana dia pasti

memiliki sebuah periode. Dengan demikian isyarat

itu dikenal dengan istilah periodis. Secara

gamblang kita bisa mengenali nilai-nilai yang

terkandung di dalam isyarat termasuk nilai periode

nya. Perhatikan Gambar 1 di bawah untuk

memperjelas pengertian di atas [2].


2/4

Gambar 1. Periode

3.Frekuensi

Secara umum frekuensi diartikan sebagai

jumlah gelombang yang terjadi dalam 1 detik.

Frekuensi didefinisikan secara sederhana sebagaikebalikan dari waktu. Sehingga waktu yang

satuannya adalah detik (second) akan menjadi

Hertz (1/second) untuk frekuensi. Frekuensi hanya

akan memiliki tepat satu nilai spektrum. Yang

dikenal dengan spektrum frekuensi. Pengertian

frekuensi ini juga berlaku untuk gelombang

monokromatis [2].

4.FFT (Fast Fourier Transform)

FFT merupakan metode untuk pemecahan

sinyal diskret. FFT adalah algoritma komputasional

yang efisien untuk menghitung DFT (Discrete

Fourier Transform) bila ukuran N adalah pangkat 2dan bila pangkat 4. DFT akan menghasilkan jumlah

komputasi sebesar N2 sedangkan FFT akan

menghasilkan jumlah komputasi sebesar (N) log

(N) [4].

Perhitungan FFT menggunakan butterfly Radix-

2 menghasilkan jumlah komputasi lebih sedikit

yakni (N/2) log 2 (N). Jumlah titik dalam ketika

menggunakan FFT juga memenuhi syarat 2 [3].

FFT digunakan untuk memisahkan isyarat

menjadi komponen penyusun frekuensinya yang

tidak bisa dipisahkan secara gamblang hanya

dengan melihat isyarat tersebut dalam kawasan

waktu. Perhatikan gambar berikut ini untukmenjelaskan seperti apa hasil dari FFT terhadap

sebuah isyarat yang memiliki beragam komponen

frekuensi [3].

3. Klastering K-Means

K-Means merupakan salah satu metode data

klasterisasi non hirarki yang berusaha mempartisi

data yang ada ke dalam bentuk satu atau lebih

cluster/kelompok. Metode ini mempartisi data ke

dalam klaster/kelompok sehingga data yang

memiliki karakteristik yang sama dikelompokkan

ke dalam satu cluster yang sama dan data yang

mempunyai karakteristik yang berbedadikelompokkan ke dalam kelompok yang lain.

Adapun tujuan dari data klasterisasi ini adalah

untuk meminimalisasikan objective function yang

diset dalam proses clustering, yang pada umumnya

berusaha meminimalisasikan variasi di dalam suatu

cluster dan memaksimalisasikan variasi antar

cluster. Data clustering menggunakan metode K-

Means ini secara umum dilakukan dengan

algoritma dasar untuk mempartisi suatu dataset kedalam cluster-cluster sebagai berikut [5]:

1. Tentukan jumlah cluster

2. Tentukan centrioid

3. Hitung centroid dari data yang ada di masing-

masing cluster

4. Alokasikan masing-masing data ke centroid

dengan menghitung jaraknya yang paling dekat.

5. Kembali ke Step 3, apabila masih ada data yang

berpindah cluster atau jika perubahan nilai

centroid ada yang di atas nilai threshold yang

ditentukan atau jika perubahan nilai pada

objective function yang digunakan di atas nilai

threshold yang ditentukan

4. Metode Penelitian

Proses klastering diaplikai ini bertujuan untuk

mencari klaster sebuah data file suara (data uji),

dimana untuk melakukan hal tersebut dibutuhkan

sekumpulan data latih untuk nantinya keduanya

digabungkan dan kemudian dilakukan proses

klastering. Kemudian diperiksa berada diklaster

manakah data uji tersebut berada [5]. Untuk lebih

jelasnya perhatikan Gambar 2.

Gambar 2. Flow Chart Training Data

4.1. Pengumpulan Data

Data suara didapatkan dengan merekam secara

langsung, dimana output hasil rekaman sudah

otomatis memiliki format wav. Selain itu

digunakan pula pengaturan sampling rate sebesar


3/4

44100 Hz pada alat perekam, untuk mendapatkan

kualitas rekaman yang maksimal.

Jumlah data yang digunakan sebagai data latih

sebanyak 20 yang terdiri dari 10 suara laki laki

dan 10 suara perempuan, serta 10 data uji yang

terdiri dari 5 suara laki laki dan 5 suara

perempuan.

4.2. Pre-Processing

Pada tahap ini dilakukan pemeriksaan, apakah

data memang sudah baik atau belum. Yaitu dengan

melakukan pemeriksaan format file yang

digunakan, merupakan file berformat wav atau

tidak. Kemudian memeriksa apakah data suara

benar benar menggunakan sampling ratesebesar

44100 Hz atau tidak.

4.3. Ekstraksi Fitur

Ekstraksi fitur dimulai dengan meng-ekstrak

tiap-tiap data latih sebanyak 20 buah data, sertasatu dari 10 data uji yang ingin ditentukan

klasternya. Hasil ekstraksi tadi akan menghasilkan

fitur berupa frequensi maksimal dan |Y(freq)|.

Setelah itu semua data tersebut dimasukan ke

dalam file untuk nantinya dilakukan klastering.

4.4. Klastering

Klastering dilakukan dengan meng-klaster 21

data yang terdiri dari 20 data latih dan 1 data uji

menggunakan algorima K-Means, dimana kami

menentukan jumlah klaster sebanyak dua buah,

yaitu cluster 0 (laki laki) dan cluster 1

(perempuan). Setelah itu kami tentukan centroidmasing-masing klaster secara acak dari 20 data

latih untuk kemudian dihitung jarak terdekat antar

centroid tersebut dengan data lainnya. Untuk

menghitung jaraknya kami menggunakan

Euclidean Distance, dengan persamaan 1 berikut:

a = centroid 1 atau 2

b = data

Persamaan 1. Euclidean Distance

5. Hasil dan Pembahasan

Jumlah data yang digunakan sebagai data latih

sebanyak 20 yang terdiri dari 10 suara laki laki

dan 10 suara perempuan dengan rincian pada Tabel

1, serta 10 data uji yang terdiri dari 5 suara laki

laki dan 5 suara perempuan dengan rincian pada

Tabel 1 dan Tabel 2. Untuk mengetahui jalannya

dalam melakukan testing data perhatikan Gambar 3.

Gambar 3. Flow Chart Testing Data

Tabel 1 Data Latih

Data Freq |Y(freq)|

L1 25908 432

L2 23703 627

L3 22417 389

L4 23887 430

L5 24805 1309

L6 25459 623

L7 24484 1011L8 22600 506

L9 24805 1663

L10 22894 347

P1 36381 511

P2 29767 454

P3 27049 1152

P4 25357 628

P5 23703 762

P6 24254 2059

P7 24622 142

P8 27562 270

P9 25537 88

P10 30869 479

Tabel 2 Data Uji

Data Freq |Y(freq)|

TL1 23703 337

TL2 28664 225

TL3 24254 2059

TL4 25357 88

TL5 29767 454

TP1 27562 376TP2 29215 260


4/4

TP3 29215 209

TP4 37484 1011

TP5 23703 627

Dari uji coba data latih sebanyak 20 buah,

didapatkan sebanyak 16 data yang benar, atausekitar 80% data yang akurat. Sedangkan 10 data

uji menghasilkan sekitar 70% data yang benar.

Hasil yang tidak akurat biasanya disebabkan

adanya kemiripan suara laki-laki dan perempuan

berdasarkan frekuensi, jenis suara, pitch, timbre

dan volume.

6. Kesimpulan

Kesimpulan yang didapatkan dari hasil uji coba

adalah sebagai berikut :

1.Algoritma K-Means merupakan salah satu

algoritma yang sering digunakan dalam proses

klasterisasi dikarenakan kemudahannya.

2.Ketidaktepatan akurasi dikarenakan adanya

kemiripan beberapa suara antara laki-laki dan

perempuan dalam hal frekuensi, jenis suara,

pitch, timbre dan volume. Oleh karena itu,

didapatkan akurasi sekitar 70% untuk data uji

dan 80% untuk data latih.

7. Daftar Pustaka

[1] Bhaskoro, Susetyo Bagas dan W. D, Altedzar

Riedho.(2012).Aplikasi Pengenalan GenderMenggunakan Suara.Seminar Nasional

Aplikasi Teknologi Informasi 2012.

[2] Kanginan, Marthein.(2011).Bilingual Physics

For Senior High School Jl.3B. Jakarta:Erlangga.

[3] Rao, K.R, Kim, D.N, dkk.(2010).Fast Fourier

Transform:Algorithms And Applications.

London:Springer Theses.

[4] Tanudjaja, Harlianto.(2008).Pengolahan

Sinyal Digital & Sistem Pemrosesan

Sinyal.Yogyakarta:Andi Publisher.

[5] Wu, Junjie.(2012).Advances in K-Menas

Clustering:A Data Mining

Thinking.London:Springer Theses.

Klastering Suara Laki Laki Dan Perempuan Menggunakan Algoritma K Means Berdasarkan Hasil Ekstraksi...

Documents

Transcript of Klastering Suara Laki Laki Dan Perempuan Menggunakan Algoritma K Means Berdasarkan Hasil Ekstraksi...