KLASIFIKASI SUARA BERDASARKAN GENDER (JENIS KELAMIN) DENGAN METODE K-NEAREST NEIGHBOR (KNN
-
Upload
independent -
Category
Documents
-
view
3 -
download
0
Transcript of KLASIFIKASI SUARA BERDASARKAN GENDER (JENIS KELAMIN) DENGAN METODE K-NEAREST NEIGHBOR (KNN
1
KLASIFIKASI SUARA BERDASARKAN GENDER (JENIS KELAMIN) DENGAN METODE
K-NEAREST NEIGHBOR (KNN)
Riska Yessivirna 1, Marji2, Dian Eka Ratnawati3
Jurusan Ilmu Komputer, Fakultas Program Teknologi Informasi dan Ilmu Komputer,
Universitas Brawijaya Malang
Jalan Veteran No. 8, Malang 65145, indonesia
Email1: [email protected]
ABSTRAK
Klasifikasi suara berdasarkan gender dibuat dengan tujuan agar komputer mampu mengenali suara laki-laki dan
perempuan. Dengan kemampuan komputer yang mampu membedakan suara laki-laki dan perempuan akan
memperkuat tingkat suatu sistem keamanan yang menggunakan password dengan suara. Pencocokan password tidak
hanya berdasarkan kata saja, namun ditambah dengan pencocokan karakteristik suara sehingga akan lebih aman.
Pengenalan suara berdasarkan gender dilakukan dengan teknik ekstraksi ciri sinyal audio pada domain frekuensi
yaitu spectral centroid dan spectral flux untuk mendapatkan data numerik yang kemudian dilanjutkan dengan
klasifikasi. K-Nearest Neighbor (KNN) diimplementasikan untuk klasifikasi suara berdasarkan gender dengan
menggunakan 2 parameter fitur suara, yaitu Spectral centroid dan Spectral flux. Dalam penelitian ini digunakan teknik
klasifikasi KNN dengan menggunakan dua kriteria, laki-laki dan perempuan.
Uji coba dilakukan dengan 3 skenario yang berbeda. Pada skenario pertama parameter yang diubah adalah frame
width, pada skenario kedua parameter yang diubah adalah frame shift, sedangkan untuk skenario ketiga parameter yang
diubah adalah nilai alpha. Pada uji coba 3 skenario diperoleh hasil bahwa nilai frame width yang paling baik digunakan
adalah 1024, prosentase frame shift yang baik digunakan adalah 31.25%, dan nilai alpha yang baik digunakan adalah 0.97.
Pada uji coba pengaruh nilai k dihasilkan semakin tinggi nilai k maka semakin tinggi nilai akurasinya dan semakin
mendekati titik kestabilannya, dengan rata-rata akurasi terendah sebesar 71,5% dan tertinggi sebesar 76,2%.
Kata kunci: suara, ekstraksi ciri, spectral centroid, spectral flux, klasifikasi, k – Nearest Neighbor (KNN)
ABSTRACT
Voice classification based on gender was made in order for the computer to recognize the voice of male and female. By the
computer skills who is able to recognize the voice of male and female will strengthen the security level of a system that uses a
password with voice. Matching password not only based on words but coupled with matching characteristics of voice so that it will
be safer.
Voice recognition based on gender is done with feature extraction technique of the audio signal in the frequency domain
spectral centroid and spectral flux to obtain numerical data which is then followed by classification. K-Nearest Neighbor (KNN) is
implemented to voice classification based on gender with 2 parameters, spectral centroid and spectral flux. In this research, the KNN
classification techniques using 2 ccriteria, male and female.
The test is done by 3 different scenarios. In the first scenario, parameters are changed in a frame width, the second scenario
is frame shift, while in the third scenario is alpha. The result from 3 scenarious are the value of frame width used is 1024, the good
procentage of frame shift used is 31.25%, and the best value of alpha used is 0.97. At the test of the effect of k shows that the higher
value of k produced the higher accuracy and getting closer to the point of stability, with the lowest accuracy of 71.5% and the highest
accuracy of 76.2%.
Keywords: voice, feature extraction, spectral centroid, spectral flux, classification, k – Nearest Neighbor (KNN).
1. PENDAHULUAN
1.1. Latar Belakang
Tuhan menggolongkan manusia berdasarkan
jenis kelaminnya, yaitu pria dan wanita. Setiap manusia
dengan manusia yang lain memiliki perbedaan
karakteristik, salah satunya dapat dilihat dari suaranya.
Bila didengarkan dengan seksama, suara wanita
cenderung lebih tinggi daripada suara pria. Di antara
perbedaan-perbedaan masih terdapat kemiripan antara
suara pria satu dengan pria lain dan antara suara
wanita satu dengan wanita lain [1].
Berdasarkan penelitian Setiawan (2011) suara
dapat digolongkan berdasarkan jenis kelamin dengan
menggunakan metode ekstraksi ciri sinyal. Data sampel
2
sejumlah 10 file suara berfomat (.wav) terdiri dari 2
suara wanita dan 8 suara pria. Dari data sample
dilakukan ekstraksi ciri berupa fitur-fitur pada domain
waktu yaitu Sort Time Energy dan Zero Crossing Rate,
dan fitur-fitur pada domain frekuensi yaitu Spectral
Centroid dan Spectral Flux. Hasil perhitungan ekstraksi
ciri yang diperoleh, direkam dalam file “pola.txt”, di
mana data yang disimpan merupakan rata-rata dari
masing-masing ciri. Data pada file “pola.txt” diolah
untuk proses klasterisasi dengan menggunakan metode
K-Means. K-Means merupakan teknik klastering
sederhana yang umum digunakan. Teknik ini
menggunakan ukuran jarak untuk mengelompokkan
objek. Dari hasil penelitian yang dilakukan 2 suara
masuk ke dalam klaster 1 dan 8 suara masuk ke dalam
klaster 2, sehingga dapat disimpulkan bahwa metode
K-Means mampu mengelompokkan suara berdasarkan
jenis kelamin [2].
Selain dengan metode K-Means,
pengelompokkan juga dapat dilakukan dengan
menggunakan metode k-Nearest Neighbour (KNN).
Berbeda dengan metode K-Means yang mempartisi
data ke dalam satu atau lebih kelompok sehingga data
yang memilik karakteristik yang sama akan
dikelompokkan menjadi satu cluster, KNN merupakan
metode klasifikasi yang didasarkan pada pembelajaran
data yang sudah terklasifikasi sebelumnya.
KNN termasuk dalam golongan supervised,
dimana hasil query instance yang baru diklasifikasi
berdasarkan mayoritas kedekatan jarak dari kategori
yang ada. Beberapa keunggulan pada metode KNN
adalah tangguh terhadap data training yang memiliki
banyak noise dan keefektifan apabila data training besar.
Selain itu proses klasifikasi mudah direpresentasikan
dibandingkan dengan metode klasifikasi lain [3].
Oleh karena itu pada penelitian ini, klasifikasi
suara berdasarkan jenis kelamin akan dilakukan
dengan mengimplementasikan metode KNN dan fitur
yang digunakan mengacu pada penelitian Setiawan
(2011) berupa fitur dari domain frekuensi yaitu Spectral
Centroid dan Spectral Flux. Dengan menggunakan
metode ini, diharapkan komputer mampu mengenali
suara berdasarkan gender (jenis kelamin) dengan
tingkat akurasi yang tinggi.
Berdasarkan latar belakang yang telah
dikemukakan, maka dilakukanlah penelitian dengan
judul “Klasifikasi Suara Berdasarkan Gender (Jenis
Kelamin) Dengan Metode K-Nearest Neighbour
(KNN)”.
1.2. Rumusan Masalah
Permasalahan yang ada pada skripsi ini
dapat dirumuskan sebagai berikut:
1. Bagaimana proses ekstraksi ciri yang dilakukan
sehingga dari data suara dapat dihasilkan data
numerik berupa fitur dari domain frekuensi
(Spectral Centroid dan Spectral Flux) yang nantinya
digunakan dalam proses pengklasifikasian.
2. Bagaimana cara mengklasifikasikan suara dengan
menggunakan KNN berdasarkan parameter yang
ada.
3. Bagaimana akurasi yang terbentuk jika metode
KNN diimplementasikan dalam
mengklasifikasikan suara berdasarkan jenis
kelamin.
1.3. Batasan Masalah
Masalah yang dibahas pada skripsi ini
dibatasi pada:
1. Data yang digunakan dalam penelitian ini adalah
file suara berformat (.wav).
2. Sampel suara yang digunakan adalah suara orang
dewasa yang melafalkan kata “Aku” secara
normal.
3. Proses akuisisi data numerik dilakukan dengan
ekstraksi ciri sinyal suara dengan domain
frekuensi (Spectral Centroid dan Spectral Flux).
4. Pengklasifikasian suara dilakukan dengan
menggunakan KNN weighted voting.
1.4. Tujuan
Penelitian ini dibuat dengan tujuan:
1. Melakukan ekstraksi ciri berupa Spectral Centroid
dan Spectral Flux pada sinyal suara
2. Melakukan klasifikasi suara berdasarkan gender
(jenis kelamin) dengan menggunakan metode
KNN
3. Menghitung akurasi dari hasil pengklasifikasian
suara.
1.5. Manfaat
Manfaat yang dapat diambil dari penelitian ini
adalah menghasilkan aplikasi yang dapat digunakan
untuk mengklasifikasikan suara berdasarkan gender
(jenis kelamin), sehingga dapat membuat komputer
mampu mengenali suara manusia berdasarkan jenis
kelamin.
2. Kajian Pustaka dan Dasar Teori
2.1. Suara dan Audio Digital
Bunyi atau suara adalah sesuatu yang
dihasilkan oleh getaran dari benda yang bergetar. Suara
yang dihasilkan oleh suatu sumber getar dapat sampai
ke telinga karena suara merambat sebagai gelombang.
Bunyi terjadi secara berkelanjutan dikarenakan adanya
gelombang analog. Untuk merubah gelombang analog
ke dalam komputer dilakukan dengan cara melakukan
digitalisasi gelombang analog tersebut [4].
3
2.2. Sampling
Sampling merupakan proses mengubah sinyal
analog menjadi sinyal digital dalam fungsi waktu. Teori
sampling Nyquist menyebutkan bahwa frekuensi
sampling (sampling rate) minimal harus dua kali lebih
tinggi dari frekuensi maksimum yang akan di-sampling,
dimana (𝑓𝑠) frekuensi sampling dan (𝑓ℎ ) frekuensi sinyal
analog tertinggi [5].
𝑓𝑠 ≥ 2𝑓ℎ (2-1)
2.3. Pre-emphasis
Dalam proses pengolahan sinyal suara, proses
pre-emphasis dilakukan setelah proses sampling. Tujuan
dari pre-emphasis adalah untuk mendapatkan bentuk
spectral frekuensi sinyal suara yang lebih halus.
Pre-emphasis didasari oleh hubungan
input/output dalam domain waktu yang dinyatakan
dalam persamaan 2-2
𝑦 𝑛 = 𝑥 𝑛 − 𝑎𝑥(𝑛 − 1) (2-2)
dimana α merupakan konstanta filter pre-emphasis yang
biasanya bernilai 0,9<α<1,0 [6].
2.4. Frame Blocking
Frame Blocking adalah pembagian sinyal audio
menjadi beberapa frame. Satu frame terdiri dari beberapa
sampel tergantung tiap berapa detik suara yang akan
di-sampling dan berapa besar frekuensi sampling-nya [7].
Pada tahap ini, output dari pre-emphasis diblok ke
dalam frame yang terdiri dari N sample data dan tiap
frame dipisahkan dengan M sampel data [8]. Sinyal
hasil dari framing adalah sinyal terpotong yang
diskontinu. Sinyal terpotong tersebut akan dilanjutkan
dalam proses windowing [9].
2.5. Windowing
Window penghalus pada setiap frame
digunakan untuk mereduksi puncak pada tiap segmen
(awal dan akhir suatu frame) [7]. Fungsi windowing yang
digunakan adalah hamming window karena fungsi ini
dapat membuat data pada awal frame dan akhir frame
mendekati nilai 0 dengan baik [9]. Jika didefinisikan
window yang digunakan sebagai w(n) maka output dari
proses window adalah:
𝑥𝑙 𝑛 = 𝑥𝑙 𝑛 𝑤(𝑛) (2-3)
dimana 0 < n < N-1, dan model window yang
digunakanadalah Hamming window [8] yaitu:
𝑤 𝑛 = 0.54 − 0.46 cos 2𝜋𝑛
𝑁−1 (2-4)
2.6. FFT
Proses FFT sinyal dibagi menjadi beberapa
bagian yang lebih kecil yang bertujuan untuk
memperoleh waktu proses yang lebih cepat.
Modifikasi DFT dilakukan dengan mengelompokkan
batas n ganjil dan batas n genap [5]. N-point dengan
urutan {x(n), n = 0, 1, …, N-1} dibagi menjadi urutan
genap
𝑥𝑒 𝑛 = 𝑥 2𝑚 ,𝑚 = 0, 1,… , 𝑁
2 − 1 (2-5)
dan urutan ganjil
𝑥𝑜 𝑛 = 𝑥 2𝑚 + 1 ,𝑚 = 0, 1,… , 𝑛
2 − 1 (2-6)
Oleh karena itu, panjang 𝑁 = 2𝑚 dimana m
adalah bilangan positif integer, maka persamaan DFT
dapat ditulis menjadi [10].
𝑋 𝑘 = 𝑥 𝑛 𝑊𝑁𝑘𝑛𝑁−1
𝑛=0
= 𝑥 2𝑚 𝑊𝑁2𝑚𝑘 + 𝑥(2𝑚 + 1)𝑊𝑁
2𝑚+1 𝑘 𝑛
2 −1
𝑚=0
𝑛
2 −1
𝑚=0
(2-7)
2.7. Spectral Centroid
Spectroid Centroid didefinisikan sebagai titik
berat atau titik keseimbangan dari magnitude pada
spektrum domain frekuensi yang merepresentasikan
sinyal audio [11]. Berdasarkan penelitian Setiawan
(2011) spectral centroid dapat diperoleh dengan
persamaan 2-8
𝑆𝐶𝑡 = 𝑀𝑡 𝑛 .𝑛𝑁𝑛=1
𝑀𝑡[𝑛]𝑁𝑛=1
(2-8)
dimana N adalah jumlah pita frekuensi pada spectrum,
Mt[n] adalah magnitude dari spektrum pada frame
indeks t dan pita indeks n [2].
2.8. Spectral Flux
Spectral Flux menyatakan perbedaan antara pita
magnitude dari sejumlah frame pada spektrum domain
frekuensi yang merepresentasikan sebuah sinyal audio
dan dapat diperoleh dengan menggunakan persamaan
𝑆𝐹𝑡 = 𝑀𝑡 𝑛 − 𝑀𝑡−1[𝑛] 2
=1
𝑁 𝑀𝑡 𝑛 − 𝑀𝑡−1[𝑛] 2𝑁
𝑛=1 (2-9)
dimana N adalah jumlah pita frekuensi, Mt[n] adalah
magnitude dari spectrum pada frame indeks t dan pita
indeks n, dan Mt-1[n] adalah magnitude dari spekturm
pada frame indeks t-1 dan pita indeks n [11].
2.9. K – Nearest Neighbor (KNN)
Klasifikasi Nearest Neighbor didasarkan pada
pembelajaran (learning) dengan membandingkan
4
sebuah data uji dengan sejumlah data latih. Data latih
terdiri dari n atribut. Tiap data merepresentasikan titik
pada sebuah ruang berdimensi n, dengan begitu semua
data latih disimpan di dalam ruang pola berdimensi n.
Ketika diberikan sebuah data yang tidak diketahui
kelasnya, k-nearest neighbor akan mencari pola ruang
untuk data latih k yang terdekat. Data latih k ini
merupakan k “nearest neighbor” dari data yang tidak
diketahui tersebut [12].
2.9.1. Normalisasi
Normalisasi dilakukan untuk menghindari
beberapa atribut yang memiliki nilai besar
mempengaruhi atribut lain yang diukur pada skala
yang lebih kecil. Pada data kontinyu, normalisasi dapat
dilakukan dengan menggunakan Z-Score standardization
dengan persamaan 2-10 [13].
𝑋∗ =𝑋−𝑚𝑒𝑎𝑛 (𝑋)
𝑆𝐷(𝑋) (2-10)
2.9.2. Jarak Euclidean
Kedekatan didefinisikan dengan ukuran jarak
seperti Euclidean distance, di mana jarak dua data
𝑋1 = (𝑥11 , 𝑥12 ,… , 𝑥1𝑛) dan 𝑋2 = (𝑥21 , 𝑥22 ,… , 𝑥2𝑛)
dinyatakan dalam persamaan 2-11 [12][HAN-06].
𝑑𝑖𝑠𝑡 𝑋1,𝑋2 = (𝑥1𝑖 − 𝑥2𝑖)2𝑛
𝑖=1 (2-11)
2.9.3. Weighted Voting
Pada fungsi kombinasi dengan menggunakan
weighted voting diharapkan dapat memperkecil
kesalahan. Fungsi kombinasi ini merupakan kebalikan
proporsi jarak dari rekord baru dengan klasifikasi,
dimana vote dibobotkan dengan inverse square dari
nilai jarak [13].
2.10. Akurasi Sistem
Akurasi merupakan ukuran seberapa dekat
suatu angka hasil pengukuran terhadap angka
sebenarnya. Akurasi dapat diperoleh dari prosentase
kebenaran, yaitu perbandingan antara jumlah data
benar dengan keseluruhan data [14]. Akurasi
dinyatakan dengan persamaan
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 =𝑗𝑢𝑚𝑙𝑎 ℎ 𝑑𝑎𝑡𝑎 𝑏𝑒𝑛𝑎𝑟
𝑗𝑢𝑚𝑙𝑎 ℎ 𝑑𝑎𝑡𝑎 × 100% (2-12)
3. Metodologi Penelitian dan Perancangan
3.1. Data Penelitian
Data yang digunakan adalah data suara yang
dikumpulkan secara langsung dengan melakukan
perekaman kepada sejumlah orang yang kemudian
disimpan dalam format (.wav). Perekaman dilakukan
dengan bantuan aplikasi Audacity dengan format PCM
8000Hz, 16 bit, 1 channel (mono). Dari data suara akan
dibuat sebuah dataset melalui proses ekstrasi fitur
dengan atribut id, filename, alpha, frame_width,
frame_shift, spectral_centroid dan spectral_flux, dan
kelas berupa jenis kelamin. Data suara terdiri dari 294
suara dengan 147 suara perempuan dan 147 suara laki-
laki.
3.2. Perancangan Sistem
Perancangan proses klasifikasi suara
berdasarkan gender ini terdiri dari tiga proses utama
yaitu ekstraksi fitur, pelatihan, dan pengujian. Proses
ekstraksi fitur bertujuan untuk memperoleh nilai fitur
spectral centroid dan spectral flux. Proses ekstraksi fitur
ditunjukkan pada gambar 3.1.
Ekstraksi Fitur
Mulai
Sinyal digital
tersampling
Pre-emphasis
Frame Blocking
Windowing
Transformasi Fourier
Hitung Spectral
Centroid
Selesai
Hitung Spectral Flux
Gambar 3.1 Proses Ekstraksi Fitur
Proses pelatihan sistem bertujuan untuk
menentuan klasifikasi suara pada sejumlah data uji dan
data latih dengan menggunakan metode KNN. Proses
pelatihan ditunjukkan oleh gambar 3.2.
5
Proses Pelatihan
Mulai
Input dataset suara,
jml data testing, k-
tetangga terdekat
KNN
Output akurasi
Selesai
For i=0 to jml data testing
i
Hasil=benar? Benar=Benar+1
T
Y
Akurasi=Benar/jml data
testing
Proses pengujian bertujuan untuk menguji suatu
data suara yang dimasukkan oleh pengguna. Proses ini
menghasilkan klasifikasi suara berdasarkan jenis
kelaminnya. Perancangan proses pengujian
ditunjukkan oleh gambar 3.3.
Proses Pengujian
Mulai
Input file suara format
(.wav), k-tetangga
terdekat
Ekstraksi Fitur
KNN
Output hasil klasifikasi
Selesai
Gambar 3.3 Proses Pengujian
Pada proses pelatihan dan pengujian terdapat
proses pengklasifikasian dengan menggunakan metode
KNN. Proses KNN ditunjukkan pada gambar 3.4.
KNN
Mulai
Input data uji, k
tetangga terdekat
Perhitungan jarak
Weighted voting
Output hasil
klasifikasi
Selesai
Normalisasi
Sorting
Gambar 3.15 Proses KNN
4. Implementasi
Antarmuka aplikasi untuk klasifikasi suara
berdasarkan gender terdiri atas 3 bagian utama, yaitu:
1. Form Ekstraksi Fitur
Form ini bertujuan untuk melakukan ekstraksi
fitur spectral centroid dan spectral flux dari file suara yang
akan diekstraksi. Antarmuka dari form ekstraksi fitur
ditunjukkan pada Gambar 4.1.
Gambar 4.1 Form Ekstraksi Fitur
Gambar 3.2 Proses Pelatihan
6
2. Form Proses Pelatihan
Form pelatihan digunakan untuk mengetahui
hasil akurasi dari implementasi KNN. Antarmuka dari
form pelatihan ditunjukkan pada Gambar 4.2.
Gambar 4.2 Form Pelatihan
3. Form Proses Pengujian
Form pengujian digunakan untuk
mengklasifikasikan suara berdasarkan jenis kelamin.
Form pengujian akan ditunjukkan pada Gambar 4.3.
Gambar 4.3 Form Pengujian
5. Pengujian dan Analisis
Pengujian klasifikasi suara berdasarkan gender
(jenis kelamin) dengan metode KNN digunakan dataset
suara sebanyak 294 record. Data yang digunakan dalam
sistem terbagi menjadi 2 kelas, yaitu kelas “L” untuk
laki-laki, dan “P” untuk perempuan dengan fitur yang
digunakan adalah spectral centroid dan spectral flux.
Pada setiap uji coba digunakan prosentase data latih
sebesar 70% dan data uji sebesar 30%, serta
menggunakan 19 nilai k yang berbeda. Proses
pengujian, terdapat 3 skenario yang digunakan:
a. Skenario 1
Pada skenario 1 digunakan 4 nilai frame width
yang berbeda, yaitu 128, 256, 512, dan 1024. Nilai frame
shift yang digunakan berdasarkan penelitian Wardana
(2011) adalah 31,25% dengan nilai alpha 0,97. Akurasi
pengujian tiap nilai frame width yang digunakan
diperoleh dari hasil rata-rata akurasi tiap uji coba pada
nilai frame width yang sama.
7
Tabel 5.1 Tabel Rata-rata Akurasi Sistem Skenario 1
Frame
Width
Percobaan
ke-
Nilai K
1 2 … 10 20 … 100
128
1 58,4 58,4 … 60,7 61,8 … 62,9
2 61,8 61,8 … 66,3 67,4 … 62,9
3 60,7 60,7 … 59,6 60,7 … 58,4
4 61,8 61,8 … 61,8 61,8 … 62,9
5 61,8 61,8 … 61,8 60,7 … 60,7
Rata-rata Akurasi
(%) 60,9 60,9 … 62,0 62,5 … 61,6
256
1 57,3 57,3 … 58,4 62,9 … 65,2
2 66,3 66,3 … 66,3 70,8 … 67,4
3 65,2 65,2 … 68,5 69,7 … 69,7
4 61,8 61,8 … 62,9 66,3 … 67,4
5 64,0 64,0 … 68,5 69,7 … 67,4
Rata-rata Akurasi
(%) 62,9 62,9 … 64,9 67,9 … 67,4
512
1 65,2 65,2 … 62,9 68,5 … 68,5
2 60,7 60,7 … 68,5 68,5 … 69,7
3 60,7 60,7 … 67,4 68,5 … 73,0
4 68,5 68,5 … 64,0 68,5 … 68,5
5 64,0 64,0 … 67,4 68,5 … 68,5
Rata-rata Akurasi
(%) 63,8 63,8 … 66,1 68,5 … 69,7
1024
1 75,3 75,3 … 78,7 78,7 … 76,4
2 62,9 62,9 … 68,5 67,4 … 67,4
3 67,4 67,4 … 74,2 75,3 … 76,4
4 73,0 73,0 … 77,5 77,5 … 78,7
5 77,5 77,5 … 80,9 84,3 … 84,3
Rata-rata Akurasi
(%) 71,2 71,2 … 76,0 76,6 … 76,6
Hasil uji coba skenario 1 direpresentasikan
dalam grafik pada gambar 5.1
Gambar 5.1. Pengaruh nilai k dan Frame width
terhadap tingkat akurasi
Gambar 5.1 menunjukkan bahwa semakin
bertambahnya nilai k, maka semakin bertambah pula
tingkat akurasi yang dihasilkan, begitu pula juga pada
variable frame width. Semakin besar nilai frame width
maka semakin besar pula tingkat akurasinya.
b. Skenario 2
Pada skenario 2 digunakan 4 nilai frame shift
yang berbeda, yaitu 30%, 40%, 50%, dan 60%. Nilai
frame width yang digunakan adalah nilsi frame width
dengan tingkat akurasi tertinggi yaitu 1024 dengan
nilai alpha berdasarkan referensi penelitian Wardana
(2011) yaitu 0,97. Akurasi pengujian tiap nilai frame shift
yang digunakan diperoleh dari hasil rata-rata akurasi
tiap uji coba pada nilai frame shift yang sama.
Tabel 5.2 Tabel Rata-rata Akurasi Sistem Skenario 2
(%) Percobaan
ke-
Nilai K
1 2 … 10 20 … 100
30
1 61,8 61,8 … 64,0 65,2 … 69,7
2 60,7 60,7 … 62,9 64,0 … 65,2
3 61,8 61,8 … 66,3 69,7 … 71,9
4 67,4 67,4 … 75,3 76,4 … 74,2
5 73,0 73,0 … 71,9 71,9 … 73,0
Rata-rata Akurasi
(%) 64,9 64,9 … 68,1 69,4 … 70,8
40
1 58,4 58,4 … 71,9 71,9 … 71,9
2 64,0 64,0 … 67,4 69,7 … 67,4
3 61,8 61,8 … 69,7 69,7 … 73,0
4 66,3 66,3 … 69,7 70,8 … 71,9
5 64,0 64,0 … 69,7 68,5 … 73,0
Rata-rata Akurasi
(%) 62,9 62,9 … 69,7 70,1 … 71,5
50
1 68,5 68,5 … 74,2 76,4 … 78,7
2 62,9 62,9 … 62,9 65,7 … 67,4
3 62,9 62,9 … 66,3 66,3 … 69,7
4 73,0 73,0 … 76,4 77,5 … 76,4
5 68,5 68,5 … 73,0 74,2 … 76,4
Rata-rata Akurasi
(%) 67,2 67,2 … 70,6 72,0 … 73,7
60
1 62,9 62,9 … 65,2 65,2 … 66,3
2 55,1 55,1 … 55,1 58,4 … 60,7
3 59,6 59,6 … 61,8 64,0 … 69,7
4 61,8 61,8 … 65,2 64,0 … 66,3
5 61,8 61,8 … 62,9 65,2 … 65,2
Rata-rata Akurasi
(%) 60,2 60,2 … 62,0 63,4 … 65,6
71,271,273,573,574,4
75,575,576,076,076,076,676,676,977,176,676,676,676,976,6
55,0
60,0
65,0
70,0
75,0
80,0
1 2 3 4 5 6 7 8 9 10 20 30 40 50 60 70 80 90 100
Aku
rasi
(%
)
Nilai K
Akurasi Klasifikasi Suara pada Uji Coba Skenario 1
Frame width = 128 Frame width = 256
Frame width = 512 Frame width = 1024
8
Hasil uji coba skenario 2 direpresentasikan pada
gambar 5.2
Gambar 5.2. Grafik akurasi klasifikasi suara pada uji
coba skenario 2
Gambar 5.2 menunjukkan bahwa tingkat akurasi
tertinggi berada pada nilai frame shift dengan
prosentase 50% dengan semakin tinggi nilai k maka
semakin tinggi tingkat akurasi yang terbentuk.
c. Skenario 3
Pada skenario 3 digunakan 4 nilai alpha yang
berbeda, yaitu 0.93, 0.95, 0.97, dan 0.99. Nilai frame
width yang digunakan adalah nilai frame width dengan
tingkat akurasi tertinggi yaitu 1024 dengan nilai frame
shift berdasarkan referensi penelitian Wardana (2011)
yaitu 31.25%. Akurasi pengujian tiap nilai alpha yang
digunakan diperoleh dari hasil rata-rata akurasi tiap uji
coba pada nilai alpha yang sama.
Tabel 5.3 Tabel Rata-rata Akurasi Sistem Skenario 3
α Percobaan
ke-
Nilai K
1 2 … 10 20 … 100
0,93
1 71,9 71,9 … 73,0 75,3 … 76,4
2 68,5 68,5 … 68,5 66,3 … 68,5
3 65,2 65,2 … 70,8 73,0 … 76,4
4 67,4 67,4 … 75,3 80,9 … 79,8
5 69,7 69,7 … 75,3 76,4 … 76,4
Rata-rata Akurasi
(%) 68,5 68,5 … 72,6 74,4 … 75,5
0,95
1 69,7 69,7 … 75,3 75,3 … 76,4
2 68,5 68,5 … 68,5 67,4 … 69,7
3 65,2 65,2 … 73,0 73,0 … 76,4
4 68,5 68,5 … 74,2 76,4 … 76,4
5 71,9 71,9 … 76,4 77,5 … 78,7
Rata-rata Akurasi
(%) 68,8 68,8 … 73,5 73,9 … 75,5
0,97
1 75,3 75,3 … 78,7 78,7 … 76,4
2 62,9 62,9 … 68,5 67,4 … 67,4
3 67,4 67,4 … 74,2 75,3 … 76,4
4 73,0 73,0 … 77,5 77,5 … 78,7
5 77,5 77,5 … 80,9 84,3 … 84,3
Rata-rata Akurasi
(%) 71,2 71,2 … 76,0 76,6 … 76,6
0,99
1 67,4 67,4 … 71,9 76,4 … 79,8
2 57,3 57,3 … 60,7 62,9 … 65,2
3 62,9 62,9 … 69,7 70,8 … 71,9
4 73,0 73,0 … 77,5 76,4 … 77,5
5 65,2 65,2 … 69,7 69,7 … 71,9
Rata-rata Akurasi
(%) 65,2 65,2 … 69,9 71,2 … 73,3
Hasil uji coba skenario 3 direpresentasikan pada
gambar 5.3
Gambar 5.3. Grafik akurasi klasifikasi suara pada uji
coba skenario 3
Gambar 5.3 menunjukkan bahwa tingkat akurasi
tertinggi berada pada nilai alpha sebesar 0.97 dengan
semakin tinggi nilai k maka semakin tinggi tingkat
akurasi yang terbentuk.
6. Kesimpulan
Berdasarkan hasil penelitian tentang klasifikasi
suara berdasarkan gender (jenis kelamin) dengan
metode K-Nearest Neighbor (KNN), dapat disimpulkan
bahwa:
1. Ekstraksi ciri untuk memperoleh nilai fitur spectral
centroid dan spectral flux dilakukan dengan melalui
proses sampling, pre-emphasis, frame blocking, dan
transformasi Fourier. Pada proses pre-emphasis nilai
67,267,267,968,567,968,569,470,670,170,6
72,073,073,973,973,973,773,773,773,7
55,0
60,0
65,0
70,0
75,0
1 3 5 7 9 20 40 60 80 100
Aku
rasi
(%
)
Nilai K
Akurasi Klasifikasi Suara pada Uji Coba 2
frame shift = 30% frame shift = 40%
frame shift = 50% frame shift = 60%
71,271,2
73,573,574,4
75,575,576,076,076,076,676,676,977,176,676,676,676,976,6
60,0
65,0
70,0
75,0
80,0
1 2 3 4 5 6 7 8 9 10 20 30 40 50 60 70 80 90 100
Aku
rasi
(%
)
Nilai K
Akurasi Klasifikasi Suara pada Uji Coba Skenario 3
alpha = 0,93 alpha = 0,95 alpha = 0,97 alpha = 0,99
9
alpha yang baik digunakan adalah 0,97. Pada proses
frame blocking nilai frame width yang baik digunakan
adalah 1024 dan nilai frame shift yang baik
digunakan adalah 31,25%. Setelah meendapatkan
hasil transformasi Fourier, dihitung dan diperoleh
nilai fitur spectral centroid dan nilai fitur spectral flux.
2. Pengklasifikasian suara dengan menggunakan
metode KNN dilakukan dengan menggunakan fitur
spectral centroid dan spectral flux pada suara, dengan
2 kelas tujuan yaitu laki-laki dan perempuan.
Penggunaan nilai k mempengaruhi tingkat akurasi.
Semakin tinggi nilai k maka semakin tinggi tingkat
akurasi yang dihasilkan.
3. Akurasi pada klasifikasi suara berdasarkan gender
(jenis kelamin) dengan metode KNN cukup baik.
Akurasi terendah pada uji coba dengan nilai frame
width 1024, frame shift 31,25%, dan nilai alpha 0.97
adalah 71,2% dan akurasi tertinggi adalah 77,1% .
Nilai akurasi yang dihasilkan cukup baik, sehingga
disimpulkan bahwa metode KNN dapat diterapkan
pada klasifikasi suara berdasarkan gender (jenis
kelamin).
7. Daftar Pustaka
[1] Prasetya, Binyamin Widi. 2008. “Identifikasi Suara
Pria dan Wanita Berdasarkan Frekuensi Suara”.
Jurnal Informatika. Vol. 4, No. 1. hal. 10-17.
http://ti.ukdw.ac.id/ojs/index.php/informatika/arti
cle/download/13/15. [4 Februari 2013] [2] Setiawan, Arif dan Pratomo Setiaji. 2011.
Klasifikasi Suara Berdasarkan Gender dengan
Algoritma K-Means. Prosiding Seminar Nasional
Pengaplikasian Telematika 2011 (SINAPTIKA 2011).
Universitas Mercu Buana. Jakarta. Indonesia.
http://library.si.umk.ac.id/index.php?p=fstream-
pdf&fid=69&bid=136. [4 Februari 2013].
[3] Sikki, Muhammad Ilyas. 2009. “Pengenalan Wajah
Menggunakan K-Nearest Neighbour dengan
Praproses Transformasi Wavelet”. Jurnal
Paradigma. Vol. 10, No. 2. http://www.ejournal-
unisma.net/ojs/index.php/paradigma/article/down
load/198/185 [7 Februari 2013]. [4] Daryanto, Tri. 2008. “Sistem Multimedia
Pertemuan ke-2 Audio dan Suara”.
http://kk.mercubuana.ac.id/files/92052-2-
132860772042.pdf . [18 April 2013].
[5] Tanudjaja, Harlianto. 2007. “Pengolahan Sinyal
Digital dan Sistem Pemrosesan Sinyal”. Andi
Offset. Yogyakarta.
[6] Jayati, Ari Endang. 2009. “Proses Pemfilteran
Sinyal Suara”. Elektrika. Vol. 1. No. 2.Hal 107-116.
[7] Huda, Miftahul. 2011. “Konversi Nada-nada
Akustik Menjadi Chord Menggunakan Pitch Class
Profile”. http://repo.eepis-
its.edu/175/3/KONVERSI_NADA-
NADA_AKUSTIK_MENJADI_CHORD_.pdf. [24
April 2013].
[8] Thiang. 2007. “Implementasi Sistem Pengenalan
Kata pada Mikrokontroler Keluarga MCS51”.
http://fportfolio.petra.ac.id/user_files/97-
031/Pengenalan%20Kata-
Mikrokontroler%20%20MCS51.pdf. [24 April
2013]. [9] Basuki, Achmad dkk. 2006. “Aplikasi Pengolahan
Suara untuk Request Lagu”. http://lecturer.eepis-
its.edu/~huda/Dokumen/Karya/Request%20Lagu.
pdf. [24 April 2013].
[10] Kuo, Sen M dan Woon-Seng Gan. 2005. “Digital
Signal Processor Architectures, Implementations,
and Applications”. Pearson Prentice Hall. United
States of Amerika.
[11] Thoman, Chris. 2009. “Model-Based Classification
Of Speech Audio”.
http://books.google.co.id/books?id=48pycpKBqwk
C&printsec=frontcover&hl=id#v=onepage&q&f=fa
lse. [24 April 2013]. [12] Han, Jiawei. 2006. “Data Mining: Concept and
Techniques”. Second Edition. Elsevier Inc. [13] Larose, Daniel T. “Discovering Knowledge in
Data: An Introduction to Data Mining”. John
Wiley & Sons. United States of Amerika.
[14] Ludviani, Resti. 2011. “Pembangkitan Aturan
Fuzzy Menggunakan Fuzzy C-Means (FCM)
Clustering Untuk Diagnosa Risiko Penyakit
Jantung Koroner (PJK)”. Skripsi. Universitas
Brawijaya Malang.
[15] Wardana, Mohammad Mahendra Jaya. 2011.
“Pengenalan Suara Menggunakan Algoritma Fast
Fourier Transform (FFT) dengan Algoritma Mel
Frequency Cepstrum Coefficient (MFCC) Sebagai
Ekstraksi Ciri ”. Skripsi. Universitas Brawijaya
Malang.