6ERROR FUNCTION
(Fungsi Error)
Gambaran Umum
Sebagai pengingat pada bab sebelumnya - Tujuan utama dalam training network
adalah tidak menghafal data training, tetapi untuk melakukan generasi data dasar. Sehingga
memungkinkan kita untuk memprediksi data terbaik untuk untuk output vektor t - dan nilai
tersebut akan dilatuh selanjutnya untuk nilai baru sebagai input vektor x.
Deskripsi paling umum untuk generator data adalah kepadatan data dengan
probabilitas p (x,t)
Untuk masalah prediksi asosiatif dari jenis yang kita pertimbangkan - Dapat
menguraikan kepadatan probabilitas gabungan hasil dari :
- Kerapatan bersyarat dari data target
- Input data
- Kepadatan tanpa syarat input data , sehingga :
Dimana p(x , t)adalah menunjukkan kepadatan probabilitas t - x mengambil nilai
tertentu. Sedangkan p(x ) mewakili kepadatan tanpa syarat x dan nilai p(x )adalah nilai dari
Pada fungsi error , nilai p(t∨x )digunakan untuk membuat prediksi t untuk nilai –
nilai baru x :
1
Dimana kita asumsikan nilai () diambil secara independen dari distribusi atau sumber
yang sama, karena hal tersebut kita dapat mengalikan dengan probabilitas. Hal tersebut juga
dapat memaksimalkan kemungkinan.
Dimana E adalah fungsi error. Dengan E sebagai error kita dapat meneruskan hal
tersebut sebagai kerangka kerja untuk pemodelan kepadatan probabilitas bersyarat p (t|x ) .
Pada persamaan 6.4 sebenarnya tidak bergantung pada parameter jaringan, parameter
jaringan adalah persamaan konstanta aditif yang dapat dihilangkan dari fungsi error.
Sehingga kita memiliki persamaan :
Sebagai catatan , fungsi error mengambil total di atas kesalahan hasil untuk masing –
masing pola secara terpisah.
6.1 Sum-of-squares error
Contoh variable tk dimana k = 1,…..,c dan c adalah sebagai bahan pertimbangan
batas. Dengan c tersebut dimisalkan sebagai distribusi variable target yang berbeda secara
independen – sehingga kita bisa mendapatkan persamaan
Kita akan mengasumsikan bahwa distribusi target adalah dilakukan dengan cara
perhitungan Gaussian. Lebih secara detail kita asumsikan variable t k diberikan nilai dari
2
beberapa deterministic fungsi dari x dengan menambahkan nilai Gaussian Noise e – sehingga
nilai t kadalah
Sekarang kita asumsikan error e adalah normal distribusi dengan maksud kosong dan
standard deviasi rho dimana standar penyimpangan tidak bergantung pada x atau apapun
itu. Dengan demikian kita mendapatkan nilai untuk ek adalah
Sekarang kita berusaha untuk menghubungkan fungsi hk (x)dengan jaringan syaraf
dengan output yk(x;w) dimana w adalah bobot untuk parameter yang mengatur pemetaan
jaringan syaraf. Dengan menggunakan persamaan 6.7 dan 6.8 kita dapat melihat distirbusi
probabilitas diberikan oleh nilai berikut :
Di mana kita telah mengganti nilai fungsi tidak diketahui oleh hk (x)dari model
yk ( x ; w )Secara bersamaan pada persamaan 6.6 dan 6.5 menjadi awal untuk expressi yang
diikuti fungsi error sebagai berikut :
Untuk mengurangi penggunaan untuk meminimalkan error , aturan kedua dan ketiga
dari persamaan 6.10 perlu diingat adalah persamaan sendiri dari nilai w dan bisa dihilangkan.
Untuk aturan pertama pada bagian pecahan juga dapat dihilangkan. Dan nilai akhir dai sum-
of-squares fungsi error adalah sebagai berikut :
3
Akan tetapi untuk jaringan pengujian akan lebih mudah menggunakan root-mean-
square (RMS) dengan persamaan sebagai berikut :
Dimana nilai t dapat dicari dengan cara :
6.1.1 Linear Output Units (Linear Output Unit)
Fungsi pemetaan pada multi-layer perceptron atau jaringan fungsi basis radial dapat
ditulis dengan persamaan :
Dimana g adalah fungsi untuk aktivasi untuk unit output , wkj adalah sebagai nilai
yang terhubung langsung dengan output unit , dan w adalah nilai dari sum-of-squares (6.11)
dengan focus terhadap nilai ak yang dapat ditulis sebagai :
Jika kita memilih untuk melakukan fungsi aktivasi pada unit output , maka harus
dibuat linear dimana g (a )=a, dan dapat ditulis dalam bentuk :
Dan untuk pada pembahasan jaringan pemetaan dapat dituliskan dengan
persamaan :
4
Dengan meminimalisasikan sum-of-squares error pada persamaan 6.11 dengan
mengutamakan effect bias , kita dapat menggunakana persamaan :
Dan untuk mendapatkan nilai w k 0 dapat menggunakan cara :
Sehingga diperoleh cara untuk mencari nilai rata – rata kuantitas :
Pada hasil 6.23 kita medapatkan bahwa peran bias adalah untuk menggantika
perbedaan antara nilai rata- rata dari nilai target dan jumlah dari rata – rata output. Jika kita
ganti kembali expresi 6.23 ke dalam sum-of-squares error kita mendapatkan persamaan :
Dimana beberapa nilai dapat dicari dengan cara :
Sekarang kita dapat meminimalisir error dengan menggunakan nilai bobot dari wkj
untuk dimasukkan ke persamaan :
5
Dari persamaan 6.27 kita dapat mendapatkan persamaan notasi matriks
Dimana ZT adalah notasi untuk transpose dari matriks Z❑Kita dapat menulis nilai
solusi matriks tersebut secara eksplisit dengan persamaan
Dimana nilai Z transpose adalah :
6.1.2 Linear sum-rules
Dengan menggunakan fungsi error sum-of-squares untuk menentukan nilai pada
jaringan dengan unit – unit output linear dapat menggunakan aturan penjumlahan untuk
output jaringan tersebut (Lowe dan Web , 1991 ). Misalkan pola yang digunakan untuk
melatih jaringan memenuhi suatu untuk melatih tingkat nilai dari suatu nilai relasi jaringan ,
maka untuk setiap pola n dapat menggunakan persamaan :
Dimana u dan u0 adalah nilai konstanta. Dan sekarang , jika nilai layer telah diberikan
nilai determinan maka nilai output dari suatu pola harus sesuai dengan nilai input suatu pola.
Sehingga mendapatkan nilai persamaan sebagai berikut :
Nilai output tersebut diberikan nilai dari persamaan 6.21 yang dapat ditulis dengan
notasi vector melalui persamaan sebagai berikut :
6
Sehingga nilai optimal untuk nilai bias yang diberikan pada persamaan 6.23 dapat
ditulis dengan persamaan
Sekarang nilai konsisten pada nilai scalar pada nilai y dan vector , untuk sebuah pola
input. Untuk mengoptimalkan nilai dapat menggunakan nilai dari persamaan 6.29 , 6.33 dan
6.34 sehingga kita mendapatkan sebuah persamaan yaitu :
Dan menggunakan aturan matriks transpose kita dapat mendapatkan persamaan sebagai
berikut :
Dan pada sebelumnya kita menggunakan persmaan linear pada 6.32. Menggabungkan nilai
6.35 dan 6.36 kita mendapatkan suatu persamaan yaitu :
6.1.3 Interpretation of Network Outputs (Interpretasi Dari Output Networks)
Sekarang menafsirkan atau menterjemahkan output dari jaringan yang dilatih dengan
meminimalkan nilai fungsi error. Secara khusus , output perkiraan rata- rata bersyarat dari
data yang diinginkan. Secara tidak langsung ini menghasilkan nilai untuk aplikasi jaringan
syaraf.
Dengan melihat nilai ukuran dari N dan kumpulan data training. Ukuran tersebut
adalah nilai batas untuk pola dalam nilai sum-squares-error dengan integral dalam bentuk
persamaan sebagai berikut :
7
Sekarang mendapatkan hasil dari factor 1N
yang merupakan bagian dari sum-of-squares error
sebagai batas limit. Dapat menggunakan persamaan sebagai berikut :
Kemudian mensubstitusikan nilai 6.44 kedalam 6.40 dan membuat nilai dari 6.41 dan
6.42. Nilai sum-of-squares error dapat ditulis sebagai berikut :
Karena integral pertama pada persamaan 6.45 adalah non negative , minimum
absolut fungsi bisa dihilangkan sesuai dengan jaringan network pada persamaan sebagai
berikut :
8
Gambar 6.1
Dimana w ¿adalah nilai vector minimal dari fungsi error. Persamaan 6.46 adalah
contoh bahwa network mapping diberikan oleh nilai syarat rata – rata dari nilai yang akan
dicari , dengan kata lain dengan regresi nilai TFC dikondisikan. Hasil tersebut dapat
digambarkan oleh gambar 6.1 dan contoh sederhana 6.2
Gambar 6.2
Pada gambar 6.2 terlihat pemetaan jaringan dimana nilai rata – rata dari target adalah
diambil dari nilai t=x+0.3 sin (2 phi x )+¿ e¿ dimana e adalah random dari distribusi nilai (-
0.1 , 0.1). Bentuk solid pada gambar diambil dari nilai multi-layer perceptron network dengan
nilai sum-of-squares-error yang memberikan nilai representasi yang bagus.
Kita dapat mudah melihat nilai minimum sum-of-squares error telah diberikan dari
nilai rata – rata dari nilai target seperti pada persamaan berikut :
9
Dimana a dan b adalah nilai constant. Differensiasi dari E(y) dapat dilihat dari nilai minimum y
pada persamaan berikut :
6.1.4 Outer Product Approximasi dari Hessian (Pendekatan Produk Luar Untuk Hessian)
Dengan menggunakan fungsi error pada persamaan 6.45. Kita dapat mengambil
hubungan antara wr dan ws maka kita memperoleh persamaan :
Dengan menggunakan hasil dari nilai 6.46 bahwa output yk xdari jaringan dilatih
mewakili data dengan menggunakan syarat rata – rata data, pada persamaan 6.56 hal
tersebut dapat dihilangkan. Untuk satu set data yang terbatas , kita dapat menulis hal dalam
bentuk persamaan :
6.1.4 Pendekatan Produk Luar Untuk Hessian
10
Pada pembahasan sebelumnya telah dibahas pendekatan matrik hessian yang merupakan matrix turunan kedua dari fungsi error pada bobot jaringan. Yaitu jumlah kuadrat pada fungsi error. Pendekatan ini didasarkan pada jumlah hasil pada turunan pertama. Di sini ditunjukkan pendekatan yang tepat untuk data yang tidak terbatas, asalkan fungsi yang digunakan adalah fungsi error minimal. Dengan Mempertimbangkan fungsi kesalahan pada (6.45). Ambil turunan kedua dengan dua bobot, sehingga diperoleh wr dan ws.
Gunakan hasil dari (6.46). bahwa hasil dari jaringan terlatih merepresentasikan rata-rata bersyarat dari target data. Dapat dilihat bahwa istilah ke dua pada 6.56 hilang. Karena itu istilah hessian diberikan oleh hasil integral yang meliputi hasil turunan pertama. Untuk satu set data yang terbatas, dapat ditulis hasil ini dalam bentuk.
6.1.5. Inverse Problems (Masalah Invers)
Fakta bahwa solusi kuadrat yang mendekati rata-rata bersyarat dari target data
memiliki konsekuensi yang penting ketika jaringan saraf yang digunakan untuk memecahkan
masalah terbalik. Banyak aplikasi potensial jaringan saraf gagal dalam kategori ini. Contohnya
termasuk analisis data spektral, rekonstruksi tomografi, kontrol tanaman industri, dan
kinematika robot. Untuk masalah tersebut ke depannya terdefinisi dengan baik yang ditandai
dengan fungsional (yaitu bernilai tunggal) pemetaan. Dalam kasus rekonstruksi spektral,
misalnya masalah ke depan sesuai dengan evaluasi spektrum ketika parameter (lokasi, lebar
dan amplitudo) yang diresepkan dari garis spektrum. Dalam aplikasi praktis pada umumnya
harus memecahkan masalah inversi yang sesuai, di mana peran variabel input dan output
dipertukarkan. Dalam kasus analisa spektral, sesuai dengan penentuan garis spektral dari
spektrum yang diamati. Dari persoalan invers, parameter pemetaan menghasilkan banyak
11
nilai, ada beberapa nilai-nilai input yang sesuai dengan hasil output. Sebagai contoh,
kemungkinan terdapat beberapa pilihan untuk parameter garis spektral yang menimbulkan
spektrum yang sama saat diamati. Jika pendekatan persegi diterapkan untuk masalah yang
berbeda, itu akan mendekati rata-rata bersyarat target data, dan ini sering kali akan
mengakibatkan kinerja sangat lemah (karena rata-rata beberapa solusi belum tentu solusi
sendiri). Sebuah ilustrasi sederhana dari masalah ini, dengan mempertimbangkan kumpulan
data yang ditunjukkan sebelumnya pada gambar 6.2 di mana dilihat bagaimana jaringan
yang mendekati rata-rata bersyarat dari target data memberikan representasi yang baik dari
generator yang mendasari data. misalkan sekarang dibalikkan peran masukan dan sasaran.
Variabel.
Gambar 6.3 menunjukkan hasil pelatihan jaringan dari jenis yang sama seperti
sebelumnya pada suatu data yang sama, tetapi variabel input dan output dipertukarkan.
Jaringan mencoba lagi untuk mendekati rata-rata bersyarat dari target data, tapi kali ini rata-
rata bersyarat memberikan deskripsi yang tidak baik sebagi pembangkit data. Masalahnya
dapat ditelusuri dengan nilai-nilai menengah x angka (6.3) di mana data target memiliki
banyak nilai. Prediksi yang dibuat oleh jaringan latih di daerah ini bisa sangat tidak baik.
Masalahnya tidak dapat diselesaikan dengan memodifikasi arsitektur jaringan atau pelatihan
algoritma, karena merupakan konsekuensi mendasar dari pengunannn jumlah fungsi error
persegi. Untuk masalah yang melibatkan banyak input dan output variabel dimana visualisasi
data tidak langsung, itu bisa sangat sulit untuk memastikan apakah ada ruang daerah
masukan target data dengan banyak nilai. Salah satu pendekatan untuk masalah tersebut
adalah pergi ke luar deskripsi Gaussian distribusi target akan dibahas dalam bagian 6.4
12
Gambar 6.3 Ilustrasi masalah yang bisa timbul ketika pendekatan kuadrat terkecil
diterapkan untuk masalah terbalik. Hal ini menunjukkan data yang sama ditetapkan seperti
pada gambar 6.2 tetapi dengan peran variabel input dan output yang tertukar . Kurva padat
menunjukkan hasil pelatihan jaringan saraf yang sama seperti pada gambar 6.2 digunakan
lagi sebagai jumlah kesalahan persegi. Kali ini jaringan memberikan data kecocokan tidak
baik, karena di coba lagi dengan rata-rata bersyarat dari nilai target.
6.2. Minkowski Error
Pada jumlah fungsi kuadrat error kemungkinan maksimum pada distribusi Gaussian
untuk data sasaran. Dapat diperoleh lebih banyak fungsi kesalahan umum dengan
mempertimbangkan generalisasi dari Distribusi Gaussian dalam bentuk:
Dimana adalah fungsi gamma (didefinisikan pada halaman 28), parameter mengontrol
varians dari distribusi, dan pra-faktor dalam (6.58) memastikan bahwa Untuk
kasus R = 2 distribusi ini untuk mengurangi Gaussian. Jika dianggap bahwa log kemungkinan
negatif dari kumpulan data, yang diberikan oleh (6,5) dan (6,6), di bawah distribusi (6.58)
Dengan mengabaikan konstanta yang relevan, dapat diperoleh fungsi kesalahan dalam
bentuk
13
Gambar 6.4 adalah plot dari fungsi |y-r|R terhadap |y-t| untuk berbagai nilai R. Fungsi
ini membentuk dasar untuk mengukur definisi Minkowski-R error. Disebut minkowski-R
error. Untuk mengurangi kesalahan jumlah kuadrat biasa ketika R = 2 untuk kasus R = 1,
distribusi fungsi (6.58) , dan minkowski-R sesuai ukuran (6.59) disebut kota blok metrik
(karena jarak antara titik pada pesawat diukur dengan matrik yang sama dengan jarak
euclidean ditutupi dengan bergerak antara dua titik di sepanjang segmen garis sejajar dengan
sumbu, seolah-olah bergerak sepanjang blok di kota). Pada umum, jarak matrik |y-r|R dikenal
sebagai norma Lr.
Turunan dari fungsi error Minkowski-R berkaitan dengan bobot dalam jaringan yang
diberikan oleh
Turunan tersebut dapat dievaluasi menggunakan standar prosedur, yang dibahas dalam
Bagian 4.8. Contoh penerapan kesalahan Minkowski-R ke jaringan yang terlatih
menggunakan penyebaran kembali yang diberikan dalam Hanson dan Burr (1988) dan
Burrascano (1991).
Salah satu potensi sulit dari jumlah standar kesalahan adalah bahwa hal itu
menerima kontribusi terbesar dari titik-titik yang memiliki kesalahan terbesar. Jika tidak
berbuntut panjang pada distribusi maka solusinya dapat didominasi oleh sejumlah kecil titik
14
yang disebut outlier yang memiliki kesalahan sangat besar. Hal ini digambarkan dengan
contoh sederhana pada Gambar 6.5.
Masalah yang sama berat juga dapat muncul dari data salah label. Misalnya untuk
satu titik data tunggal yang nilai target yang salah label dengan jumlah yang besar benar-
benar dapat membatalkan solusi kuadrat terkecil.
Gambar 6.5. Contoh pemasangan polinomial lurus melalui satu set data rancu
ditunjukkan dengan meminimalkan kesalahan jumlah kuadrat. Dalam (a) garis memberikan
representasi yang baik dari aspek data sistematis. Dalam (b) data satu titik tambahan telah
ditambahkan dan letaknya jauh dari titik data lain, menunjukkan bagaimana mendominasi
pemasangan baris.
Teknik yang dicoba untuk memecahkan masalah ini dirujuk sebagai kuat Statistik dan
review dalam konteks metode statistik konvensional yang dapat ditemukan di Huber (1981).
Pemanfaatan kesalahan Minkowski dengan nilai R kurang dari 2 mengurangi kepekaan
outlier. Misalnya, dengan R - 1, solusi error minimum menghitung median bersyarat dari
data, bukan berarti bersyarat (Latihan 6.5). Alasan untuk ini dapat dilihat dengan
memperhatikan kesalahan sederhana :
15
Minimalisasi E (y) terhadap y memberikan :
yang dipenuhi ketika y merupakan median dari titik {tn} (yaitu nilai yang jumlah titiknya sama
dengan tn memiliki nilai lebih besar dari y dalam bentuk nilai kurang dari y) jika salah satu
dari tn diambil untuk beberapa nilai yang sangat besar, hal ini tidak berpengaruh pada solusi
yang ke y.
6.3. Input-Dependent Variance (Ketergantungan Masukan Varian)
Sejauh ini telah diasumsikan bahwa varians dari data target dapat digambarkan oleh
satu parameter global. Dalam banyak aplikasi praktis, ini akan menjadi asumsi yang tidak
baik, dan sekarang dibahas model yang lebih umum untuk data target distribusi. Secara
umum, mungkin untuk menentukan bagaimana varians data tergantung pada vektor input x
(Nix dan Weigend, 1994). al ini dapat dilakukan dengan mengadopsi gambaran yang lebih
umum untukdistribusi bersyarat dari data target, dan kemudian menuliskan kemungkinan log
negatifuntuk mendapatkan fungsi kesalahan yang sesuai. Dengan demikian, dapat ditulis
Distribusi bersyarat dari variabel target dalam bentuk
Untuk membentuk fungsi logaritma negatif dan menghilangkan konstanta aditif, diperoleh
16
Jika sekarang dikalikan dengan 1 / N seperti sebelumnya, dan mengambil batas dari data
tidak terbatas, maka dapat peroleh fungsi kesalahan dalam bentuk :
Fungsi er, t (x) dapat dimodelkan dengan menambahkan output lebih lanjut untuk jaringan
saraf. Pendekatan alternatif untuk menentukan sebuah ketergantungan varian input (Satch-
well, 1994) didasarkan pada hasil (6.46) bahwa pemetaan jaringan yang meminimalkan
jumlah kuadrat error diberikan oleh ekspektasi bersyarat dari data target. Pertama jaringan
yang dilatih dengan cara yang biasa dengan meminimalkan jumlah kotak kesalahan di mana t
% membentuk target. Output dari jaringan ini, ketika disajikan dengan vektor input data
terlatih xn, sesuai dengan rata-rata bersyarat dari data target. Rata-rata ini dikurangkan dari
nilai target dan hasilnya kemudian kuadrat dan digunakan sebagai target untuk jaringan
kedua yang juga dilatih menggunakan sejumlah fungsi kuadrat kesalahan. Output dari
jaringan ini kemudian mewakili rata-rata bersyarat {tk - (tk \ x)} 2dan sehingga mendekati
varians er | (x) yang diberikan oleh (6.55).
Prosedur ini dapat dibenarkan secara langsung sebagai berikut. jika dianggap bahwa fungsi 2
/ jt (x) dan o> (x) fleksibilitas tak terbatas maka pertama-tama meminimalkan E sehubungan
dengan Yk oleh fungsi diferensiasi diberikan
setelah beberapa penataan ulang, memberikan hasil yang standar
Seperti sebelumnya juga meminimalkan E independen terhadap fungsi ok (X) untuk
memberikan :
17
Yang ini mudah dipecahkan untuk a2k (x) untuk memberikan
di mana telah digunakan (6.67). kemudian dapat ditafsirkan (6.69) dalam hal dua
tahappendekatan dua jaringan yang dijelaskan di atas. Teknik ini sederhana dan dapat
menggunakan perangkat lunak jaringan saraf standar. Keterbatasan utama adalah bahwa hal
itu masih mengasumsikan bentuk fungsi Gaussian.
6.3 Input –dependent Variance (Tergantung perbedaan masukan)
Sejauh ini kita telah mengasumsikan bahwa perbedaan dari target data dapat
digambarkan oleh parameter Ø.Didalam banyak aplikasi yang berguna, ini akan menjadi
miskin asumsi, dan kita sekarang membahas model yang lebih umum untuk distribusi target
data .The sum-of-squares kesalahan dengan mudah diperluas untuk memungkinkan setiap
output dijelaskan oleh perbedaan parameter Ø-nya k. Umumnya lagi, kita mungkin ingin
menentukan bagaimana perbedaan data tergantung pada vektor input x (Nix dan Weigend,
1994) .Ini dapat dilakukan dengan mengadopsi gambaran yang lebih umum untuk syarat
distribusi dari target data, dan kemudian menuliskan log negatif-kemungkinan untuk
mendapatkan fungsi, demikian juga kesalahan yang sesuai, kita menulis Distribusi bersyarat
dari target variabel dalam bentuk.
18
Membentuk logaritma negatif dari fungsi probabilitas seperti sebelumnya, dan
menghilangkan konstanta aditif, kita dapat memperoleh :
Jika kita sekarang kalikan dengan 1 / N seperti sebelumnya, dan mengambil data yang tidak
tebatas, kita memperoleh fungsi kesalahan dalam bentuk :
Fungsi Ø k (X) dapat dimodelkan dengan menambahkan output lebih lanjut untuk
jaringan saraf.kita tidak akan mempertimbangkan pendekatan ini lebih lanjut, karena
merupakan kasus khusus dari teknik ini jauh lebih umum untuk memodelkan distribusi
bersyarat secara penuh,yang akan dibahas segera.
Pendekatan alternatif untuk menentukan sebuah varian tergantung pada
masukannya (Satchwell, 1994) didasarkan pada hasil (6.46) bahwa pemetaan jaringan yang
meminimalkan sum-of-square(kuadrat total) error yang diberikan oleh ekspektasi bersyarat
dari target Data .Pertama jaringan dilatih dengan cara yang biasa dengan meminimalkan
sum-of-square(kuadrat total) Kesalahan yang membentuk t kn target .suatu output dari
jaringan ini, ketika disajikan dengan input data latih vektor x pangkat n, sesuai dengan syarat
rata-rata dari target data .rata-rata ini dikurangi dari nilai target dan hasilnya kemudian
dikuadratkan dan digunakan sebagai target untuk jaringan kedua yang juga dilatih
menggunakan sum-of-square(kuadrat total) output error function.jaringan ini merupakan
rata-rata bersyarat {TK-(tk \ x)} 2 dan dengan demikian perkiraan varians Ø 2 k (x) yang
diberikan oleh (6.55).
Prosedur ini dapat dibenarkan secara langsung sebagai follows.Mempertimbangkan
data yang tak terbatas lagi, kami dapat menulis fungsi kesalahan dalam bentuk (6.65) .Jika
kita menganggap bahwa fungsi Yk (x) dan Ø k (x) memiliki fleksibilitas tak terbatas maka
19
pertama-tama kita bisa meminimalkan E sehubungan dengan k oleh diferensiasi fungsional
untuk memberikan :
setelah beberapa perbaikan, memberikan hasil yang standar :
sebelumnya dapat diminimalkan E independen terhadap fungsi Ø k (x) untuk memberikan:
yang mudah dipecahkan untuk Ø pangkat 2 k (x) untuk memberikan:
di mana kita telah menggunakan rumus (6.67) .Kami kemudian menafsirkan (6.69) dalam hal
pendekatan dua-tahap jaringan yang dijelaskan di atas.Layanan teknik sederhana dan dapat
dibuat menggunakan jaringan saraf software standar. keterbatasan utama jaringan syaraf
adalah bahwa hal tersebut masih mengasumsikan bentuk Gaussian untuk fungsi distribusi
(karena memanfaatkan hanya statistik orde kedua dari target data).
6.4 Modelling Conditional Distributions (Pemodelan distribusi bersyarat)
Berhubungan dengan pemodelan distribusi bersyarat dari target data dalam hal distribusi
Gaussian dengan varians parameter global dan mean. Akan tetapi tergantung x, jika data
memiliki struktur yang kompleks, seperti misalnya pada Gambar 6.3, maka pilihan distribusi
tertentu dapat menyebabkan representasi yang sangat miskin dari data. Oleh karena itu kami
mencari kerangka umum untuk pemodelan distribusi probabilitas bersyarat.
20
Gambar 6.6. dapat mewakili massa jenis probabilitas bersyarat umum p (t | x)
dengan mempertimbangkan model parametrik untuk distribusi t yang parameternya
ditentukan oleh output dari jaringan saraf yang mengambil x sebagai input
vektor
Untuk pilihan yang berbeda dari model parametrik, kita memperoleh representasi
yang berbeda untuk contoh kepadatan.Untuk yang bersyarat, model Gaussian tunggal untuk
p (t \ 0) sesuai dengan prosedur yang dijelaskan di atas dalam Bagian 6.3.kemungkinan lain
adalah dengan menggunakan kombinasi linear satu set tetap fungsi kernel.Didalam kasus ini
output dari jaringan mewakili koefisien dalam kombinasi linear (Bishop dan Legleye, 1995),
dan kita harus memastikan bahwa koefisien yang positif sama dengan satu dalam rangka
melestarikan positif dan normalisasi massa jenis.Kami tidak membahas pendekatan ini lebih
lanjut karena merupakan kasus khusus dari teknik yang lebih umum yang kita pelajari
berikutnya.
Sebuah kekuatan, kerangka umum untuk pemodelan distribusi bersyarat,
berdasarkan penggunaan model campuran, diperkenalkan pada Bagian 2.6. Model campuran
merupakan pembagian dari segi kombinasi linear dari fungsi kernel adaptif.Jika kita
menerapkan teknik ini untuk masalah pemodelan distribusi bersyarat yang kita miliki :
21
di mana M adalah jumlah komponen, atau kernel, di campur.parameter α j (x) disebut
pencampuran koefisien, dan dapat dianggap sebagai probabilitas sebelumnya (dikondisikan
pada x) dari t sasaran vektor yang telah dihasilkan dari j yang komponennya dicampur
.Dengan catatan bahwa koefisien pencampuran diambil sebagai fungsi dari input vektor x dan
fungsi Ø j (t \ x) mewakili kepadatan bersyarat dari t sasaran vektor untuk pilihan kernel j
.Various untuk fungsi kernel adalah possible.Seperti dalam Bab 2, bagaimana pun, kita akan
membatasi perhatian fungsi kernel Gaussian dalam bentuk :
dimana vektor µ j (x) merupakan pusat dari kernel j, dengan komponen
µ j k, dan c adalah dimensi dari t. Dalam (6.71) kita telah mengasumsikan bahwa komponen
statistik output vektor independen yang ada di setiap fungsi kernel, dan dapat dijelaskan
oleh varians umum Ø pangkat 2 j (X) .asumsi secara langsung memperkenalkan matriks
kovarians penuh untuk setiap kernel Gaussian, dengan mengorbankan prinsip
formal.Didalam lebih kompleks, namun , komplikasi seperti itu tidak diperlukan, karena
campuran Model Gaussian, dengan kernel yang diberikan oleh (6.71), dapat mendekati fungsi
kepadatan diberikan sewenang-wenang kepada akurasi, asalkan koefisien campuran dan
parameter Gaussian (rata-rata varians pasir) yang benar dipilih (McLachlan dan Basford,
1988). Dengan demikian, representasi yang diberikan oleh (6.70) dan (6.71) benar-benar
general.Didalam hal-hal tertentu, tidak menganggap bahwa komponen t secara statistik
independen, berbeda dengan representasi tunggal Gaussian yang digunakan dalam (6.6) dan
(6.9) untuk menurunkan sum-of-square error
Untuk setiap nilai yang diberikan x, model campuran (6.70) memberikan formalisme
umum untuk pemodelan fungsi densitas bersyarat p (t | x). Sekarang akan diambil berbagai
parameter dari model campuran, yaitu koefisien campuran α j (x ), j berarti µ (x) dan varians
Ø pangkat 2 j (X), diatur oleh output dari jaringan saraf konvensional yang mengambil x
sebagai input .Ini teknik diperkenalkan dalam bentuk campuran (. Jacob setal, 1991) model
22
pakar yang digambarkan dalam Bagian 9.7, dan sejak itu telah dibahas oleh penulis lain
(Bishop, 1994a; Liu, 1994; Neuneieretal, 1994) .
Jaringan saraf pada Gambar 6.6 dapat berupa struktur jaringan standar umpan-maju
dengan kemampuan pendekatan universal. Di sini kita mempertimbangkan lapisan
multiperceptron dengan lapisan tersembunyi tunggal unit sigmoidal dan lapisan output unit
linier. Untuk komponen M dalam model campuran (6.70), jaringan akan memiliki output M
dilambangkan dengan z pangkat α j yang menentukan koefisien pencampuran, output M
dilambangkan dengan z pangkat α j yang menentukan Lebar kernel Ø j, dan keluaran/output
(M x c) dilambangkan oleh z pangkat µ j k yang menentukan komponen µ j k dari pusat
kernel µ j. Jumlah output jaringan diberikan oleh (c + 2) x M, dibandingkan dengan output c
biasa untuk jaringan digunakan dengan sum-of-square(kuadrat total)kesalahan fungsi.
Untuk memastikan bahwa koefisien α j pencampuran (x) dapat diartikan sebagai
probabilitas, mereka harus memenuhi kendala :
Kendala pertama juga memastikan bahwa distribusi dinormalkan dengan benar,sehingga p
terpisahkan (t \ x) dt = 1. Kendala ini dapat dipenuhi dengan memilih α j (x) berkaitan dengan
jaringan output sesuai dengan fungsi Softmax (Bridle,1990;. Jacobs et al, 1991).
Akan ditemukan fungsi Softmax lagi di bagian berikutnya ketika kita
mendiskusikan fungsi kesalahan untuk masalah klasifikasi.
Varians Ø j merupakan parameter skala dan sehingga sangat nyaman untuk mewakili
mereka dalam hal eksponensial dari output jaringan yang sesuai
23
Dalam kerangka Bayesian (Latihan 10,13) ini sesuai dengan pilihan non-informatif
sebelumnya, dengan asumsi output jaringan yang sesuai dengan z pangkat Ø j memiliki
distribusi probabilitas seragam (Jacobs et al, 1991; Nowlan dan Hinton, 1992). Pusat-pusat µ j
merupakan parameter lokasi, dan lagi gagasan non informatif sebelum (Latihan 10.12)
menunjukkan bahwa ini diwakili langsung oleh output jaringan.
Seperti sebelumnya, kita dapat membangun sebuah kesalahan fungsi dari
kemungkinan dengan menggunakan (6.5) untuk memberikan
dengan Ø j (t \ x) yang diberikan oleh (6.71) .suatu minimalisasi fungsi kesalahan dapat
ditolerir untuk parameter jaringan saraf mengarah ke model untuk kepadatan bersyarat dari
target data. Dari fungsi kepadatan ini, setiap statistik yang diinginkan secara prinsip
melibatkan variabel keluaran yang dapat dihitung.
Dalam rangka meminimalkan fungsi error, kita perlu menghitung turunan dari
kesalahan E sehubungan dengan bobot dalam jaringan saraf. Ini dapat dievaluasi dengan
menggunakan prosedur backpropagation standar, asalkan kita mendapatkan ekspresi
derivatif yang cocok dari kesalahan sehubungan dengan output jaringan. Karena fungsi
kesalahan (6.77) terdiri dari sejumlah istilah
E=∑n En adalah satu untuk masing-masing pola, kita dapat mempertimbangkan derivatif δ kn=∂ En/∂αk adalah untuk pola n tertentu dan kemudian menemukan turunan dari E dengan
menjumlahkan semua pola. Perhatikan bahwa, karena unit keluaran jaringan memiliki aktivasi linear fungsi g (a) = a,jumlah δ kn bisa juga ditulis sebagai ∂ En/∂αk dan setara dengan kesalahan yang diperkenalkan dalam diskusi kesalahan back-propagasi dalam Bagian 4.8. Kesalahan pemindaian akan kembali-disebarkan melalui jaringan untuk menemukan hubungan derivatif dengan bobot jaringan.
Telah dikatakan bahwa Ø j dapat dianggap sebagai kepadatan bersyarat fungsi, dengan probabilitas sebelum α j. Seperti dengan model campuran dibahas dalam Bagian 2.6,
24
akan lebih mudah untuk memperkenalkan probabilitas posterior yang sesuai, yang kami peroleh menggunakan teorema Bayes
karena hal ini menyebabkan beberapa penyederhanaan analysis.Note berikutnya yang, dari (6.78), posterior probabilitas jumlah kesatuan
Pertimbangan turunan pertama dari E pangkat n sehubungan dengan output jaringan yang sesuai dengan koefisien campuran α j. Menggunakan (6.77) dan (6.78) kita memperoleh
Kita sekarang mengetahui bahwa, sebagai akibat dari transformasi Softmax (6.74), nilai α k tergantung pada semua output jaringan yang berkontribusi untuk campuran koefisien, dan membedakan (6.74) :
Dari aturan rantai yang dimiliki :
Menggabungkan (6.80), (6.81) dan (6.82) kemudian didapatkan :
di mana kita telah menggunakan (6.79).sesuai dengan nilai derivatif. parameter Ø j kita
menggunakan (6.77) dan (6.78), bersama-sama dengan (6.71), untuk memberikan:
Menggunakan (6.75) dapat dilakukan :
25
Menggabungkan ini, bersama-sama kita kemudian mendapatkan :
Jaringan memiliki tiga fungsi kernel Gaussian, dan menggunakan dua lapisan multilayer
perceptron dengan lima 'tanh' unit sigmoid pada lapisan tersembunyi, dan sembilan output.
Salah satu contoh penerapan teknik ini untuk estimasi kepadatan bersyarat diberikan pada
Gambar 6.7, yang menunjukkan kerapatan kontur bersyarat yang sesuai dengan kumpulan
data yang ditunjukkan pada Gambar 6.3.
Output dari jaringan saraf, dan karenanya parameter dalam campuran
Model, yang selalu terus menerus bernilai fungsi tunggal dari variabel input. Namun, model
ini mampu menghasilkan kerapatan bersyarat yang unimodal untuk
beberapa nilai x dan trimodal untuk nilai-nilai lainnya, seperti pada Gambar 6.7, dengan
modulasi komponen amplitudo campuran, atau prior, α j (x). Hal ini dapat dilihat pada
Gambar 6.8 yang menunjukkan plot dari tiga prior α j (x) sebagai fungsi dari x. Hal ini dapat
dilihat bahwa untuk x = 0,2 dan x = 0,8 hanya satu dari tiga kernel memiliki non-nol
probabilitas sebelumnya. Pada x = 0,5, namun, ketiga kernel memiliki prior signifikan. Setelah
jaringan telah dilatih dan dapat memprediksi fungsi kepadatan target data bersyarat untuk
26
setiap nilai yang diberikan dari vektor input. Kondisi ini density merupakan deskripsi lengkap
tentang generator data, sejauh masalah memprediksi nilai vektor output yang bersangkutan.
Gambar 6.8. Plot dari prior α j (x) sebagai fungsi dari x untuk fungsi tiga kernel dari
jaringan yang digunakan untuk merencanakan Gambar 6.7. Pada kedua nilai kecil dan besar
x, di mana kepadatan probabilitas bersyarat dari data target unimodal, hanya satu dari kernel
memiliki probabilitas yang berbeda sebelumnya secara signifikan dari nol. Pada nilai-nilai
menengah x, di mana kepadatan bersyarat adalah trimodal, tiga kernel memiliki prior
sebanding
di mana kita telah menggunakan (6.70) dan (6.71). Ini sama dengan latihan fungsi hitung
dengan jaringan standar oleh kuadrat terkecil, sehingga jaringan ini dapat mereproduksi
kuadrat-hasil konvensional sebagai kasus khusus. Kami juga dapat mengevaluasi varians dari
fungsi kepadatan tentang rata-rata bersyarat, untuk memberikan :
di mana kita telah menggunakan (6.70), (6.71) dan (6.90). Ini lebih umum daripada yang
sesuai dengan kuadrat-hasil karena varians ini diperbolehkan untuk menjadi fungsi umum x.
Hasil yang sama dapat diperoleh pada saat-saat lain dari distribusi bersyarat.
27
Gambar 6.9. Ini menunjukkan plot (t \ x) terhadap x (kurva padat) dihitung dari
kepadatan bersyarat pada Gambar 6.7 menggunakan (6.90), bersama-sama dengan yang
sesuai dengan plot (t \ x) ± s (kurva putus-putus) (x) diperoleh dengan menggunakan
(6.92).Plot dari mean dan varians, yang diperoleh dari Distribusi bersyarat pada Gambar 6.7,
yang ditunjukkan pada Gambar 6.9.
Karena setiap komponen model campuran dinormalkan,
∫∅ j ( t|x )dt=1 cabang yang paling mungkin dari solusi, dengan asumsi komponen
dipisahkan dengan baik dan memiliki tumpang tindih yang diabaikan, diberikan :
Dalam campuran Model pakar (Jacobs et ai, 1991)hal ini sesuai dengan memilih
output dari salah satu modul jaringan komponen. Nilai yang diperlukan t kemudian diberikan
oleh pusat yang sesuai dengan µ j. Gambar 6.10 menunjukkan cabang yang paling mungkin
dari solusi, sebagai fungsi dari x, untuk jaringan yang sama seperti yang digunakan untuk
merencanakan Gambar 6.7.
28
Sekali lagi, salah satu keterbatasan menggunakan teknik maximum likelihood untuk
menentukan jumlah varians seperti α j, adalah bahwa hal itu bias (Bagian 2.2). Secara khusus,
ia cenderung meremehkan varians di daerah-daerah di mana ada data yang terbatas
Gambar 6.10. Plot dari nilai tengah kernel yang paling mungkin sebagai fungsi
x dari jaringan yang digunakan untuk merencanakan Gambar 6.7. Ini memberikan pemetaan
fungsional terputus dari saya untuk f yang pada setiap nilai x terletak baik di dalam wilayah
kepadatan probabilitas signifikan. Diagram harus dibandingkan dengan pemetaan terus
menerus sesuai pada Gambar 6.3 yang diperoleh dari standar kuadrat terkecil.
6.4.1 Periodic Variables (variabel periodic)
Pendekatan ini berdasarkan campuran fungsi kernel, tetapi dalam kasus ini fungsi
kernel sendiri periodik, sehingga memastikan bahwa fungsi kepadatan keseluruhan akan
periodik. Untuk memotivasi pendekatan ini, mempertimbangkan masalah pemodelan
distribusi vektor kecepatan v dalam dua dimensi. Karena v tinggal di pesawat Euclidean, kita
dapat model fungsi kepadatan p (v) menggunakan campuran kernel Gaussian bola
konvensional, di mana masing-masing kernel memiliki bentuk :
29
mana (vx, vy) adalah komponen Cartesian v, dan (µ x, µ y) adalah komponen dari pusat µ
kernel. Dari sini kita dapat mengekstrak syarat distribusi sudut polar 9 dari vektor v, diberi
nilai t; = || V ||. Hal ini mudah dilakukan dengan Ø transformasi v = v cos Ø, vy = v sin Ø, dan
mendefinisikan Ø 0 menjadi sudut kutub µ,, sehingga µ x = µ cos Ø 0 dan µ y = µ sin Ø 0, di
mana µ = | | µ ||. Hal ini menyebabkan distribusi dapat ditulis dalam bentuk :
di mana koefisien normalisasi telah dinyatakan dalam zerothorder modifikasi fungsi Bessel
jenis pertama, Io (m). Distribusi (6,95) dikenal sebagai normal atau von melingkar distribusi
Mises (Mardia, 1972). Parameter m (yang tergantung pada v di derivasi kami) analog dengan
parameter varians (di-ayat) dalam distribusi normal konvensional. Karena (6,95) adalah
periodik, kita dapat membangun sebuah representasi umum untuk kepadatan bersyarat dari
variabel periodik dengan mempertimbangkan campuran melingkar kernel yang normal,
dengan parameter diatur oleh output dari jaringan saraf. Bobot dalam jaringan dapat lagi
ditemukan dengan memaksimalkan kemungkinan fungsi didefinisikan lebih dari satu set data
pelatihan
Salah satu contoh penerapan teknik ini untuk penentuan
arah angin dari data satelit radar scatterometer diberikan di Bishop dan
Legleye (1995). Ini adalah masalah terbalik di mana data multitarget
dihargai. Untuk masalah yang melibatkan variabel periodik dimana data target
efektif bernilai tunggal sehubungan dengan vektor input, maka kernel melingkar yang normal
tunggal dapat digunakan.
6.5. Estimating posterior probabilities (Memperkirakan probabilitas posterior)
Saat ini kita akan membahas pertimbangan fungsi error untuk masalah klasifikasi dimana
variabel sasaran mewakili kelas diskrit label.
Ketika kita menggunakan neural network untuk memecahkan masalah klasifikasi, ada
dua cara yang berbeda. Pertama, kita dapat mengatur jaringan untuk mewakili diskriminan
30
non-linear fungsi. Kedua yang lebih umum adalah dengan menggunakan jaringan untuk
model probabilitas posterior keanggotaan kelas. Biasanya ada satu unit output untuk setiap
kemungkinan kelas, dan aktivasi setiap unit output yang mewakili posterior sesuai
probabilitas P(Ck|x), di mana Ck adalah kelas kth, dan x adalah vektor input. Probabilitas ini
kemudian dapat digunakan dalam tahap pengambilan keputusan selanjutnya yaitu klasifikasi.
Dengan mengatur output jaringan untuk perkiraan probabilitas posterior , kita dapat
memanfaatkan sejumlah hasil yang tidak tersedia jika jaringan yang digunakan hanya sebagai
diskriminan non - linear ( Richard dan Lippmann , 1991) . ini meliputi :
Minimum kesalahan - tingkat keputusan
Untuk meminimalkan kesalahan klasifikasi, masukan baru vektor seharusnya
diserahkan kepada kelas yang memiliki probabilitas posterior terbesar . Perhatikan
bahwa output jaringan tidak perlu mendekati 0 atau 1 jika fungsi kepadatan tumpang
tindih . Prosedur heuristik , seperti menerapkan tambahan pelatihan menggunakan pola-
pola yang gagal untuk menghasilkan output dekat dengan nilai target , akan menjadi
kontraproduktif , karena ini mengubah distribusi dan membuat kemungkinan kecil
bahwa jaringan akan menghasilkan probabilitas bayesian yang benar.
Output berjumlah 1
Karena perkiraan jaringan output probabilitas posterior mereka harus berjumlah
kesatuan. Rata-rata dari setiap output jaringan melalui semua pola dalam training set
harus mendekati probabilitas yang sesuai dengan kelas sebelumnya.
Perkiraan prior ini dapat dibandingkan dengan perkiraan sampel prior yang diperoleh
dari fraksi pola di setiap kelas dalam set data training. Perbedaan antara dua perkiraan
ini merupakan indikasi bahwa jaringan bukan pemodelan probabilitas posterior akurat
( Richard dan Lippmann , 1991) .
Kompensasi untuk probabilitas prior berbeda
Probabilitas posterior yang diungkapkan melalui Teorema Bayes dalam bentuk
31
dan probabilitas prior P(Ck) dan kepadatan kelas bersyarat P(x | Ck) diperkirakan secara
terpisah. Pendekatan jaringan saraf sebaliknya menyediakan Perkiraan langsung
probabilitas posterior. Kadang-kadang probabilitas prior yang diharapkan dengan yang
sedang digunakan berbeda dari yang diwakili oleh training set. Dengan begitu maka hal
yang mudah untuk menggunakan Teorema Bayes untuk membuat koreksi yang
diperlukan untuk output jaringan.
Hal ini dicapai hanya dengan membagi output jaringan dengan probabilitas prior
sesuai dengan training set, mengalikan mereka dengan probabilitas prior baru, dan
kemudian normalisasi hasilnya.
Probabilitas prior untuk training set dapat diperkirakan hanya dengan mengevaluasi
fraksi training set titik data di masing-masing kelas. Sebagai contoh, pertimbangan
masalah klasifikasi citra medis menjadi 'normal' dan 'tumor'. Ketika digunakan untuk
skrining tujuan, kita akan mengharapkan probabilitas sebelumnya sangat kecil 'Tumor'.
Untuk mendapatkan berbagai gambar tumor yang baik pada training set maka
membutuhkan contoh pelatihan yang banyak. Alternatif untuk meningkatkan artifisial
proporsi gambar tumor dalam training set, dan kemudian untuk mengimbangi prior yang
berbeda pada data uji dapat diperoleh dari statistik medis, tanpa harus mengumpulkan
gambar yang sesuai.
Menggabungkan output dari beberapa jaringan
Daripada menggunakan jaringan tunggal untuk memecahkan masalah yang
lengkap ,sering ada manfaat dalam memecahkan masalah ke dalam bagian-bagian yang
lebih kecil dan memperlakukan setiap bagian dengan jaringan yang terpisah. Dengan
membagi output jaringan dengan probabilitas prior yang digunakan selama pelatihan,
output jaringan menjadi kemungkinan skala oleh kepadatan tanpa syarat dari vektor
input. Likelihood skala ini dapat dikalikan bersama pada asumsi bahwa vektor masukan
untuk berbagai jaringan independen. Karena scaling Faktor independen kelas, classifier
32
berdasarkan produk dari likelihood skala akan memberikan hasil yang sama seperti yang
didasarkan pada likelihood benar. Pendekatan ini telah berhasil diterapkan untuk
masalah pengenalan suara ( Bourlard dan Morgan , 1990; Singer dan Lippmann , 1992).
minimal risiko
Sebagaimana dibahas dalam Bab 1, tujuan dari sistem klasifikasi tidak mungkin
selalu untuk meminimalkan kemungkinan kesalahan klasifikasi. kesalahan klasifikasi
berbeda dapat membawa hukum yang berbeda, dan kita mungkin ingin untuk
meminimalkan kerugian atau resiko secara keseluruhan. Sekali lagi aplikasi skrining
medis memberikan contoh yang baik. Salah mengklasifikasikan gambar tumor menjadi
seperti gambar biasa ini mungkin jauh lebih serius daripada salah mengklasifikasikan
gambar normal yang tumor. Dalam hal ini, posterior probabilitas dari jaringan dapat
dikombinasikan dengan matriks yang sesuai koefisien kerugian untuk memungkinkan
minimum resiko yang akan dibuat.
ambang batas penolakan
Ambang batas penolakan yaitu jika semua probabilitas posterior jatuh di bawah
ambang batas ini maka ada keputusan klasifikasi yang dibuat. Teknik klasifikasi alternatif
bisa kemudian diterapkan pada kasus ditolak. Hal ini mencerminkan biaya yang terkait
dengan membuat keputusan yang salah diimbangi dengan biaya alternatif prosedur
klasifikasi. Pada gambar medis masalah klasifikasi misalnya : mungkin lebih baik tidak
mencoba untuk mengklasifikasikan gambar yang diragukan, tetapi memiliki ahli untuk
memberikan manusia keputusan. Penolakan vektor input dapat dicapai dengan cara yang
berprinsip, asalkan jaringan output merupakan probabilitas posterior keanggotaan kelas.
6.6 Sum-of-squares for classification (Sum-of-squares untuk klasifikasi)
Pada bagian sebelumnya kita menunjukkan bahwa, untuk jaringan dilatih dengan
meminimalkan suatu sum-of-squares kesalahan fungsi, output jaringan mendekati rata-rata
bersyarat dari data target
33
Dalam masalah klasifikasi, setiap vektor input pada training set diberi label oleh
anggota kelasnya, diwakili oleh satu set nilai target t kn. Target tersebut dapat dipilih sesuai
dengan berbagai skema, tetapi yang paling nyaman adalah 1-of-c coding dimana, untuk
vektor masukan xn dari kelas Ci, kita memiliki t kn= δkl dimana fikt adalah simbol Kronecker
delta. Didalam huruf target nilai-nilai yang diketahui secara tepat dan fungsi kepadatan
target ruang menjadi tunggal dan dapat ditulis sebagai
karena P(Cl|x) adalah probabilitas bahwa x milik kelas Cl. Jika sekarang kita mengganti (6.99)
ke dalam (6.98) kita memperoleh
sehingga output dari jaringan sesuai dengan probabilitas posterior Bayesian (White, 1989;
Richard dan Lippmann, 1991).
Jika output jaringan merupakan probabilitas, maka mereka harus berada di rentang
(0,1) dan harus berjumlah 1. Untuk jaringan dengan unit-unit output linier, dilatih dengan
meminimalkan sum-of-squares fungsi kesalahan. Diperlihatkan pada Bagian 6.1.2 bahwa jika
nilai target memenuhi kendala linear, maka output jaringan akan memenuhi kendala yang
sama untuk vektor input yang berubah-ubah. Dalam kasus 1-of-c skema pengkodean, target
nilai sum kesatuan untuk setiap pola dan jaringan output juga akan selalu berjumlah
kesatuan. Namun, tidak ada jaminan bahwa mereka akan terletak di atas kisaran (0,1).
Bahkan, sum-of-squares fungsi kesalahan bukan yang paling tepat untuk masalah klasifikasi.
Namun, ada keuntungan dalam menggunakan sum-of-squares fungi kesalahan, termasuk
fakta bahwa penentuan output bobot dalam jaringan merupakan masalah optimasi linier.
Signifikansi hasil ini untuk jaringan fungsi basis radial digambarkan dalam Bab 5. Oleh karena
34
itu penggunaan sum-of-squares fungsi kesalahan dibahas untuk masalah klasifikasi lebih
detail sebelum mempertimbangkan pilihan alternatif fungsi kesalahan.
Untuk masalah dua kelas, skema 1-of-c coding di atas mengarah pada jaringan
dengan dua unit output, satu untuk masing-masing kelas dan aktivasi yang mewakili
probabilitas yang sesuai dengan keanggotaan kelas. sebuah pendekatan alternatif adalah
dengan menggunakan output y tunggal dan coding sasaran yang menetapkan tn = 1 jika xn
adalah dari kelas Cl dan tn = 0 jika xn dari kelas C2. Dalam hal ini, distribusi nilai target yang
diberikan oleh :
Mengganti ini ke (6.98) memberikan :
dan output jaringan y(x) merupakan probabilitas posterior input vektor x milik kelas C1.
Probabilitas yang sesuai untuk kelas C2 kemudian diberikan oleh P (C2 | x) = 1 - y (x).
6.6.1 Interpretation of hidden units (Interpretasi unit tersembunyi)
Dalam Bagian 6.1.1 menggunakan ekspresi (6.29) untuk bobot akhir-lapisan yang
meminimalkan kesalahan sum-of-squares, untuk jaringan dengan unit-unit output linier.
Dengan mengganti hasil ini kembali ke fungsi kesalahan, kita memperoleh ekspresi
parameter adaptif yang terkait dengan unit-unit tersembunyi, yang kita lambangkan dengan
w. Ungkapan ini menyoroti sifat representasi hidden unit jaringan dan menunjukkan
mengapa multi-layer non-linear jaringan saraf bisa efektif sebagai sistem klasifikasi pola
(Webb dan Lowe, 1990).
Dalam notasi matriks kita memperoleh :
dimana Z, W dan T didefinisikan pada halaman 199. Kita sekarang menggantikan solusi (6.29)
untuk bobot optimal dalam (6.103) untuk memberikan :
35
Dengan menggunakan beberapa manipulasi matriks (Latihan 6.9) kita dapat menulis ini
dalam bentuk :
Berikut ST didapatkan dari :
dan komponen z didefinisikan oleh (6.24). Kami melihat bahwa ini dapat diartikan sebagai
total matriks kovarians untuk aktivasi pada output dari lapisan akhir unit tersembunyi
sehubungan dengan kumpulan data pelatihan. Demikian SB pada (6.105) di dapatkan :
yang dapat diartikan (seperti yang akan kita lihat) sebagai bentuk antara kelas kovarians
matriks.
Pada (6.105) hanya tergantung pada Target data yang independen dari bobot tersisa ~w dalam jaringan. Dengan demikian, meminimalkan sum-of-squares error setara dengan
memaksimalkan Fungsi diskriminan yang didefinisikan sehubungan dengan aktivasi dari final-
layer unit tersembunyi yang diberikan oleh :
Perhatikan bahwa, jika matriks ST adalah ill-conditioned, maka invers matriks ST−1 harus
digantikan oleh pseudo-inverse STϯ . Kriteria (6.108) memiliki kesamaan yang jelas dengan
fungsi diskriminan Fisher yang dibahas dalam Bagian 3.6.
Peran yang dimainkan oleh unit tersembunyi sekarang dapat dinyatakan sebagai berikut.
Bobot di lapisan akhir disesuaikan untuk menghasilkan diskriminasi optimal kelas vektor
masukan melalui transformasi linear. Meminimalkan kesalahan diskriminan linier,
mensyaratkan bahwa data input non-linear sebuah transformasi menjadi ruang yang
direntang oleh aktivasi tersembunyi untuk memaksimalkan fungsi diskriminan yang diberikan
oleh (6.108).
36
Wawasan lebih lanjut ke sifat SB matriks diperoleh dengan mempertimbangkan skema
sasaran coding tertentu. Untuk 1-of-c skema sasaran coding kita bisa menulis (6.107) dalam
bentuk :
dimana Nk adalah jumlah pola di kelas Ck dan zk adalah vektor rata-rata aktivasi unit
tersembunyi untuk semua pola pelatihan di kelas Ck, dan didefinisikan oleh
Perhatikan SB dalam (6.109) berbeda dari konvensional antara kelas kovarians matriks
yang diperkenalkan pada Bagian 3.6 dengan menggunakan faktor N k2 bukan Nk di
penjumlahan kelas atas. Ini merupakan bobot yang kuat dari kriteria ekstraksi fitur
mendukung kelas dengan jumlah yang lebih besar dari pola. Jika ada perbedaan yang
signifikan antara probabilitas sebelumnya untuk pelatihan dan set data uji, maka efek ini
mungkin tidak diinginkan, dan kita akan melihat bagaimana memperbaiki itu dengan
memodifikasi ukuran kesalahan sum-of-squares.
Secara umum, tidak ada cara untuk memutuskan mana yang akan menghasilkan hasil
terbaik. Untuk masalah dua kelas, antara kelas matriks kovarians yang diberikan dalam
(6,109) berbeda dari konvensional satu hanya dengan konstan perkalian, sehingga dalam hal
ini Kriteria jaringan setara dengan ekspresi Fisher asli.
6.6.2 Weight sum-of-squares ( Bobot sum-of-squares)
Kita telah melihat bahwa, untuk jaringan dengan unit-unit output linier, minimalisasi
dari sum-of-squares error pada output jaringan memaksimalkan non-linear tertentu dengan
kriteria ekstraksi fitur
di unit tersembunyi. Untuk skema pengkodean 1-of-c, yang sesuai dengan matriks kovarians
antar kelas, yang diberikan oleh (6.109), berisi koefisien yang tergantung pada Nk, jumlah
37
pola di kelas Ck. representasi hidden unit diperoleh dengan memaksimalkan fungsi
diskriminan ini hanya akan optimal untuk set probabilitas prior tertentu Nk|N. Jika
probabilitas sebelumnya berbeda antara pelatihan dan uji set, maka ekstraksi fitur tidak perlu
optimal.
Kesulitan terkait muncul jika ada biaya yang berbeda antar terkait dengan berbagai
kesalahan klasifikasi, sehingga kerugian matriks perlu dipertimbangkan. Ini telah diusulkan
(Lowe dan Webb, 1990, 1991) bahwa modifikasi bentuk sum-of-squares error untuk
memperhitungkan matriks kerugian.
Untuk menghadapi kemungkinan sebelum berbeda antara set pelatihan dan Uji set, Lowe
dan Webb (1990) memodifikasi sum-of-squares error dengan memperkenalkan kn faktor
bobot untuk setiap pola n sehingga fungsi error menjadi
dimana faktor bobot yang diberikan oleh
untuk pola n di kelas Ck di mana ~P (Ck) adalah probabilitas prior kelas Ck untuk data uji, dan Pk
= Nk|N adalah sesuai (sampel estimasi) probabilitas prior untuk pelatihan Data. Hal ini mudah
untuk menunjukkan (Latihan 6.12) bahwa total kovarians matriks ST kemudian menjadi
yang merupakan estimasi sampel berdasarkan dari total matriks kovarians untuk data dengan
probabilitas prior kelas ~P (Ck). Dalam (6.114) z diberikan oleh
merupakan estimasi-sampel berdasarkan dari nilai z yang akan mengambil Data untuk
memiliki probabilitas prior ~P (Ck). Demikian pula, dengan asumsi 1-of-c skema sasaran coding,
antara kelas matriks kovariansi dimodifikasi menjadi
38
yang merupakan estimasi sampel berdasarkan antara kelas kovarians matriks untuk Data
dengan probabilitas prior ~P (Ck).
Efek dari kerugian matriks yang berubah-ubah dapat diperhitungkan dengan memodifikasi
target skema pengkodean sehingga, untuk n pola yang berlabel sebagai milik kelas C l, vektor
target memiliki komponen t kn = 1 - Llk, dimana Llk merupakan kerugian dalam menentukan
pola dari kelas Cl untuk kelas Ck. Total matriks kovariansi tidak berubah, sedangkan kelas
antara matriks kovarians menjadi (Latihan 6.13)
Dengan mengurangi ekspresi biasa ketika L lk = 1 –δlk. Contoh penerapan teknik ini untuk
masalah dalam prognosis medis diberikan dalam Lowe dan Webb (1990).
6.7. Cross-entropy for two classes (Cross-Entropi untuk dua kelas)
Sasaran skema pengkodean dengan arget 1-of-c, keluaran dari jaringan yang dilatih dengan meminimalkan kemungkinan fungsi jumlah kuadrat error dari posterior probabilities keanggotaan kelas, dikondisikan pada vector input. Namun, jumlah kuadrat error diperoleh dari dasar kemungkinan maksimum dengan mengasumsikan bahwa target data degenerate atau berasal dari fungsi deterministic halus dengan penambahan Gaussian noise (normal noise model). Ini jelas menjadi titik awal untuk menyadari masalah regresi. Untuk masalah klasifikasi, namun target merupakan sebuah variable biner, dan Gauss Noisi model tidak memberikan deskripsi yang baik untuk distribusi mereka. Oleh karena itu dicari pilihan yang lebih tepat untuk masalah fungsi error.
Untuk memulainya, dilibatkan masalah yang hanya melibatkan 2 kelas, dan salah satu pendekatan untuk masalah tersebut yaitu menggunakan jaringan dengan dua unit, satu unit untuk masing-masing kelas. Jenis representasi ini dibahas dalam Bagian 6.9. Di sini hanya membahas pendekatan alternatif dengan anggapan sebuah jaringan dengan sebuah output tunggal. Nilai y merepresentasikan posterior probability P(C1|x) untuk kelas C1. Posteriro probability untuk kelas C2 direpresentasikan dengan P(C2|x) = 1-y. Hal ini dapat dicapai jika memiliki target coding dimana untuk t=1 jika vector input adalah milik class C1 dan t=0 jika
termasuk ke kelas C2. Hal ini dapat diekspresikan kedalam suatu ekspresi tunggal, Sehingga kemungkinan nilai target nya adalah sebagai berikut :
39
kasus khusus dari distribusi binomial disebut sebagai distribusi Bernoulli. Dengan interpretasinya terhadap unit keluaran aktivasi, kemungkinan mengamati kumpulan data pelatihan, mengasumsikan titik data diambil secara independen dari distribusi ini, representasi nilainya digambarkan sebagai berikut :
Dan akan lebih mudah untuk meminimalkan logaritma negatif dari sebuah kemungkinan. Hal ini menyebabkan kesalahan fungsi lintas entropi (cross-entropy error function) dalam bentuk
Maksud dari “entropy” akan dibahas pada 6.10, untuk saat ini akan diperhatikan beberapa sifat dasar dari error function-nya. Diferensial (fungsi turunan) error-function berhubungan dengan yn yang diperoleh :
Minimum Absolut dari error function terjadi ketika :
Persamaan diatas berlaku untuk semua nilai “n”.
Dalam bagian 3.1.3 menunjukkan bahwa jaringan dengan output tunggal direpresentasikan sebagai y = g(a) dimana nilainya ditafsirkan sebagai sebuah kemungkinan, hal ini akan sesuai jika mempertimbangkan aktivasi logistic function sebagai berikut :
Yang memiliki turunan :
40
Penggabungan Antara persamaan dengan 6.121 dan 6.124 memperlihatkan sebuah turunan yang berkaitan dengan a sehingga bentuknya menjadi lebih sederhana seperti :
δ n merupakan “error” kuantitas yang di- back-propogated melalui jaringan mengatur untuk menghitung turunan dari error function yang berhubungan dengan bobot jaringan (Bagian 4.8). Jika diperhatikan pada 6.125 memiliki bentuk yang sama sebagaimana diperoleh untuk sum-of-square (jumlah kuadrat) error function dan unit output linear. Dapat terlihat bahwa terdapat sebuah pasangan alami dari error function dan unit output activation function yang menimbulkan bentuk yang lebih sederhana untuk bentuk derivative( turunan). Penggunaan bentuk logistik dari fungsi aktivasi juga menyebabkan penyederhanaan yang tepat ketika mengevaluasi matriks Hessian (matriks turunan kedua dari fungsi error).
Dari persamaan 6.120 dan 6.122, nilai minimum dari cross-entropy error function dapat dicari dengan :
Skema koding 1-of-C ini menghilang. Namun, error function pada bagian 6.120 tepat digunakan ketika tn adalah variabel kontinyu yang berkisar antara (0,1) merepresentasikan kemungkinan dari vector input xn yang termasuk kedalam kelas C1. Dalam hal ini nilai minimum (pada persamaan 6.126) tidak perlu menghilang dan ini sangat cocok untuk melepas nilai dari original error function yang dimodifikasi menjadi :
Karena (6,126) tidak tergantung pada output jaringan ini tidak mempengaruhi lokasi minimum dan tidak memiliki efek pada pelatihan jaringan. Kesalahan dimodifikasi (6,127) agar selalu memiliki nilai minimum pada 0 dan terlepas dari training set tertentu.
Sebagai contoh sederhana dari penafsiran output jaringan sebagai sebuah kemungkinan, dapat dianggap masalah dua kelas sederhana dengan satu variabel input di mana kepadatan dari kelas-bersyarat diberikan oleh fungsi campuran Gaussian ditunjukkan pada Gambar 6.11. Sebuah perceptron multilayer dengan lima unit tersembunyi memiliki
41
'tanh' fungsi aktivasi, dan satu unit output memiliki fungsi aktivasi sigmoid logistik, dilatih dengan meminimalkan kesalahan lintas entropi menggunakan 100 siklus algoritma BFGS quasi-Newton (Bagian 7.10). Sehingga fungsi pemetaan jaringan ditampilkan, bersama dengan probabilitas posterior yang dihitung dengan menggunakan teorema Bayes.
6.7.1 Fungsi Aktivasi Sigmoid (Sigmoid activation functions)
Dalam Bagian 3.1.3, logistik fungsi aktivasi sigmoid didorong untuk jaringan single layer dengan tujuan untuk memastikan bahwa output jaringan merupakan probabilitas posterior, dengan asumsi bahwa kepadatan kelas-bersyarat dapat didekati dengan distribusi normal. Dengan menerapkan argumen yang sama pada output jaringan dalam kasus jaringan multi-layer.
Gambar 6.11. Plot dari kepadatan kelas-bersyarat digunakan untuk menghasilkan data-set untuk menunjukkan interpretasi dari output jaringan sebagai probabilitas posterior. Sebanyak 2000 titik data dihasilkan dari kepadatan ini, dengan menggunakan probabilitas yang sama dengan sebelumnya.
Dalam hal ini perlu dipertimbangkan distribusi dari output unit tersembunyi, di sini direpresentasikan oleh vector z untuk dua kelas. Pembahasan ini dapat digeneralisasi dengan asumsi bahwa kepadatan kelas-bersyarat ini dijelaskan oleh :
42
yang merupakan anggota dari keluarga eksponensial distribusi (yang mencakup banyak distribusi umum sebagai kasus khusus seperti Gaussian, binomial, Bernoulli, Poisson, dan sebagainya). Parameter ɸ dan θk mengontrol bentuk distribusi. Dalam 6.128 secara implisit diasumsikan bahwa distribusi hanya berbeda pada parameter θk dan tidak pada ɸ. Dengan contoh distribusi 2 Gaussian dengan cara yang berbeda tetapi dengan matriks kovariansi umum.
Dengan menggunakan teorema Bayes, kita dapat menulis probabilitas posterior untuk kelas C1 dalam bentuk :
Yang merupakan fungsi sigmoid logistic, dimana :
Gambar 6.12. merupakan hasil pelatihan data dari multi-layer perceptron yang dihasilkan dari
fungsi kepadatan pada Gambar 6.11. Kurva padat dengan garis tebal menunjukkan output
dari jaringan yang dilatih sebagai fungsi dari input variabel x, sedangkan kurva putus-putus
menunjukkan posterior probability sebenarnya P(C1|x) yang dihitung dari kepadatan kelas-
bersyarat menggunakan teorema bayes.
Dengan menggunakan persamaan 6.128 persamaannya dapat ditulis dalam bentuk :
43
Dimana telah didefinisikan :
Dengan demikian output jaringan ditentukan oleh fungsi aktivasi sigmoid logistik yang
bekerja pada bobot kombinasi linear output dari unit-unit tersembunyi yang mengirimkan
koneksi ke unit output.
Jelas bahwa kita dapat menerapkan argumen di atas dengan aktivasi dari unit tersembunyi
dalam jaringan. Asalkan unit tersebut menggunakan logistik fungsi aktivasi sigmoid, kita
dapat menafsirkan output mereka sebagai hadirnya probabilitas sesuai 'fitur' yang
dikondisikan pada input ke unit.
6.7.2 Property dari cross-entropy
Misal dituliskan output jaringan, untuk pola n tertentu, dalam bentuk
.Kemudia cross-entropy error function-nya dapat dituliskan sebagai berkut :
sehingga fungsi kesalahan tergantung pada kesalahan relatif dari output jaringan. Hal
ini harus dibandingkan dengan fungsi sum-of-square (jumlah kuadrat) error yang tergantung
pada (kuadrat) kesalahan mutlak. Meminimalisasi cross-entropy error function karena
cenderung akan mengakibatkan kesalahan yang relatif sama pada kedua nilai dari target
kecil dan besar. Sebaliknya, sum-of-square error functions cenderung memberikan kesalahan
mutlak yang sama untuk setiap pola, oleh karena itu akan memberikan kesalahan yang relatif
besar untuk nilai output yang kecil. Hal ini menunjukkan bahwa cross-entropy error functions
cenderung lebih baik daripada sum-of-square (jumlah kuadrat) dalam memperkirakan
probabilitas kecil.
44
Untuk target biner, dengan tn=1 untuk sebuah inputan vector xn dari kelas C1 dan tn=0 untuk
inputan vector dari kelas C2 , dan persamaan cross-entropy error functionnya dapat ditulis
dalam bentuk :
Dimana digunakan z ln z 0 untuk z0 . Jika dimisalkan єn nilainya kecil, jadi error
functions nya menjadi :
Dimana logaritmanya diperluas menggunakan ln(1+z) sama dengan sebanding dengan z dan
memperhatikan bahwa y є (0,1) kemudian єn <0 untuk inputan bagi kelas C1 dan єn >0 untuk
inputan bagi kelas C2. Hasil pada persamaan 6.136 merupakan bentuk dari Minkowski-R
error function untuk R=1 yang dibahas sebelumnya. Dibandingkan dengan sum-of-square
error function, fungsi ini memberikan bobot yang lebih kuat untuk error yang lebih kecil.
Fungsi cross-entropy error telah diperoleh dengan syarat bahwa output dari jaringan y
merupakan representasi dari probabilitas input vector x yang termasuk kedalam kelas C1.
Jadi konsistensi dari persyaratan ini dapat dipastikan dengan mempertimbangkan minimal
dari error function untuk kumpulan data besar yang tak berhingga, yang dapat ditulis dalam
bentuk:
Karena fungsi jaringan y(x) tidak tergantung pada nilai target t, maka persamaannya dapat
ditulis sebagai berikut :
45
Dimana sebelumnya, telah ditentukan bahwa prasayarat dari rata-rata bersyarat (conditional
average) dari target data adalah :
Jika diatur turunan fungsional pada persamaan 6.138 terhadap fungsi y(x) = 0 maka dapat
ditentukan bahwa minimal error function terjadi ketika :
Jadi seperti sum-of-square error, output dari jaringannya mendekati rata-rata bersyarat dari
data target untuk vektor masukan yang diberikan. Untuk target skema pengkodeannya telah
dituliskan :
Dengan mensubstitusi persamaan 6.141 kedalam 6.139 ditemukan :
6.8 Multiple independent attributes (Beberapa Atribut Independen)
Dari semua pengklasifikasian masalah yang telah dibahas sejauh ini, telah ditetapkan
vector baru ke salah satu c (c adalah sebuah kelas yang saling terpisah dari yang lain
(eksklusif)). Namun, dalam beberapa aplikasi diharapkan dapat menggunakan jaringan untuk
menentukan probabilitas ada atau tidaknya sejumlah atribut yang tidak perlu saling terpisah
dengan yang lain. Dalam hal ini, jaringan ini memiliki multiple output dan nilai dari output
variabel yk merepresentasikan probabilitas adanya kemunculan atribut kth. Jika atribut
diperlakukan secara independen, maka distribusi dari nilai target akan memuaskan.
46
Dan sekarang dapat digunakan persamaan 6.118 pada masing-masing distribusi bersyarat untuk memberikan :
Jika sekarang dibangun fungsi likelihood (kemungkinan) dan mengambil logaaritma negatif dalam cara yang biasa , maka akan diperoleh error function dalam bentuk :
Dengan pilihan dari error function ini, output dari jaringan masing-masing harus memiliki
fungsi sigmoid logistic dalam bentuk persamaan 6.123. Sekali lagi, untuk variabel target
dalam bentuk biner t kn
error function-nya menghilang pada nilainya minimum. Jika kisaran
probabilitast knadalah Antara (0,1), minimum kesalahannya akan tergantung pada set data
tertentu, sehingga akan lebih nudah melepas nilai minimum untuk memberikan :
Yang selalu memiliki nilai absolut minimum yang berkaitan dengan { ykn } = 0.
6.9 Cross-entropy for multiple classes ( cross-entropy untuk beberapa kelas)
Kita sekarang kembali ke klasifikasi permasalahan konvensional yang melibatkan kelas
yang saling terpisah satu dengan yang lainnya, dan mempertimbangkan bentuk error
function yang akan diambil jika jumlah kelasnya lebih dari dua. Mempertimbangkan jaringan
dengan satu output t kn untuk setiap kelas, dan yang mana target data mempunyai skema
pengkodingan 1-of-C, jadi t kn ¿ δ kl untuk sebuah pola n dari kelas C1. Probabilitas pengamatan
dari set nilai target t kn ¿ δ kl diberikan sebuah vector inputan xn, hanya terjadi jika p(C1|x)=yl.
Nilai distribusi bersyarat untuk pola ini dapat ditulis sebagai :
47
Jika dibentuk fungsi kemungkinan, dan mengambil logaritma negative maka akan didapatkan error function dalam bentuk :
Minimum absolut dari error functions yang berhubungan dengan { ykn } terjadi ketika yk
n = t kn
untuk semua nilai dari n dan k. Minimal dari error function- nya diambil dari nilai :
Untuk skema koding 1-of-c nilai minimumnya adalah 0. Namun, fungsi error pada persamaan 6.148 masih tetap valid, sebagaimana yang terlihat, ketika t k
nadalah sebuah variabel kontinyu yang berkisaran Antara (0,1) merepresentasikan probabilitas inputan xn
termasuk kedalam kelas Ck. Dalam hal ini minimum dari error-function tidak perlu dihilangkan ( karena merupakan representasi entropy dari distribusi variabel target yang akan dibahas selanjutnya). Hal ini akan memudahkan untuk melepas nilai minimumnya, sehingga dapat
diperoleh error function dalam bentuk :
Yang mana persamaan ini merupakan non-negatif, dan akan sama dengan nol jika ykn = t k
n untuk semua nilai k dan n.
Sekarang akan dipertimbangkan fungsi aktivasi yang sesuai yang harus digunakan untuk unit-unit output dari jaringan. Jika nilai-nilai output yang diinterpretasikan sebagai probabilitas, maka nilai-nilai tersebut kisarannya harus terletak Antara (0,1), dan harus berjumlah kesatuan. Hal ini dapat dicapai dengan menggunakan generalisasi dari sigmoid logistic fungsi aktivasi yang berbentuk :
48
Yang mana persamaan tersebut dikenal sebagai normalisasi eksponensial, atau fungsi aktivasi softmax (Bridle,1990). Istilah softmax digunakan karena merupakan versi yang lebih halus dari model fungsi winner-takes-all dimana unit dengan input terbesar memiliki output +1 sementara semua unit yang lain memiliki keluaran 0. Jika eksponensial pada persamaan 6.151 dimodifikasi menjadi bentuk expβαk, kemudian aktivasi winner-takes-all direcover dalam batasan β→∞. Fungsi aktivasi Softmax dapat dianggap sebagai generalisasi dari fungsi logistik, karena dapat ditulis dalam bentuk :
Dimana nilai Ak diperoleh dari :
Sama seperti logistic sigmoid, dapat diberikan dorongan umum untuk softmax aktivasi dengan mempertimbangkan probabilitas posterior bahwa z unit tersembunyi termasuk kedalam kelas C k, di mana kepadatan kelas-bersyarat diasumsikan milik keluarga dari distribusi eksponensial dalam bentuk umum :
Dari teorema Bayes , probabilitas posterior kelas C k ditulis dalam bentuk :
Mensubstitusi persamaan 6.154 kedalam persamaan 6.155 sehingga diperoleh :
Sehingga dapat didefinisikan bahwa :
49
Hasil dari persamaan 6,156 merupakan lapisan akhir dari jaringan dengan fungsi aktivasi Softmax, dan menunjukkan bahwa output dapat diartikan sebagai probabilitas keanggotaan kelas, dikondisikan pada output dari unit tersembunyi.
Dalam mengevaluasi turunan dari fungsi kesalahan Softmax, perlu mempertimbangkan masukan untuk semua unit output, jadi : (untuk pola n)
Dari persamaan 6.151 harus :
Sedangkan dari persamaan 6.150 terdapat persamaan :
Substitusi persamaan 6.161 dan 6.162 kedalam persamaan 6.160, sehingga ditemukan
persamaan :
Ini merupakan hasil yang sama yang ditemukan pada kedua sum-of-square error (dengan fungsi aktivasi linear) dan two-class entropy-error (dengan fungsi aktivasi logistik). Sekali lagi, dapat ditemukan bahwa terdapat pasangan alami dari error function dan fungsi aktivasi.
6.10 Entropi
50
Konsep entropi sebenarnya di kembangkan oleh para ahli fisika dalam konteks
keseimbangan dari termodinamika dan dikembangkan kembali melalui mekanik statistik.
Teori ini sudah diperkenalkan kedalam teori informasi oleh Shannon (1948). Disini kita
memahami dua fungsi yang berbeda yaitu p(x) untuk salah satu variable x. hal ini sama
dengan masa jenis sebagai histogram yang dimana x-axis telah terbagi dalam konsep yang di
tentukan oleh bilangan bulat i. pikirkan sebuah histogram dengan menempatkan total N
kesamaan distrik objek kedalam bin, sehingga bin yang mengandung objek Ni,. Karena ada N
cara menentukan objek yang pertama, (N-1) cara menentukan objek yang kedua, dan
seterusnya, itulah total dari N begitulah cara menentukan Objek N. Penyusunan ulang
angkanya dalam menghitung jumlah objek berbeda, dikenal sebagai multiplisiti, yang
ditentukan melalui rumus :
Entropi ditentukan sebagai (konstanta) logaritma negativ dari multiplisiti sehingga.
Kita sudah menemukan limit N – yang memberikan hasil
Pada gambar 6.13 pada sempel dua gaussian fungsi dengan varians parameter a =
0,4 dan = 0,08, masing-masing berisi 1000 poin dan distribusi yang memiliki entropi rendah
dimana pi = Ni / N (N -> oo) dan merupakan probabilitas yang sesuai dengan nilai yang
terkecil sehingga pi = 1 / M dimana M adalah jumlah total bin Jika adalah lebar setiap bin,
51
maka massa probabilitas di bin , sehingga entropi bisa
ditulis dalam bentuk
Telah digunakan fungsi ∫p(x)dx=1 dimana fungsi tersebut menyimpang dalam batas M→∞
Dalam tujuan untuk menentukan ukuran entropi yang bermakna, karena tidak tergantung
dari p (x),dan hanya menggunakan istilah pertama di sisi kanan (6,168), yang disebut entropi
diferensial. Untuk distribusi yang merupakan fungsi dari beberapa variabel, kita
mendefinisikan entropi untuk menjadi
diamana x=(x1 , ...xd)T Untuk kasus tunggal x variabel pada sumbu tak terbatas (∞,∞)
kita memaksimalkan :
bahwa kendala distribusi menjadi normal dan bahwa mean dan varians distribusi merupakan
nilai yang ditetapkan :
Memperkenalkan Lagrange λ1,λ2❑dan λ3 (Lampiran C) untuk masing-masing
kendala, dapat kita menggunakan kalkulus variasi (Lampiran D) untuk memaksimalkan fungsi
Yang mengarah ke persamaan :
Akhirnya memberikan ekspresi untuk memaksimalkan distribusi tersebut dalam bentuk
52
Jadi Gaussian melihat bahwa distribusi memiliki entropi maksimum, untuk diberikan
mean dan varian, jumlah informasi, atau ekuivalen 'tingkat kejutan', yang diperoleh ketika
kita belajar bahwa peristiwa tertentu telah terjadi. Kami berharap bahwa informasi akan
tergantung pada p probabilitas, karena jika p = 1. Oleh karena itu kita mencari ukuran
informasi s (p) yang terus menerus, secara monoton meningkatkan fungsi p dan yang
sedemikian rupa sehingga s (l) = 0 Sebuah ekspresi yang tepat dapat diperoleh sebagai
berikut. Pertimbangkan dua independen peristiwa A dan B, dengan probabilitas PA dan ps •
Jika kita tahu bahwa kedua peristiwa terjadi kemudian informasi S(PA PB) jika informasi A
telah terjadi, maka informasi residual B harus terjadi S(PA PB) – S(PA) maka harus sama S
(PB) karena pengetahuan bahwa A telah terjadi seharusnya tidak mempengaruhi informasi
yang dihasilkan dari pembelajaran yang terjadi B. Hal ini menyebabkan kondisi berikut :
Bahwa dapat disimpulkan S(P2)=2S (p) dan dengan induksi S(pN)=N s(p) untuk integer N.
Demikian pula, S(P)=S([ p1/N ]N)=N s( p¿¿1/N )¿ dan dengan perpanjangan
S(pM /N)=(M/N)S(P) Ini berarti bahwa S(PX)=XS(P) untuk x rasional dan karenanya, dengan
kontinuitas, untuk real x. Jika Z= - log2p dan P = (1/2)Z
Maka persamaan :
Hal ini konvensional untuk memilih s (l / 2) = 1. Kita melihat bahwa jumlah informasi
sebanding dengan logaritma dari probabilitas. Ini timbul pada dasarnya karena cara
independen, probabilitas dan perkalian. variabel acak yang yang dapat mengambil nilai
α kP (α k) Jika pengirim ingin mengirimkan nilai ke penerima, maka jumlah informasi (dalam
bit) ini adalah – lnp(α k) jika variabel mengambil Nilai demikian α k diharapkan (rata-rata)
informasi yang diperlukan untuk mengirimkan nilai yang diberikan oleh persamaan :
53
yang merupakan entropi dari variabel acak α. Dengan demikian S(α) sebagai jumlah rata-rata
dari informasi yang diterima ketika nilai yang diamati. Rata-rata pesan biner diperlukan
untuk mengirimkan nilai dari entropi α.Hal ini dikenal sebagai coding teorema (Shannon,
1948, Viterbi dan Omura, 1979). Kembali ke kasus variabel kontinu, dilambangkan dengan
vektor x, Jika kita menyandikan nilai x untuk transmisi ke penerima, maka kita harus (secara
implisit maupun eksplisit) memilih q distribusi (x) untuk membangun coding. Informasi
diperlukan untuk mengkodekan nilai x dalam distribusi ini hanya – ln g(x).Jika
variabel x diambil dari p distribusi yang benar (x) maka informasi rata-rata
diperlukan untuk mengkodekan x diberikan oleh
Yang merupakan cross-entropyantara distribusi q (x) dan p (x). Perbandingan dengan
(2.68) menunjukkan bahwa sama dengan negatif log kemungkinan di bawah model q
distribusi (x) saat distribusi yang benar adalah p (x). ). Hal ini juga sama dengan jumlah dari
jarak Kullback-Leibler antara p (x) dan q (x), yang diberikan oleh (2.70), dan sejak Dalam
entropi p (x) maka
Dari semua distribusi kemungkinan q (x), pilihan yang memberikan informasi rata-rata
terkecil, yaitu nilai terkecil untuk crossentropy tersebut, adalah distribusi p benar (x) Karena
entropi p (x) independen dari q distribusi (x), kita lihat dari (6,182) yang meminimalkan silang
entropi setara dengan meminimalkan jarak Kullback-Leibler. Untuk variabel yang yang
mengambil seperangkat nilai diskrit a kita dapat menulis (6,181) di Bentuk
Pertimbangkan pertama jaringan dengan output yk (X) mewakili model probabilitas
untuk x milik kelas C k yang sesuai menganggap bahwa kami juga memiliki satu set variabel
target t k mewakili probabilitas. Kemudian ditarik secara independen dari distribusi umum,
informasi tersebut aditif dan karenanya total crossentropy menjadi
54
Untuk satu set titik data N yang dianggap ditarik secara independen dari distribusi
umum, informasi tersebut aditif dan karenanya total crossentropy diberikan oleh
persamaan :
yang dapat digunakan sebagai fungsi kesalahan untuk pelatihan jaringan.
Dilihat dari bentuk fungsi error berlaku tidak hanya ketika target t kn memiliki satu-of-c
coding tetapi juga ketika mereka di kisaran 0≤t kn≤1untukkendala untuk kendala
sesuai dengan probabilitas keanggotaan kelas. Untuk dua kelas, kita dapat
mempertimbangkan jaringan dengan output y yang mewakili probabilitas model untuk
keanggotaan kelas C1 dengan sesuai t probabilitas. Model probabilitas untuk keanggotaan
kelas C2 dan 1 - y, dan probabilitas yang sesuai adalah 1 - t. Mengikuti garis yang sama
argument seperti di atas kita kemudian tiba di fungsi error cross-entropy untuk dua kelas dan
N titik data dalam bentuk :
6.11 General conditions for outputs to be probabilities
Sejauh ini, kami telah mempertimbangkan tiga langkah kesalahan yang berbeda (sum-
of-squares, cross-entropy untuk satu output, dan cross-entropyuntuk jaringan Softmax) yang
semuanya memungkinkan output jaringan yang akan ditafsirkan sebagai probabilitas. Oleh
karena itu ukuran kesalahan harus memenuhi agar jaringan output memiliki properti ini.
Diskusi yang diberikan di sini didasarkan pada bahwa Hampshire dan Pearlmutter (1990).
Semua langkah-langkah error yang kami sedang mempertimbangkan mengambil bentuk
penjumlahan kesalahan untuk setiap pola E=∑n En error menjadi jumlah atas istilah untuk
setiap unit output yang terpisah. Hal ini terkait asumsi bahwa distribusi variabel target yang
berbeda statistik secara independen. Jadi kita menulis persamaan :
55
di mana f merupakan beberapa fungsi yang akan ditentukan selanjutnya. Kita juga akan
mengasumsikan hanya bergantung pada besarnya perbedaan antara yk dan t k jadi
f ( ykn , tkn)=f (|ykn−t kn|) menjadi batas dari kumpulan data tak terbatas, kita dapat menulis Rata-
rata per-pola kesalahan dalam benntuk
Jika kita menggunakan skema target 1-of-c coding, maka dari (6.99) kita dapat menulis syarat
distribusi variabel target dalam bentuk
Sekarang akan diganti (6,189) ke (6,188) dan dievaluasi fungsi integral atas t k yang dimana
variabel (hanya melibatkan integral dari 6-fungsi) untuk memberikan :
di mana kita telah menggunakan ∑kP (C k|x )=1dan diasumsikan bahwa 0≤ yk≤1 sehingga
tanda-tanda modulus dapat dihilangkan. Kondisi yang rata-rata per-pola memiliki kesalahan
dalam gambar (6,190) minimal hubungan dengan yk (X) diberikan dengan menetapkan
turunan fungsional (E) (Lampiran D) ke nol oleh persamaan :
Yang mana diberikan persamaan :
Jika output dari jaringan digunakan untuk mewakili probabilitas, sehingga fungsi
yk (x ) =P(C k∨x) harus memenuhi kondisi:
56
Sebuah kelas fungsi yang memenuhi kondisi ini diberikan persamaan :
Untuk r = 1 kita memperoleh yang memberikan sum-of-squares fungsi kesalahan.
Demikian pula, untuk r = 0 kita memperoleh f(y) = - ln(1-y)= - ln(1-|y|) yang menimbulkan
untuk fungsi kesalahan cross-entropi. Untuk melihat ini, pertimbangkan satu output dan
catatan bahwa f(y,t)= - ln(1-|y-t|)= - ln(y)if t = 1 dan f(y,t)= - ln(1-|y-t|)= - ln(1-y) jika t=0
dimasukkan kedalam sebuah ekspresi tunggal sehingga membentuk :
Menjumlahkan semua output, seperti dalam persamaan 6.187, kemudian semua
pola memberikan cross-entropy error untuk beberapa atribut independen dalam bentuk
persamaan 6.145.
Sebagai contoh dari error function yang tidak memuaskan pada persamaan
(6.193), mempertimbangkan pengukuran Minkowski-R error, yang diberikan pada f (y) -y R.
Mensubstitusi fungsi tersebut ke (6,193) sehingga memberikan :
yang hanya bisa dilakukan jika R = 2, sesuai dengan persamaan sum-of-squares error.
Untuk R ≠ 2, output dari jaringan tidak sesuai dengan probabilitas posterior, ini
merupakan fungsi diskriminan non-linear, sehingga diperoleh kemungkinan minimum
klasifikasi yang tidak sesuai dengan menetapkan pola untuk kelas yang output jaringannya
terbesar. Untuk melihat pengganti f (y) - y R ke kondisi (6,192) dengan output jaringan
minimum dari fungsi kesalahan, diberikan persamaan :
Dapat dilihat bahwa yk hanya mewakili probabilitas posterior ketika R = 2, sesuai
dengan sum-of-squares error. Namun, penetapan batasan-batasan rate-discriminant yang
sesuai untuk minimum kesalahan klasifikasi untuk semua nilai karena yk adalah fungsi
monoton dari probabilitas posterior P (C k | x).
57
58
Top Related