Download - Pengenalan Pola - Tugas Kelompok - Gabung

6ERROR FUNCTION

(Fungsi Error)

Gambaran Umum

Sebagai pengingat pada bab sebelumnya - Tujuan utama dalam training network

adalah tidak menghafal data training, tetapi untuk melakukan generasi data dasar. Sehingga

memungkinkan kita untuk memprediksi data terbaik untuk untuk output vektor t - dan nilai

tersebut akan dilatuh selanjutnya untuk nilai baru sebagai input vektor x.

Deskripsi paling umum untuk generator data adalah kepadatan data dengan

probabilitas p (x,t)

Untuk masalah prediksi asosiatif dari jenis yang kita pertimbangkan - Dapat

menguraikan kepadatan probabilitas gabungan hasil dari :

- Kerapatan bersyarat dari data target

- Input data

- Kepadatan tanpa syarat input data , sehingga :

Dimana p(x , t)adalah menunjukkan kepadatan probabilitas t - x mengambil nilai

tertentu. Sedangkan p(x ) mewakili kepadatan tanpa syarat x dan nilai p(x )adalah nilai dari

Pada fungsi error , nilai p(t∨x )digunakan untuk membuat prediksi t untuk nilai –

nilai baru x :

1

Dimana kita asumsikan nilai () diambil secara independen dari distribusi atau sumber

yang sama, karena hal tersebut kita dapat mengalikan dengan probabilitas. Hal tersebut juga

dapat memaksimalkan kemungkinan.

Dimana E adalah fungsi error. Dengan E sebagai error kita dapat meneruskan hal

tersebut sebagai kerangka kerja untuk pemodelan kepadatan probabilitas bersyarat p (t|x ) .

Pada persamaan 6.4 sebenarnya tidak bergantung pada parameter jaringan, parameter

jaringan adalah persamaan konstanta aditif yang dapat dihilangkan dari fungsi error.

Sehingga kita memiliki persamaan :

Sebagai catatan , fungsi error mengambil total di atas kesalahan hasil untuk masing –

masing pola secara terpisah.

6.1 Sum-of-squares error

Contoh variable tk dimana k = 1,…..,c dan c adalah sebagai bahan pertimbangan

batas. Dengan c tersebut dimisalkan sebagai distribusi variable target yang berbeda secara

independen – sehingga kita bisa mendapatkan persamaan

Kita akan mengasumsikan bahwa distribusi target adalah dilakukan dengan cara

perhitungan Gaussian. Lebih secara detail kita asumsikan variable t k diberikan nilai dari

2

beberapa deterministic fungsi dari x dengan menambahkan nilai Gaussian Noise e – sehingga

nilai t kadalah

Sekarang kita asumsikan error e adalah normal distribusi dengan maksud kosong dan

standard deviasi rho dimana standar penyimpangan tidak bergantung pada x atau apapun

itu. Dengan demikian kita mendapatkan nilai untuk ek adalah

Sekarang kita berusaha untuk menghubungkan fungsi hk (x)dengan jaringan syaraf

dengan output yk(x;w) dimana w adalah bobot untuk parameter yang mengatur pemetaan

jaringan syaraf. Dengan menggunakan persamaan 6.7 dan 6.8 kita dapat melihat distirbusi

probabilitas diberikan oleh nilai berikut :

Di mana kita telah mengganti nilai fungsi tidak diketahui oleh hk (x)dari model

yk ( x ; w )Secara bersamaan pada persamaan 6.6 dan 6.5 menjadi awal untuk expressi yang

diikuti fungsi error sebagai berikut :

Untuk mengurangi penggunaan untuk meminimalkan error , aturan kedua dan ketiga

dari persamaan 6.10 perlu diingat adalah persamaan sendiri dari nilai w dan bisa dihilangkan.

Untuk aturan pertama pada bagian pecahan juga dapat dihilangkan. Dan nilai akhir dai sum-

of-squares fungsi error adalah sebagai berikut :

3

Akan tetapi untuk jaringan pengujian akan lebih mudah menggunakan root-mean-

square (RMS) dengan persamaan sebagai berikut :

Dimana nilai t dapat dicari dengan cara :

6.1.1 Linear Output Units (Linear Output Unit)

Fungsi pemetaan pada multi-layer perceptron atau jaringan fungsi basis radial dapat

ditulis dengan persamaan :

Dimana g adalah fungsi untuk aktivasi untuk unit output , wkj adalah sebagai nilai

yang terhubung langsung dengan output unit , dan w adalah nilai dari sum-of-squares (6.11)

dengan focus terhadap nilai ak yang dapat ditulis sebagai :

Jika kita memilih untuk melakukan fungsi aktivasi pada unit output , maka harus

dibuat linear dimana g (a )=a, dan dapat ditulis dalam bentuk :

Dan untuk pada pembahasan jaringan pemetaan dapat dituliskan dengan

persamaan :

4

Dengan meminimalisasikan sum-of-squares error pada persamaan 6.11 dengan

mengutamakan effect bias , kita dapat menggunakana persamaan :

Dan untuk mendapatkan nilai w k 0 dapat menggunakan cara :

Sehingga diperoleh cara untuk mencari nilai rata – rata kuantitas :

Pada hasil 6.23 kita medapatkan bahwa peran bias adalah untuk menggantika

perbedaan antara nilai rata- rata dari nilai target dan jumlah dari rata – rata output. Jika kita

ganti kembali expresi 6.23 ke dalam sum-of-squares error kita mendapatkan persamaan :

Dimana beberapa nilai dapat dicari dengan cara :

Sekarang kita dapat meminimalisir error dengan menggunakan nilai bobot dari wkj

untuk dimasukkan ke persamaan :

5

Dari persamaan 6.27 kita dapat mendapatkan persamaan notasi matriks

Dimana ZT adalah notasi untuk transpose dari matriks Z❑Kita dapat menulis nilai

solusi matriks tersebut secara eksplisit dengan persamaan

Dimana nilai Z transpose adalah :

6.1.2 Linear sum-rules

Dengan menggunakan fungsi error sum-of-squares untuk menentukan nilai pada

jaringan dengan unit – unit output linear dapat menggunakan aturan penjumlahan untuk

output jaringan tersebut (Lowe dan Web , 1991 ). Misalkan pola yang digunakan untuk

melatih jaringan memenuhi suatu untuk melatih tingkat nilai dari suatu nilai relasi jaringan ,

maka untuk setiap pola n dapat menggunakan persamaan :

Dimana u dan u0 adalah nilai konstanta. Dan sekarang , jika nilai layer telah diberikan

nilai determinan maka nilai output dari suatu pola harus sesuai dengan nilai input suatu pola.

Sehingga mendapatkan nilai persamaan sebagai berikut :

Nilai output tersebut diberikan nilai dari persamaan 6.21 yang dapat ditulis dengan

notasi vector melalui persamaan sebagai berikut :

6

Sehingga nilai optimal untuk nilai bias yang diberikan pada persamaan 6.23 dapat

ditulis dengan persamaan

Sekarang nilai konsisten pada nilai scalar pada nilai y dan vector , untuk sebuah pola

input. Untuk mengoptimalkan nilai dapat menggunakan nilai dari persamaan 6.29 , 6.33 dan

6.34 sehingga kita mendapatkan sebuah persamaan yaitu :

Dan menggunakan aturan matriks transpose kita dapat mendapatkan persamaan sebagai

berikut :

Dan pada sebelumnya kita menggunakan persmaan linear pada 6.32. Menggabungkan nilai

6.35 dan 6.36 kita mendapatkan suatu persamaan yaitu :

6.1.3 Interpretation of Network Outputs (Interpretasi Dari Output Networks)

Sekarang menafsirkan atau menterjemahkan output dari jaringan yang dilatih dengan

meminimalkan nilai fungsi error. Secara khusus , output perkiraan rata- rata bersyarat dari

data yang diinginkan. Secara tidak langsung ini menghasilkan nilai untuk aplikasi jaringan

syaraf.

Dengan melihat nilai ukuran dari N dan kumpulan data training. Ukuran tersebut

adalah nilai batas untuk pola dalam nilai sum-squares-error dengan integral dalam bentuk

persamaan sebagai berikut :

7

Sekarang mendapatkan hasil dari factor 1N

yang merupakan bagian dari sum-of-squares error

sebagai batas limit. Dapat menggunakan persamaan sebagai berikut :

Kemudian mensubstitusikan nilai 6.44 kedalam 6.40 dan membuat nilai dari 6.41 dan

6.42. Nilai sum-of-squares error dapat ditulis sebagai berikut :

Karena integral pertama pada persamaan 6.45 adalah non negative , minimum

absolut fungsi bisa dihilangkan sesuai dengan jaringan network pada persamaan sebagai

berikut :

8

Gambar 6.1

Dimana w ¿adalah nilai vector minimal dari fungsi error. Persamaan 6.46 adalah

contoh bahwa network mapping diberikan oleh nilai syarat rata – rata dari nilai yang akan

dicari , dengan kata lain dengan regresi nilai TFC dikondisikan. Hasil tersebut dapat

digambarkan oleh gambar 6.1 dan contoh sederhana 6.2

Gambar 6.2

Pada gambar 6.2 terlihat pemetaan jaringan dimana nilai rata – rata dari target adalah

diambil dari nilai t=x+0.3 sin (2 phi x )+¿ e¿ dimana e adalah random dari distribusi nilai (-

0.1 , 0.1). Bentuk solid pada gambar diambil dari nilai multi-layer perceptron network dengan

nilai sum-of-squares-error yang memberikan nilai representasi yang bagus.

Kita dapat mudah melihat nilai minimum sum-of-squares error telah diberikan dari

nilai rata – rata dari nilai target seperti pada persamaan berikut :

9

Dimana a dan b adalah nilai constant. Differensiasi dari E(y) dapat dilihat dari nilai minimum y

pada persamaan berikut :

6.1.4 Outer Product Approximasi dari Hessian (Pendekatan Produk Luar Untuk Hessian)

Dengan menggunakan fungsi error pada persamaan 6.45. Kita dapat mengambil

hubungan antara wr dan ws maka kita memperoleh persamaan :

Dengan menggunakan hasil dari nilai 6.46 bahwa output yk xdari jaringan dilatih

mewakili data dengan menggunakan syarat rata – rata data, pada persamaan 6.56 hal

tersebut dapat dihilangkan. Untuk satu set data yang terbatas , kita dapat menulis hal dalam

bentuk persamaan :

6.1.4 Pendekatan Produk Luar Untuk Hessian

10

Pada pembahasan sebelumnya telah dibahas pendekatan matrik hessian yang merupakan matrix turunan kedua dari fungsi error pada bobot jaringan. Yaitu jumlah kuadrat pada fungsi error. Pendekatan ini didasarkan pada jumlah hasil pada turunan pertama. Di sini ditunjukkan pendekatan yang tepat untuk data yang tidak terbatas, asalkan fungsi yang digunakan adalah fungsi error minimal. Dengan Mempertimbangkan fungsi kesalahan pada (6.45). Ambil turunan kedua dengan dua bobot, sehingga diperoleh wr dan ws.

Gunakan hasil dari (6.46). bahwa hasil dari jaringan terlatih merepresentasikan rata-rata bersyarat dari target data. Dapat dilihat bahwa istilah ke dua pada 6.56 hilang. Karena itu istilah hessian diberikan oleh hasil integral yang meliputi hasil turunan pertama. Untuk satu set data yang terbatas, dapat ditulis hasil ini dalam bentuk.

6.1.5. Inverse Problems (Masalah Invers)

Fakta bahwa solusi kuadrat yang mendekati rata-rata bersyarat dari target data

memiliki konsekuensi yang penting ketika jaringan saraf yang digunakan untuk memecahkan

masalah terbalik. Banyak aplikasi potensial jaringan saraf gagal dalam kategori ini. Contohnya

termasuk analisis data spektral, rekonstruksi tomografi, kontrol tanaman industri, dan

kinematika robot. Untuk masalah tersebut ke depannya terdefinisi dengan baik yang ditandai

dengan fungsional (yaitu bernilai tunggal) pemetaan. Dalam kasus rekonstruksi spektral,

misalnya masalah ke depan sesuai dengan evaluasi spektrum ketika parameter (lokasi, lebar

dan amplitudo) yang diresepkan dari garis spektrum. Dalam aplikasi praktis pada umumnya

harus memecahkan masalah inversi yang sesuai, di mana peran variabel input dan output

dipertukarkan. Dalam kasus analisa spektral, sesuai dengan penentuan garis spektral dari

spektrum yang diamati. Dari persoalan invers, parameter pemetaan menghasilkan banyak

11

nilai, ada beberapa nilai-nilai input yang sesuai dengan hasil output. Sebagai contoh,

kemungkinan terdapat beberapa pilihan untuk parameter garis spektral yang menimbulkan

spektrum yang sama saat diamati. Jika pendekatan persegi diterapkan untuk masalah yang

berbeda, itu akan mendekati rata-rata bersyarat target data, dan ini sering kali akan

mengakibatkan kinerja sangat lemah (karena rata-rata beberapa solusi belum tentu solusi

sendiri). Sebuah ilustrasi sederhana dari masalah ini, dengan mempertimbangkan kumpulan

data yang ditunjukkan sebelumnya pada gambar 6.2 di mana dilihat bagaimana jaringan

yang mendekati rata-rata bersyarat dari target data memberikan representasi yang baik dari

generator yang mendasari data. misalkan sekarang dibalikkan peran masukan dan sasaran.

Variabel.

Gambar 6.3 menunjukkan hasil pelatihan jaringan dari jenis yang sama seperti

sebelumnya pada suatu data yang sama, tetapi variabel input dan output dipertukarkan.

Jaringan mencoba lagi untuk mendekati rata-rata bersyarat dari target data, tapi kali ini rata-

rata bersyarat memberikan deskripsi yang tidak baik sebagi pembangkit data. Masalahnya

dapat ditelusuri dengan nilai-nilai menengah x angka (6.3) di mana data target memiliki

banyak nilai. Prediksi yang dibuat oleh jaringan latih di daerah ini bisa sangat tidak baik.

Masalahnya tidak dapat diselesaikan dengan memodifikasi arsitektur jaringan atau pelatihan

algoritma, karena merupakan konsekuensi mendasar dari pengunannn jumlah fungsi error

persegi. Untuk masalah yang melibatkan banyak input dan output variabel dimana visualisasi

data tidak langsung, itu bisa sangat sulit untuk memastikan apakah ada ruang daerah

masukan target data dengan banyak nilai. Salah satu pendekatan untuk masalah tersebut

adalah pergi ke luar deskripsi Gaussian distribusi target akan dibahas dalam bagian 6.4

12

Gambar 6.3 Ilustrasi masalah yang bisa timbul ketika pendekatan kuadrat terkecil

diterapkan untuk masalah terbalik. Hal ini menunjukkan data yang sama ditetapkan seperti

pada gambar 6.2 tetapi dengan peran variabel input dan output yang tertukar . Kurva padat

menunjukkan hasil pelatihan jaringan saraf yang sama seperti pada gambar 6.2 digunakan

lagi sebagai jumlah kesalahan persegi. Kali ini jaringan memberikan data kecocokan tidak

baik, karena di coba lagi dengan rata-rata bersyarat dari nilai target.

6.2. Minkowski Error

Pada jumlah fungsi kuadrat error kemungkinan maksimum pada distribusi Gaussian

untuk data sasaran. Dapat diperoleh lebih banyak fungsi kesalahan umum dengan

mempertimbangkan generalisasi dari Distribusi Gaussian dalam bentuk:

Dimana adalah fungsi gamma (didefinisikan pada halaman 28), parameter mengontrol

varians dari distribusi, dan pra-faktor dalam (6.58) memastikan bahwa Untuk

kasus R = 2 distribusi ini untuk mengurangi Gaussian. Jika dianggap bahwa log kemungkinan

negatif dari kumpulan data, yang diberikan oleh (6,5) dan (6,6), di bawah distribusi (6.58)

Dengan mengabaikan konstanta yang relevan, dapat diperoleh fungsi kesalahan dalam

bentuk

13

Gambar 6.4 adalah plot dari fungsi |y-r|R terhadap |y-t| untuk berbagai nilai R. Fungsi

ini membentuk dasar untuk mengukur definisi Minkowski-R error. Disebut minkowski-R

error. Untuk mengurangi kesalahan jumlah kuadrat biasa ketika R = 2 untuk kasus R = 1,

distribusi fungsi (6.58) , dan minkowski-R sesuai ukuran (6.59) disebut kota blok metrik

(karena jarak antara titik pada pesawat diukur dengan matrik yang sama dengan jarak

euclidean ditutupi dengan bergerak antara dua titik di sepanjang segmen garis sejajar dengan

sumbu, seolah-olah bergerak sepanjang blok di kota). Pada umum, jarak matrik |y-r|R dikenal

sebagai norma Lr.

Turunan dari fungsi error Minkowski-R berkaitan dengan bobot dalam jaringan yang

diberikan oleh

Turunan tersebut dapat dievaluasi menggunakan standar prosedur, yang dibahas dalam

Bagian 4.8. Contoh penerapan kesalahan Minkowski-R ke jaringan yang terlatih

menggunakan penyebaran kembali yang diberikan dalam Hanson dan Burr (1988) dan

Burrascano (1991).

Salah satu potensi sulit dari jumlah standar kesalahan adalah bahwa hal itu

menerima kontribusi terbesar dari titik-titik yang memiliki kesalahan terbesar. Jika tidak

berbuntut panjang pada distribusi maka solusinya dapat didominasi oleh sejumlah kecil titik

14

yang disebut outlier yang memiliki kesalahan sangat besar. Hal ini digambarkan dengan

contoh sederhana pada Gambar 6.5.

Masalah yang sama berat juga dapat muncul dari data salah label. Misalnya untuk

satu titik data tunggal yang nilai target yang salah label dengan jumlah yang besar benar-

benar dapat membatalkan solusi kuadrat terkecil.

Gambar 6.5. Contoh pemasangan polinomial lurus melalui satu set data rancu

ditunjukkan dengan meminimalkan kesalahan jumlah kuadrat. Dalam (a) garis memberikan

representasi yang baik dari aspek data sistematis. Dalam (b) data satu titik tambahan telah

ditambahkan dan letaknya jauh dari titik data lain, menunjukkan bagaimana mendominasi

pemasangan baris.

Teknik yang dicoba untuk memecahkan masalah ini dirujuk sebagai kuat Statistik dan

review dalam konteks metode statistik konvensional yang dapat ditemukan di Huber (1981).

Pemanfaatan kesalahan Minkowski dengan nilai R kurang dari 2 mengurangi kepekaan

outlier. Misalnya, dengan R - 1, solusi error minimum menghitung median bersyarat dari

data, bukan berarti bersyarat (Latihan 6.5). Alasan untuk ini dapat dilihat dengan

memperhatikan kesalahan sederhana :

15

Minimalisasi E (y) terhadap y memberikan :

yang dipenuhi ketika y merupakan median dari titik {tn} (yaitu nilai yang jumlah titiknya sama

dengan tn memiliki nilai lebih besar dari y dalam bentuk nilai kurang dari y) jika salah satu

dari tn diambil untuk beberapa nilai yang sangat besar, hal ini tidak berpengaruh pada solusi

yang ke y.

6.3. Input-Dependent Variance (Ketergantungan Masukan Varian)

Sejauh ini telah diasumsikan bahwa varians dari data target dapat digambarkan oleh

satu parameter global. Dalam banyak aplikasi praktis, ini akan menjadi asumsi yang tidak

baik, dan sekarang dibahas model yang lebih umum untuk data target distribusi. Secara

umum, mungkin untuk menentukan bagaimana varians data tergantung pada vektor input x

(Nix dan Weigend, 1994). al ini dapat dilakukan dengan mengadopsi gambaran yang lebih

umum untukdistribusi bersyarat dari data target, dan kemudian menuliskan kemungkinan log

negatifuntuk mendapatkan fungsi kesalahan yang sesuai. Dengan demikian, dapat ditulis

Distribusi bersyarat dari variabel target dalam bentuk

Untuk membentuk fungsi logaritma negatif dan menghilangkan konstanta aditif, diperoleh

16

Jika sekarang dikalikan dengan 1 / N seperti sebelumnya, dan mengambil batas dari data

tidak terbatas, maka dapat peroleh fungsi kesalahan dalam bentuk :

Fungsi er, t (x) dapat dimodelkan dengan menambahkan output lebih lanjut untuk jaringan

saraf. Pendekatan alternatif untuk menentukan sebuah ketergantungan varian input (Satch-

well, 1994) didasarkan pada hasil (6.46) bahwa pemetaan jaringan yang meminimalkan

jumlah kuadrat error diberikan oleh ekspektasi bersyarat dari data target. Pertama jaringan

yang dilatih dengan cara yang biasa dengan meminimalkan jumlah kotak kesalahan di mana t

% membentuk target. Output dari jaringan ini, ketika disajikan dengan vektor input data

terlatih xn, sesuai dengan rata-rata bersyarat dari data target. Rata-rata ini dikurangkan dari

nilai target dan hasilnya kemudian kuadrat dan digunakan sebagai target untuk jaringan

kedua yang juga dilatih menggunakan sejumlah fungsi kuadrat kesalahan. Output dari

jaringan ini kemudian mewakili rata-rata bersyarat {tk - (tk \ x)} 2dan sehingga mendekati

varians er | (x) yang diberikan oleh (6.55).

Prosedur ini dapat dibenarkan secara langsung sebagai berikut. jika dianggap bahwa fungsi 2

/ jt (x) dan o> (x) fleksibilitas tak terbatas maka pertama-tama meminimalkan E sehubungan

dengan Yk oleh fungsi diferensiasi diberikan

setelah beberapa penataan ulang, memberikan hasil yang standar

Seperti sebelumnya juga meminimalkan E independen terhadap fungsi ok (X) untuk

memberikan :

17

Yang ini mudah dipecahkan untuk a2k (x) untuk memberikan

di mana telah digunakan (6.67). kemudian dapat ditafsirkan (6.69) dalam hal dua

tahappendekatan dua jaringan yang dijelaskan di atas. Teknik ini sederhana dan dapat

menggunakan perangkat lunak jaringan saraf standar. Keterbatasan utama adalah bahwa hal

itu masih mengasumsikan bentuk fungsi Gaussian.

6.3 Input –dependent Variance (Tergantung perbedaan masukan)

Sejauh ini kita telah mengasumsikan bahwa perbedaan dari target data dapat

digambarkan oleh parameter Ø.Didalam banyak aplikasi yang berguna, ini akan menjadi

miskin asumsi, dan kita sekarang membahas model yang lebih umum untuk distribusi target

data .The sum-of-squares kesalahan dengan mudah diperluas untuk memungkinkan setiap

output dijelaskan oleh perbedaan parameter Ø-nya k. Umumnya lagi, kita mungkin ingin

menentukan bagaimana perbedaan data tergantung pada vektor input x (Nix dan Weigend,

1994) .Ini dapat dilakukan dengan mengadopsi gambaran yang lebih umum untuk syarat

distribusi dari target data, dan kemudian menuliskan log negatif-kemungkinan untuk

mendapatkan fungsi, demikian juga kesalahan yang sesuai, kita menulis Distribusi bersyarat

dari target variabel dalam bentuk.

18

Membentuk logaritma negatif dari fungsi probabilitas seperti sebelumnya, dan

menghilangkan konstanta aditif, kita dapat memperoleh :

Jika kita sekarang kalikan dengan 1 / N seperti sebelumnya, dan mengambil data yang tidak

tebatas, kita memperoleh fungsi kesalahan dalam bentuk :

Fungsi Ø k (X) dapat dimodelkan dengan menambahkan output lebih lanjut untuk

jaringan saraf.kita tidak akan mempertimbangkan pendekatan ini lebih lanjut, karena

merupakan kasus khusus dari teknik ini jauh lebih umum untuk memodelkan distribusi

bersyarat secara penuh,yang akan dibahas segera.

Pendekatan alternatif untuk menentukan sebuah varian tergantung pada

masukannya (Satchwell, 1994) didasarkan pada hasil (6.46) bahwa pemetaan jaringan yang

meminimalkan sum-of-square(kuadrat total) error yang diberikan oleh ekspektasi bersyarat

dari target Data .Pertama jaringan dilatih dengan cara yang biasa dengan meminimalkan

sum-of-square(kuadrat total) Kesalahan yang membentuk t kn target .suatu output dari

jaringan ini, ketika disajikan dengan input data latih vektor x pangkat n, sesuai dengan syarat

rata-rata dari target data .rata-rata ini dikurangi dari nilai target dan hasilnya kemudian

dikuadratkan dan digunakan sebagai target untuk jaringan kedua yang juga dilatih

menggunakan sum-of-square(kuadrat total) output error function.jaringan ini merupakan

rata-rata bersyarat {TK-(tk \ x)} 2 dan dengan demikian perkiraan varians Ø 2 k (x) yang

diberikan oleh (6.55).

Prosedur ini dapat dibenarkan secara langsung sebagai follows.Mempertimbangkan

data yang tak terbatas lagi, kami dapat menulis fungsi kesalahan dalam bentuk (6.65) .Jika

kita menganggap bahwa fungsi Yk (x) dan Ø k (x) memiliki fleksibilitas tak terbatas maka

19

pertama-tama kita bisa meminimalkan E sehubungan dengan k oleh diferensiasi fungsional

untuk memberikan :

setelah beberapa perbaikan, memberikan hasil yang standar :

sebelumnya dapat diminimalkan E independen terhadap fungsi Ø k (x) untuk memberikan:

yang mudah dipecahkan untuk Ø pangkat 2 k (x) untuk memberikan:

di mana kita telah menggunakan rumus (6.67) .Kami kemudian menafsirkan (6.69) dalam hal

pendekatan dua-tahap jaringan yang dijelaskan di atas.Layanan teknik sederhana dan dapat

dibuat menggunakan jaringan saraf software standar. keterbatasan utama jaringan syaraf

adalah bahwa hal tersebut masih mengasumsikan bentuk Gaussian untuk fungsi distribusi

(karena memanfaatkan hanya statistik orde kedua dari target data).

6.4 Modelling Conditional Distributions (Pemodelan distribusi bersyarat)

Berhubungan dengan pemodelan distribusi bersyarat dari target data dalam hal distribusi

Gaussian dengan varians parameter global dan mean. Akan tetapi tergantung x, jika data

memiliki struktur yang kompleks, seperti misalnya pada Gambar 6.3, maka pilihan distribusi

tertentu dapat menyebabkan representasi yang sangat miskin dari data. Oleh karena itu kami

mencari kerangka umum untuk pemodelan distribusi probabilitas bersyarat.

20

Gambar 6.6. dapat mewakili massa jenis probabilitas bersyarat umum p (t | x)

dengan mempertimbangkan model parametrik untuk distribusi t yang parameternya

ditentukan oleh output dari jaringan saraf yang mengambil x sebagai input

vektor

Untuk pilihan yang berbeda dari model parametrik, kita memperoleh representasi

yang berbeda untuk contoh kepadatan.Untuk yang bersyarat, model Gaussian tunggal untuk

p (t \ 0) sesuai dengan prosedur yang dijelaskan di atas dalam Bagian 6.3.kemungkinan lain

adalah dengan menggunakan kombinasi linear satu set tetap fungsi kernel.Didalam kasus ini

output dari jaringan mewakili koefisien dalam kombinasi linear (Bishop dan Legleye, 1995),

dan kita harus memastikan bahwa koefisien yang positif sama dengan satu dalam rangka

melestarikan positif dan normalisasi massa jenis.Kami tidak membahas pendekatan ini lebih

lanjut karena merupakan kasus khusus dari teknik yang lebih umum yang kita pelajari

berikutnya.

Sebuah kekuatan, kerangka umum untuk pemodelan distribusi bersyarat,

berdasarkan penggunaan model campuran, diperkenalkan pada Bagian 2.6. Model campuran

merupakan pembagian dari segi kombinasi linear dari fungsi kernel adaptif.Jika kita

menerapkan teknik ini untuk masalah pemodelan distribusi bersyarat yang kita miliki :

21

di mana M adalah jumlah komponen, atau kernel, di campur.parameter α j (x) disebut

pencampuran koefisien, dan dapat dianggap sebagai probabilitas sebelumnya (dikondisikan

pada x) dari t sasaran vektor yang telah dihasilkan dari j yang komponennya dicampur

.Dengan catatan bahwa koefisien pencampuran diambil sebagai fungsi dari input vektor x dan

fungsi Ø j (t \ x) mewakili kepadatan bersyarat dari t sasaran vektor untuk pilihan kernel j

.Various untuk fungsi kernel adalah possible.Seperti dalam Bab 2, bagaimana pun, kita akan

membatasi perhatian fungsi kernel Gaussian dalam bentuk :

dimana vektor µ j (x) merupakan pusat dari kernel j, dengan komponen

µ j k, dan c adalah dimensi dari t. Dalam (6.71) kita telah mengasumsikan bahwa komponen

statistik output vektor independen yang ada di setiap fungsi kernel, dan dapat dijelaskan

oleh varians umum Ø pangkat 2 j (X) .asumsi secara langsung memperkenalkan matriks

kovarians penuh untuk setiap kernel Gaussian, dengan mengorbankan prinsip

formal.Didalam lebih kompleks, namun , komplikasi seperti itu tidak diperlukan, karena

campuran Model Gaussian, dengan kernel yang diberikan oleh (6.71), dapat mendekati fungsi

kepadatan diberikan sewenang-wenang kepada akurasi, asalkan koefisien campuran dan

parameter Gaussian (rata-rata varians pasir) yang benar dipilih (McLachlan dan Basford,

1988). Dengan demikian, representasi yang diberikan oleh (6.70) dan (6.71) benar-benar

general.Didalam hal-hal tertentu, tidak menganggap bahwa komponen t secara statistik

independen, berbeda dengan representasi tunggal Gaussian yang digunakan dalam (6.6) dan

(6.9) untuk menurunkan sum-of-square error

Untuk setiap nilai yang diberikan x, model campuran (6.70) memberikan formalisme

umum untuk pemodelan fungsi densitas bersyarat p (t | x). Sekarang akan diambil berbagai

parameter dari model campuran, yaitu koefisien campuran α j (x ), j berarti µ (x) dan varians

Ø pangkat 2 j (X), diatur oleh output dari jaringan saraf konvensional yang mengambil x

sebagai input .Ini teknik diperkenalkan dalam bentuk campuran (. Jacob setal, 1991) model

22

pakar yang digambarkan dalam Bagian 9.7, dan sejak itu telah dibahas oleh penulis lain

(Bishop, 1994a; Liu, 1994; Neuneieretal, 1994) .

Jaringan saraf pada Gambar 6.6 dapat berupa struktur jaringan standar umpan-maju

dengan kemampuan pendekatan universal. Di sini kita mempertimbangkan lapisan

multiperceptron dengan lapisan tersembunyi tunggal unit sigmoidal dan lapisan output unit

linier. Untuk komponen M dalam model campuran (6.70), jaringan akan memiliki output M

dilambangkan dengan z pangkat α j yang menentukan koefisien pencampuran, output M

dilambangkan dengan z pangkat α j yang menentukan Lebar kernel Ø j, dan keluaran/output

(M x c) dilambangkan oleh z pangkat µ j k yang menentukan komponen µ j k dari pusat

kernel µ j. Jumlah output jaringan diberikan oleh (c + 2) x M, dibandingkan dengan output c

biasa untuk jaringan digunakan dengan sum-of-square(kuadrat total)kesalahan fungsi.

Untuk memastikan bahwa koefisien α j pencampuran (x) dapat diartikan sebagai

probabilitas, mereka harus memenuhi kendala :

Kendala pertama juga memastikan bahwa distribusi dinormalkan dengan benar,sehingga p

terpisahkan (t \ x) dt = 1. Kendala ini dapat dipenuhi dengan memilih α j (x) berkaitan dengan

jaringan output sesuai dengan fungsi Softmax (Bridle,1990;. Jacobs et al, 1991).

Akan ditemukan fungsi Softmax lagi di bagian berikutnya ketika kita

mendiskusikan fungsi kesalahan untuk masalah klasifikasi.

Varians Ø j merupakan parameter skala dan sehingga sangat nyaman untuk mewakili

mereka dalam hal eksponensial dari output jaringan yang sesuai

23

Dalam kerangka Bayesian (Latihan 10,13) ini sesuai dengan pilihan non-informatif

sebelumnya, dengan asumsi output jaringan yang sesuai dengan z pangkat Ø j memiliki

distribusi probabilitas seragam (Jacobs et al, 1991; Nowlan dan Hinton, 1992). Pusat-pusat µ j

merupakan parameter lokasi, dan lagi gagasan non informatif sebelum (Latihan 10.12)

menunjukkan bahwa ini diwakili langsung oleh output jaringan.

Seperti sebelumnya, kita dapat membangun sebuah kesalahan fungsi dari

kemungkinan dengan menggunakan (6.5) untuk memberikan

dengan Ø j (t \ x) yang diberikan oleh (6.71) .suatu minimalisasi fungsi kesalahan dapat

ditolerir untuk parameter jaringan saraf mengarah ke model untuk kepadatan bersyarat dari

target data. Dari fungsi kepadatan ini, setiap statistik yang diinginkan secara prinsip

melibatkan variabel keluaran yang dapat dihitung.

Dalam rangka meminimalkan fungsi error, kita perlu menghitung turunan dari

kesalahan E sehubungan dengan bobot dalam jaringan saraf. Ini dapat dievaluasi dengan

menggunakan prosedur backpropagation standar, asalkan kita mendapatkan ekspresi

derivatif yang cocok dari kesalahan sehubungan dengan output jaringan. Karena fungsi

kesalahan (6.77) terdiri dari sejumlah istilah

E=∑n En adalah satu untuk masing-masing pola, kita dapat mempertimbangkan derivatif δ kn=∂ En/∂αk adalah untuk pola n tertentu dan kemudian menemukan turunan dari E dengan

menjumlahkan semua pola. Perhatikan bahwa, karena unit keluaran jaringan memiliki aktivasi linear fungsi g (a) = a,jumlah δ kn bisa juga ditulis sebagai ∂ En/∂αk dan setara dengan kesalahan yang diperkenalkan dalam diskusi kesalahan back-propagasi dalam Bagian 4.8. Kesalahan pemindaian akan kembali-disebarkan melalui jaringan untuk menemukan hubungan derivatif dengan bobot jaringan.

Telah dikatakan bahwa Ø j dapat dianggap sebagai kepadatan bersyarat fungsi, dengan probabilitas sebelum α j. Seperti dengan model campuran dibahas dalam Bagian 2.6,

24

akan lebih mudah untuk memperkenalkan probabilitas posterior yang sesuai, yang kami peroleh menggunakan teorema Bayes

karena hal ini menyebabkan beberapa penyederhanaan analysis.Note berikutnya yang, dari (6.78), posterior probabilitas jumlah kesatuan

Pertimbangan turunan pertama dari E pangkat n sehubungan dengan output jaringan yang sesuai dengan koefisien campuran α j. Menggunakan (6.77) dan (6.78) kita memperoleh

Kita sekarang mengetahui bahwa, sebagai akibat dari transformasi Softmax (6.74), nilai α k tergantung pada semua output jaringan yang berkontribusi untuk campuran koefisien, dan membedakan (6.74) :

Dari aturan rantai yang dimiliki :

Menggabungkan (6.80), (6.81) dan (6.82) kemudian didapatkan :

di mana kita telah menggunakan (6.79).sesuai dengan nilai derivatif. parameter Ø j kita

menggunakan (6.77) dan (6.78), bersama-sama dengan (6.71), untuk memberikan:

Menggunakan (6.75) dapat dilakukan :

25

Menggabungkan ini, bersama-sama kita kemudian mendapatkan :

Jaringan memiliki tiga fungsi kernel Gaussian, dan menggunakan dua lapisan multilayer

perceptron dengan lima 'tanh' unit sigmoid pada lapisan tersembunyi, dan sembilan output.

Salah satu contoh penerapan teknik ini untuk estimasi kepadatan bersyarat diberikan pada

Gambar 6.7, yang menunjukkan kerapatan kontur bersyarat yang sesuai dengan kumpulan

data yang ditunjukkan pada Gambar 6.3.

Output dari jaringan saraf, dan karenanya parameter dalam campuran

Model, yang selalu terus menerus bernilai fungsi tunggal dari variabel input. Namun, model

ini mampu menghasilkan kerapatan bersyarat yang unimodal untuk

beberapa nilai x dan trimodal untuk nilai-nilai lainnya, seperti pada Gambar 6.7, dengan

modulasi komponen amplitudo campuran, atau prior, α j (x). Hal ini dapat dilihat pada

Gambar 6.8 yang menunjukkan plot dari tiga prior α j (x) sebagai fungsi dari x. Hal ini dapat

dilihat bahwa untuk x = 0,2 dan x = 0,8 hanya satu dari tiga kernel memiliki non-nol

probabilitas sebelumnya. Pada x = 0,5, namun, ketiga kernel memiliki prior signifikan. Setelah

jaringan telah dilatih dan dapat memprediksi fungsi kepadatan target data bersyarat untuk

26

setiap nilai yang diberikan dari vektor input. Kondisi ini density merupakan deskripsi lengkap

tentang generator data, sejauh masalah memprediksi nilai vektor output yang bersangkutan.

Gambar 6.8. Plot dari prior α j (x) sebagai fungsi dari x untuk fungsi tiga kernel dari

jaringan yang digunakan untuk merencanakan Gambar 6.7. Pada kedua nilai kecil dan besar

x, di mana kepadatan probabilitas bersyarat dari data target unimodal, hanya satu dari kernel

memiliki probabilitas yang berbeda sebelumnya secara signifikan dari nol. Pada nilai-nilai

menengah x, di mana kepadatan bersyarat adalah trimodal, tiga kernel memiliki prior

sebanding

di mana kita telah menggunakan (6.70) dan (6.71). Ini sama dengan latihan fungsi hitung

dengan jaringan standar oleh kuadrat terkecil, sehingga jaringan ini dapat mereproduksi

kuadrat-hasil konvensional sebagai kasus khusus. Kami juga dapat mengevaluasi varians dari

fungsi kepadatan tentang rata-rata bersyarat, untuk memberikan :

di mana kita telah menggunakan (6.70), (6.71) dan (6.90). Ini lebih umum daripada yang

sesuai dengan kuadrat-hasil karena varians ini diperbolehkan untuk menjadi fungsi umum x.

Hasil yang sama dapat diperoleh pada saat-saat lain dari distribusi bersyarat.

27

Gambar 6.9. Ini menunjukkan plot (t \ x) terhadap x (kurva padat) dihitung dari

kepadatan bersyarat pada Gambar 6.7 menggunakan (6.90), bersama-sama dengan yang

sesuai dengan plot (t \ x) ± s (kurva putus-putus) (x) diperoleh dengan menggunakan

(6.92).Plot dari mean dan varians, yang diperoleh dari Distribusi bersyarat pada Gambar 6.7,

yang ditunjukkan pada Gambar 6.9.

Karena setiap komponen model campuran dinormalkan,

∫∅ j ( t|x )dt=1 cabang yang paling mungkin dari solusi, dengan asumsi komponen

dipisahkan dengan baik dan memiliki tumpang tindih yang diabaikan, diberikan :

Dalam campuran Model pakar (Jacobs et ai, 1991)hal ini sesuai dengan memilih

output dari salah satu modul jaringan komponen. Nilai yang diperlukan t kemudian diberikan

oleh pusat yang sesuai dengan µ j. Gambar 6.10 menunjukkan cabang yang paling mungkin

dari solusi, sebagai fungsi dari x, untuk jaringan yang sama seperti yang digunakan untuk

merencanakan Gambar 6.7.

28

Sekali lagi, salah satu keterbatasan menggunakan teknik maximum likelihood untuk

menentukan jumlah varians seperti α j, adalah bahwa hal itu bias (Bagian 2.2). Secara khusus,

ia cenderung meremehkan varians di daerah-daerah di mana ada data yang terbatas

Gambar 6.10. Plot dari nilai tengah kernel yang paling mungkin sebagai fungsi

x dari jaringan yang digunakan untuk merencanakan Gambar 6.7. Ini memberikan pemetaan

fungsional terputus dari saya untuk f yang pada setiap nilai x terletak baik di dalam wilayah

kepadatan probabilitas signifikan. Diagram harus dibandingkan dengan pemetaan terus

menerus sesuai pada Gambar 6.3 yang diperoleh dari standar kuadrat terkecil.

6.4.1 Periodic Variables (variabel periodic)

Pendekatan ini berdasarkan campuran fungsi kernel, tetapi dalam kasus ini fungsi

kernel sendiri periodik, sehingga memastikan bahwa fungsi kepadatan keseluruhan akan

periodik. Untuk memotivasi pendekatan ini, mempertimbangkan masalah pemodelan

distribusi vektor kecepatan v dalam dua dimensi. Karena v tinggal di pesawat Euclidean, kita

dapat model fungsi kepadatan p (v) menggunakan campuran kernel Gaussian bola

konvensional, di mana masing-masing kernel memiliki bentuk :

29

mana (vx, vy) adalah komponen Cartesian v, dan (µ x, µ y) adalah komponen dari pusat µ

kernel. Dari sini kita dapat mengekstrak syarat distribusi sudut polar 9 dari vektor v, diberi

nilai t; = || V ||. Hal ini mudah dilakukan dengan Ø transformasi v = v cos Ø, vy = v sin Ø, dan

mendefinisikan Ø 0 menjadi sudut kutub µ,, sehingga µ x = µ cos Ø 0 dan µ y = µ sin Ø 0, di

mana µ = | | µ ||. Hal ini menyebabkan distribusi dapat ditulis dalam bentuk :

di mana koefisien normalisasi telah dinyatakan dalam zerothorder modifikasi fungsi Bessel

jenis pertama, Io (m). Distribusi (6,95) dikenal sebagai normal atau von melingkar distribusi

Mises (Mardia, 1972). Parameter m (yang tergantung pada v di derivasi kami) analog dengan

parameter varians (di-ayat) dalam distribusi normal konvensional. Karena (6,95) adalah

periodik, kita dapat membangun sebuah representasi umum untuk kepadatan bersyarat dari

variabel periodik dengan mempertimbangkan campuran melingkar kernel yang normal,

dengan parameter diatur oleh output dari jaringan saraf. Bobot dalam jaringan dapat lagi

ditemukan dengan memaksimalkan kemungkinan fungsi didefinisikan lebih dari satu set data

pelatihan

Salah satu contoh penerapan teknik ini untuk penentuan

arah angin dari data satelit radar scatterometer diberikan di Bishop dan

Legleye (1995). Ini adalah masalah terbalik di mana data multitarget

dihargai. Untuk masalah yang melibatkan variabel periodik dimana data target

efektif bernilai tunggal sehubungan dengan vektor input, maka kernel melingkar yang normal

tunggal dapat digunakan.

6.5. Estimating posterior probabilities (Memperkirakan probabilitas posterior)

Saat ini kita akan membahas pertimbangan fungsi error untuk masalah klasifikasi dimana

variabel sasaran mewakili kelas diskrit label.

Ketika kita menggunakan neural network untuk memecahkan masalah klasifikasi, ada

dua cara yang berbeda. Pertama, kita dapat mengatur jaringan untuk mewakili diskriminan

30

non-linear fungsi. Kedua yang lebih umum adalah dengan menggunakan jaringan untuk

model probabilitas posterior keanggotaan kelas. Biasanya ada satu unit output untuk setiap

kemungkinan kelas, dan aktivasi setiap unit output yang mewakili posterior sesuai

probabilitas P(Ck|x), di mana Ck adalah kelas kth, dan x adalah vektor input. Probabilitas ini

kemudian dapat digunakan dalam tahap pengambilan keputusan selanjutnya yaitu klasifikasi.

Dengan mengatur output jaringan untuk perkiraan probabilitas posterior , kita dapat

memanfaatkan sejumlah hasil yang tidak tersedia jika jaringan yang digunakan hanya sebagai

diskriminan non - linear ( Richard dan Lippmann , 1991) . ini meliputi :

Minimum kesalahan - tingkat keputusan

Untuk meminimalkan kesalahan klasifikasi, masukan baru vektor seharusnya

diserahkan kepada kelas yang memiliki probabilitas posterior terbesar . Perhatikan

bahwa output jaringan tidak perlu mendekati 0 atau 1 jika fungsi kepadatan tumpang

tindih . Prosedur heuristik , seperti menerapkan tambahan pelatihan menggunakan pola-

pola yang gagal untuk menghasilkan output dekat dengan nilai target , akan menjadi

kontraproduktif , karena ini mengubah distribusi dan membuat kemungkinan kecil

bahwa jaringan akan menghasilkan probabilitas bayesian yang benar.

Output berjumlah 1

Karena perkiraan jaringan output probabilitas posterior mereka harus berjumlah

kesatuan. Rata-rata dari setiap output jaringan melalui semua pola dalam training set

harus mendekati probabilitas yang sesuai dengan kelas sebelumnya.

Perkiraan prior ini dapat dibandingkan dengan perkiraan sampel prior yang diperoleh

dari fraksi pola di setiap kelas dalam set data training. Perbedaan antara dua perkiraan

ini merupakan indikasi bahwa jaringan bukan pemodelan probabilitas posterior akurat

( Richard dan Lippmann , 1991) .

Kompensasi untuk probabilitas prior berbeda

Probabilitas posterior yang diungkapkan melalui Teorema Bayes dalam bentuk

31

dan probabilitas prior P(Ck) dan kepadatan kelas bersyarat P(x | Ck) diperkirakan secara

terpisah. Pendekatan jaringan saraf sebaliknya menyediakan Perkiraan langsung

probabilitas posterior. Kadang-kadang probabilitas prior yang diharapkan dengan yang

sedang digunakan berbeda dari yang diwakili oleh training set. Dengan begitu maka hal

yang mudah untuk menggunakan Teorema Bayes untuk membuat koreksi yang

diperlukan untuk output jaringan.

Hal ini dicapai hanya dengan membagi output jaringan dengan probabilitas prior

sesuai dengan training set, mengalikan mereka dengan probabilitas prior baru, dan

kemudian normalisasi hasilnya.

Probabilitas prior untuk training set dapat diperkirakan hanya dengan mengevaluasi

fraksi training set titik data di masing-masing kelas. Sebagai contoh, pertimbangan

masalah klasifikasi citra medis menjadi 'normal' dan 'tumor'. Ketika digunakan untuk

skrining tujuan, kita akan mengharapkan probabilitas sebelumnya sangat kecil 'Tumor'.

Untuk mendapatkan berbagai gambar tumor yang baik pada training set maka

membutuhkan contoh pelatihan yang banyak. Alternatif untuk meningkatkan artifisial

proporsi gambar tumor dalam training set, dan kemudian untuk mengimbangi prior yang

berbeda pada data uji dapat diperoleh dari statistik medis, tanpa harus mengumpulkan

gambar yang sesuai.

Menggabungkan output dari beberapa jaringan

Daripada menggunakan jaringan tunggal untuk memecahkan masalah yang

lengkap ,sering ada manfaat dalam memecahkan masalah ke dalam bagian-bagian yang

lebih kecil dan memperlakukan setiap bagian dengan jaringan yang terpisah. Dengan

membagi output jaringan dengan probabilitas prior yang digunakan selama pelatihan,

output jaringan menjadi kemungkinan skala oleh kepadatan tanpa syarat dari vektor

input. Likelihood skala ini dapat dikalikan bersama pada asumsi bahwa vektor masukan

untuk berbagai jaringan independen. Karena scaling Faktor independen kelas, classifier

32

berdasarkan produk dari likelihood skala akan memberikan hasil yang sama seperti yang

didasarkan pada likelihood benar. Pendekatan ini telah berhasil diterapkan untuk

masalah pengenalan suara ( Bourlard dan Morgan , 1990; Singer dan Lippmann , 1992).

minimal risiko

Sebagaimana dibahas dalam Bab 1, tujuan dari sistem klasifikasi tidak mungkin

selalu untuk meminimalkan kemungkinan kesalahan klasifikasi. kesalahan klasifikasi

berbeda dapat membawa hukum yang berbeda, dan kita mungkin ingin untuk

meminimalkan kerugian atau resiko secara keseluruhan. Sekali lagi aplikasi skrining

medis memberikan contoh yang baik. Salah mengklasifikasikan gambar tumor menjadi

seperti gambar biasa ini mungkin jauh lebih serius daripada salah mengklasifikasikan

gambar normal yang tumor. Dalam hal ini, posterior probabilitas dari jaringan dapat

dikombinasikan dengan matriks yang sesuai koefisien kerugian untuk memungkinkan

minimum resiko yang akan dibuat.

ambang batas penolakan

Ambang batas penolakan yaitu jika semua probabilitas posterior jatuh di bawah

ambang batas ini maka ada keputusan klasifikasi yang dibuat. Teknik klasifikasi alternatif

bisa kemudian diterapkan pada kasus ditolak. Hal ini mencerminkan biaya yang terkait

dengan membuat keputusan yang salah diimbangi dengan biaya alternatif prosedur

klasifikasi. Pada gambar medis masalah klasifikasi misalnya : mungkin lebih baik tidak

mencoba untuk mengklasifikasikan gambar yang diragukan, tetapi memiliki ahli untuk

memberikan manusia keputusan. Penolakan vektor input dapat dicapai dengan cara yang

berprinsip, asalkan jaringan output merupakan probabilitas posterior keanggotaan kelas.

6.6 Sum-of-squares for classification (Sum-of-squares untuk klasifikasi)

Pada bagian sebelumnya kita menunjukkan bahwa, untuk jaringan dilatih dengan

meminimalkan suatu sum-of-squares kesalahan fungsi, output jaringan mendekati rata-rata

bersyarat dari data target

33

Dalam masalah klasifikasi, setiap vektor input pada training set diberi label oleh

anggota kelasnya, diwakili oleh satu set nilai target t kn. Target tersebut dapat dipilih sesuai

dengan berbagai skema, tetapi yang paling nyaman adalah 1-of-c coding dimana, untuk

vektor masukan xn dari kelas Ci, kita memiliki t kn= δkl dimana fikt adalah simbol Kronecker

delta. Didalam huruf target nilai-nilai yang diketahui secara tepat dan fungsi kepadatan

target ruang menjadi tunggal dan dapat ditulis sebagai

karena P(Cl|x) adalah probabilitas bahwa x milik kelas Cl. Jika sekarang kita mengganti (6.99)

ke dalam (6.98) kita memperoleh

sehingga output dari jaringan sesuai dengan probabilitas posterior Bayesian (White, 1989;

Richard dan Lippmann, 1991).

Jika output jaringan merupakan probabilitas, maka mereka harus berada di rentang

(0,1) dan harus berjumlah 1. Untuk jaringan dengan unit-unit output linier, dilatih dengan

meminimalkan sum-of-squares fungsi kesalahan. Diperlihatkan pada Bagian 6.1.2 bahwa jika

nilai target memenuhi kendala linear, maka output jaringan akan memenuhi kendala yang

sama untuk vektor input yang berubah-ubah. Dalam kasus 1-of-c skema pengkodean, target

nilai sum kesatuan untuk setiap pola dan jaringan output juga akan selalu berjumlah

kesatuan. Namun, tidak ada jaminan bahwa mereka akan terletak di atas kisaran (0,1).

Bahkan, sum-of-squares fungsi kesalahan bukan yang paling tepat untuk masalah klasifikasi.

Namun, ada keuntungan dalam menggunakan sum-of-squares fungi kesalahan, termasuk

fakta bahwa penentuan output bobot dalam jaringan merupakan masalah optimasi linier.

Signifikansi hasil ini untuk jaringan fungsi basis radial digambarkan dalam Bab 5. Oleh karena

34

itu penggunaan sum-of-squares fungsi kesalahan dibahas untuk masalah klasifikasi lebih

detail sebelum mempertimbangkan pilihan alternatif fungsi kesalahan.

Untuk masalah dua kelas, skema 1-of-c coding di atas mengarah pada jaringan

dengan dua unit output, satu untuk masing-masing kelas dan aktivasi yang mewakili

probabilitas yang sesuai dengan keanggotaan kelas. sebuah pendekatan alternatif adalah

dengan menggunakan output y tunggal dan coding sasaran yang menetapkan tn = 1 jika xn

adalah dari kelas Cl dan tn = 0 jika xn dari kelas C2. Dalam hal ini, distribusi nilai target yang

diberikan oleh :

Mengganti ini ke (6.98) memberikan :

dan output jaringan y(x) merupakan probabilitas posterior input vektor x milik kelas C1.

Probabilitas yang sesuai untuk kelas C2 kemudian diberikan oleh P (C2 | x) = 1 - y (x).

6.6.1 Interpretation of hidden units (Interpretasi unit tersembunyi)

Dalam Bagian 6.1.1 menggunakan ekspresi (6.29) untuk bobot akhir-lapisan yang

meminimalkan kesalahan sum-of-squares, untuk jaringan dengan unit-unit output linier.

Dengan mengganti hasil ini kembali ke fungsi kesalahan, kita memperoleh ekspresi

parameter adaptif yang terkait dengan unit-unit tersembunyi, yang kita lambangkan dengan

w. Ungkapan ini menyoroti sifat representasi hidden unit jaringan dan menunjukkan

mengapa multi-layer non-linear jaringan saraf bisa efektif sebagai sistem klasifikasi pola

(Webb dan Lowe, 1990).

Dalam notasi matriks kita memperoleh :

dimana Z, W dan T didefinisikan pada halaman 199. Kita sekarang menggantikan solusi (6.29)

untuk bobot optimal dalam (6.103) untuk memberikan :

35

Dengan menggunakan beberapa manipulasi matriks (Latihan 6.9) kita dapat menulis ini

dalam bentuk :

Berikut ST didapatkan dari :

dan komponen z didefinisikan oleh (6.24). Kami melihat bahwa ini dapat diartikan sebagai

total matriks kovarians untuk aktivasi pada output dari lapisan akhir unit tersembunyi

sehubungan dengan kumpulan data pelatihan. Demikian SB pada (6.105) di dapatkan :

yang dapat diartikan (seperti yang akan kita lihat) sebagai bentuk antara kelas kovarians

matriks.

Pada (6.105) hanya tergantung pada Target data yang independen dari bobot tersisa ~w dalam jaringan. Dengan demikian, meminimalkan sum-of-squares error setara dengan

memaksimalkan Fungsi diskriminan yang didefinisikan sehubungan dengan aktivasi dari final-

layer unit tersembunyi yang diberikan oleh :

Perhatikan bahwa, jika matriks ST adalah ill-conditioned, maka invers matriks ST−1 harus

digantikan oleh pseudo-inverse STϯ . Kriteria (6.108) memiliki kesamaan yang jelas dengan

fungsi diskriminan Fisher yang dibahas dalam Bagian 3.6.

Peran yang dimainkan oleh unit tersembunyi sekarang dapat dinyatakan sebagai berikut.

Bobot di lapisan akhir disesuaikan untuk menghasilkan diskriminasi optimal kelas vektor

masukan melalui transformasi linear. Meminimalkan kesalahan diskriminan linier,

mensyaratkan bahwa data input non-linear sebuah transformasi menjadi ruang yang

direntang oleh aktivasi tersembunyi untuk memaksimalkan fungsi diskriminan yang diberikan

oleh (6.108).

36

Wawasan lebih lanjut ke sifat SB matriks diperoleh dengan mempertimbangkan skema

sasaran coding tertentu. Untuk 1-of-c skema sasaran coding kita bisa menulis (6.107) dalam

bentuk :

dimana Nk adalah jumlah pola di kelas Ck dan zk adalah vektor rata-rata aktivasi unit

tersembunyi untuk semua pola pelatihan di kelas Ck, dan didefinisikan oleh

Perhatikan SB dalam (6.109) berbeda dari konvensional antara kelas kovarians matriks

yang diperkenalkan pada Bagian 3.6 dengan menggunakan faktor N k2 bukan Nk di

penjumlahan kelas atas. Ini merupakan bobot yang kuat dari kriteria ekstraksi fitur

mendukung kelas dengan jumlah yang lebih besar dari pola. Jika ada perbedaan yang

signifikan antara probabilitas sebelumnya untuk pelatihan dan set data uji, maka efek ini

mungkin tidak diinginkan, dan kita akan melihat bagaimana memperbaiki itu dengan

memodifikasi ukuran kesalahan sum-of-squares.

Secara umum, tidak ada cara untuk memutuskan mana yang akan menghasilkan hasil

terbaik. Untuk masalah dua kelas, antara kelas matriks kovarians yang diberikan dalam

(6,109) berbeda dari konvensional satu hanya dengan konstan perkalian, sehingga dalam hal

ini Kriteria jaringan setara dengan ekspresi Fisher asli.

6.6.2 Weight sum-of-squares ( Bobot sum-of-squares)

Kita telah melihat bahwa, untuk jaringan dengan unit-unit output linier, minimalisasi

dari sum-of-squares error pada output jaringan memaksimalkan non-linear tertentu dengan

kriteria ekstraksi fitur

di unit tersembunyi. Untuk skema pengkodean 1-of-c, yang sesuai dengan matriks kovarians

antar kelas, yang diberikan oleh (6.109), berisi koefisien yang tergantung pada Nk, jumlah

37

pola di kelas Ck. representasi hidden unit diperoleh dengan memaksimalkan fungsi

diskriminan ini hanya akan optimal untuk set probabilitas prior tertentu Nk|N. Jika

probabilitas sebelumnya berbeda antara pelatihan dan uji set, maka ekstraksi fitur tidak perlu

optimal.

Kesulitan terkait muncul jika ada biaya yang berbeda antar terkait dengan berbagai

kesalahan klasifikasi, sehingga kerugian matriks perlu dipertimbangkan. Ini telah diusulkan

(Lowe dan Webb, 1990, 1991) bahwa modifikasi bentuk sum-of-squares error untuk

memperhitungkan matriks kerugian.

Untuk menghadapi kemungkinan sebelum berbeda antara set pelatihan dan Uji set, Lowe

dan Webb (1990) memodifikasi sum-of-squares error dengan memperkenalkan kn faktor

bobot untuk setiap pola n sehingga fungsi error menjadi

dimana faktor bobot yang diberikan oleh

untuk pola n di kelas Ck di mana ~P (Ck) adalah probabilitas prior kelas Ck untuk data uji, dan Pk

= Nk|N adalah sesuai (sampel estimasi) probabilitas prior untuk pelatihan Data. Hal ini mudah

untuk menunjukkan (Latihan 6.12) bahwa total kovarians matriks ST kemudian menjadi

yang merupakan estimasi sampel berdasarkan dari total matriks kovarians untuk data dengan

probabilitas prior kelas ~P (Ck). Dalam (6.114) z diberikan oleh

merupakan estimasi-sampel berdasarkan dari nilai z yang akan mengambil Data untuk

memiliki probabilitas prior ~P (Ck). Demikian pula, dengan asumsi 1-of-c skema sasaran coding,

antara kelas matriks kovariansi dimodifikasi menjadi

38

yang merupakan estimasi sampel berdasarkan antara kelas kovarians matriks untuk Data

dengan probabilitas prior ~P (Ck).

Efek dari kerugian matriks yang berubah-ubah dapat diperhitungkan dengan memodifikasi

target skema pengkodean sehingga, untuk n pola yang berlabel sebagai milik kelas C l, vektor

target memiliki komponen t kn = 1 - Llk, dimana Llk merupakan kerugian dalam menentukan

pola dari kelas Cl untuk kelas Ck. Total matriks kovariansi tidak berubah, sedangkan kelas

antara matriks kovarians menjadi (Latihan 6.13)

Dengan mengurangi ekspresi biasa ketika L lk = 1 –δlk. Contoh penerapan teknik ini untuk

masalah dalam prognosis medis diberikan dalam Lowe dan Webb (1990).

6.7. Cross-entropy for two classes (Cross-Entropi untuk dua kelas)

Sasaran skema pengkodean dengan arget 1-of-c, keluaran dari jaringan yang dilatih dengan meminimalkan kemungkinan fungsi jumlah kuadrat error dari posterior probabilities keanggotaan kelas, dikondisikan pada vector input. Namun, jumlah kuadrat error diperoleh dari dasar kemungkinan maksimum dengan mengasumsikan bahwa target data degenerate atau berasal dari fungsi deterministic halus dengan penambahan Gaussian noise (normal noise model). Ini jelas menjadi titik awal untuk menyadari masalah regresi. Untuk masalah klasifikasi, namun target merupakan sebuah variable biner, dan Gauss Noisi model tidak memberikan deskripsi yang baik untuk distribusi mereka. Oleh karena itu dicari pilihan yang lebih tepat untuk masalah fungsi error.

Untuk memulainya, dilibatkan masalah yang hanya melibatkan 2 kelas, dan salah satu pendekatan untuk masalah tersebut yaitu menggunakan jaringan dengan dua unit, satu unit untuk masing-masing kelas. Jenis representasi ini dibahas dalam Bagian 6.9. Di sini hanya membahas pendekatan alternatif dengan anggapan sebuah jaringan dengan sebuah output tunggal. Nilai y merepresentasikan posterior probability P(C1|x) untuk kelas C1. Posteriro probability untuk kelas C2 direpresentasikan dengan P(C2|x) = 1-y. Hal ini dapat dicapai jika memiliki target coding dimana untuk t=1 jika vector input adalah milik class C1 dan t=0 jika

termasuk ke kelas C2. Hal ini dapat diekspresikan kedalam suatu ekspresi tunggal, Sehingga kemungkinan nilai target nya adalah sebagai berikut :

39

kasus khusus dari distribusi binomial disebut sebagai distribusi Bernoulli. Dengan interpretasinya terhadap unit keluaran aktivasi, kemungkinan mengamati kumpulan data pelatihan, mengasumsikan titik data diambil secara independen dari distribusi ini, representasi nilainya digambarkan sebagai berikut :

Dan akan lebih mudah untuk meminimalkan logaritma negatif dari sebuah kemungkinan. Hal ini menyebabkan kesalahan fungsi lintas entropi (cross-entropy error function) dalam bentuk

Maksud dari “entropy” akan dibahas pada 6.10, untuk saat ini akan diperhatikan beberapa sifat dasar dari error function-nya. Diferensial (fungsi turunan) error-function berhubungan dengan yn yang diperoleh :

Minimum Absolut dari error function terjadi ketika :

Persamaan diatas berlaku untuk semua nilai “n”.

Dalam bagian 3.1.3 menunjukkan bahwa jaringan dengan output tunggal direpresentasikan sebagai y = g(a) dimana nilainya ditafsirkan sebagai sebuah kemungkinan, hal ini akan sesuai jika mempertimbangkan aktivasi logistic function sebagai berikut :

Yang memiliki turunan :

40

Penggabungan Antara persamaan dengan 6.121 dan 6.124 memperlihatkan sebuah turunan yang berkaitan dengan a sehingga bentuknya menjadi lebih sederhana seperti :

δ n merupakan “error” kuantitas yang di- back-propogated melalui jaringan mengatur untuk menghitung turunan dari error function yang berhubungan dengan bobot jaringan (Bagian 4.8). Jika diperhatikan pada 6.125 memiliki bentuk yang sama sebagaimana diperoleh untuk sum-of-square (jumlah kuadrat) error function dan unit output linear. Dapat terlihat bahwa terdapat sebuah pasangan alami dari error function dan unit output activation function yang menimbulkan bentuk yang lebih sederhana untuk bentuk derivative( turunan). Penggunaan bentuk logistik dari fungsi aktivasi juga menyebabkan penyederhanaan yang tepat ketika mengevaluasi matriks Hessian (matriks turunan kedua dari fungsi error).

Dari persamaan 6.120 dan 6.122, nilai minimum dari cross-entropy error function dapat dicari dengan :

Skema koding 1-of-C ini menghilang. Namun, error function pada bagian 6.120 tepat digunakan ketika tn adalah variabel kontinyu yang berkisar antara (0,1) merepresentasikan kemungkinan dari vector input xn yang termasuk kedalam kelas C1. Dalam hal ini nilai minimum (pada persamaan 6.126) tidak perlu menghilang dan ini sangat cocok untuk melepas nilai dari original error function yang dimodifikasi menjadi :

Karena (6,126) tidak tergantung pada output jaringan ini tidak mempengaruhi lokasi minimum dan tidak memiliki efek pada pelatihan jaringan. Kesalahan dimodifikasi (6,127) agar selalu memiliki nilai minimum pada 0 dan terlepas dari training set tertentu.

Sebagai contoh sederhana dari penafsiran output jaringan sebagai sebuah kemungkinan, dapat dianggap masalah dua kelas sederhana dengan satu variabel input di mana kepadatan dari kelas-bersyarat diberikan oleh fungsi campuran Gaussian ditunjukkan pada Gambar 6.11. Sebuah perceptron multilayer dengan lima unit tersembunyi memiliki

41

'tanh' fungsi aktivasi, dan satu unit output memiliki fungsi aktivasi sigmoid logistik, dilatih dengan meminimalkan kesalahan lintas entropi menggunakan 100 siklus algoritma BFGS quasi-Newton (Bagian 7.10). Sehingga fungsi pemetaan jaringan ditampilkan, bersama dengan probabilitas posterior yang dihitung dengan menggunakan teorema Bayes.

6.7.1 Fungsi Aktivasi Sigmoid (Sigmoid activation functions)

Dalam Bagian 3.1.3, logistik fungsi aktivasi sigmoid didorong untuk jaringan single layer dengan tujuan untuk memastikan bahwa output jaringan merupakan probabilitas posterior, dengan asumsi bahwa kepadatan kelas-bersyarat dapat didekati dengan distribusi normal. Dengan menerapkan argumen yang sama pada output jaringan dalam kasus jaringan multi-layer.

Gambar 6.11. Plot dari kepadatan kelas-bersyarat digunakan untuk menghasilkan data-set untuk menunjukkan interpretasi dari output jaringan sebagai probabilitas posterior. Sebanyak 2000 titik data dihasilkan dari kepadatan ini, dengan menggunakan probabilitas yang sama dengan sebelumnya.

Dalam hal ini perlu dipertimbangkan distribusi dari output unit tersembunyi, di sini direpresentasikan oleh vector z untuk dua kelas. Pembahasan ini dapat digeneralisasi dengan asumsi bahwa kepadatan kelas-bersyarat ini dijelaskan oleh :

42

yang merupakan anggota dari keluarga eksponensial distribusi (yang mencakup banyak distribusi umum sebagai kasus khusus seperti Gaussian, binomial, Bernoulli, Poisson, dan sebagainya). Parameter ɸ dan θk mengontrol bentuk distribusi. Dalam 6.128 secara implisit diasumsikan bahwa distribusi hanya berbeda pada parameter θk dan tidak pada ɸ. Dengan contoh distribusi 2 Gaussian dengan cara yang berbeda tetapi dengan matriks kovariansi umum.

Dengan menggunakan teorema Bayes, kita dapat menulis probabilitas posterior untuk kelas C1 dalam bentuk :

Yang merupakan fungsi sigmoid logistic, dimana :

Gambar 6.12. merupakan hasil pelatihan data dari multi-layer perceptron yang dihasilkan dari

fungsi kepadatan pada Gambar 6.11. Kurva padat dengan garis tebal menunjukkan output

dari jaringan yang dilatih sebagai fungsi dari input variabel x, sedangkan kurva putus-putus

menunjukkan posterior probability sebenarnya P(C1|x) yang dihitung dari kepadatan kelas-

bersyarat menggunakan teorema bayes.

Dengan menggunakan persamaan 6.128 persamaannya dapat ditulis dalam bentuk :

43

Dimana telah didefinisikan :

Dengan demikian output jaringan ditentukan oleh fungsi aktivasi sigmoid logistik yang

bekerja pada bobot kombinasi linear output dari unit-unit tersembunyi yang mengirimkan

koneksi ke unit output.

Jelas bahwa kita dapat menerapkan argumen di atas dengan aktivasi dari unit tersembunyi

dalam jaringan. Asalkan unit tersebut menggunakan logistik fungsi aktivasi sigmoid, kita

dapat menafsirkan output mereka sebagai hadirnya probabilitas sesuai 'fitur' yang

dikondisikan pada input ke unit.

6.7.2 Property dari cross-entropy

Misal dituliskan output jaringan, untuk pola n tertentu, dalam bentuk

.Kemudia cross-entropy error function-nya dapat dituliskan sebagai berkut :

sehingga fungsi kesalahan tergantung pada kesalahan relatif dari output jaringan. Hal

ini harus dibandingkan dengan fungsi sum-of-square (jumlah kuadrat) error yang tergantung

pada (kuadrat) kesalahan mutlak. Meminimalisasi cross-entropy error function karena

cenderung akan mengakibatkan kesalahan yang relatif sama pada kedua nilai dari target

kecil dan besar. Sebaliknya, sum-of-square error functions cenderung memberikan kesalahan

mutlak yang sama untuk setiap pola, oleh karena itu akan memberikan kesalahan yang relatif

besar untuk nilai output yang kecil. Hal ini menunjukkan bahwa cross-entropy error functions

cenderung lebih baik daripada sum-of-square (jumlah kuadrat) dalam memperkirakan

probabilitas kecil.

44

Untuk target biner, dengan tn=1 untuk sebuah inputan vector xn dari kelas C1 dan tn=0 untuk

inputan vector dari kelas C2 , dan persamaan cross-entropy error functionnya dapat ditulis

dalam bentuk :

Dimana digunakan z ln z 0 untuk z0 . Jika dimisalkan єn nilainya kecil, jadi error

functions nya menjadi :

Dimana logaritmanya diperluas menggunakan ln(1+z) sama dengan sebanding dengan z dan

memperhatikan bahwa y є (0,1) kemudian єn <0 untuk inputan bagi kelas C1 dan єn >0 untuk

inputan bagi kelas C2. Hasil pada persamaan 6.136 merupakan bentuk dari Minkowski-R

error function untuk R=1 yang dibahas sebelumnya. Dibandingkan dengan sum-of-square

error function, fungsi ini memberikan bobot yang lebih kuat untuk error yang lebih kecil.

Fungsi cross-entropy error telah diperoleh dengan syarat bahwa output dari jaringan y

merupakan representasi dari probabilitas input vector x yang termasuk kedalam kelas C1.

Jadi konsistensi dari persyaratan ini dapat dipastikan dengan mempertimbangkan minimal

dari error function untuk kumpulan data besar yang tak berhingga, yang dapat ditulis dalam

bentuk:

Karena fungsi jaringan y(x) tidak tergantung pada nilai target t, maka persamaannya dapat

ditulis sebagai berikut :

45

Dimana sebelumnya, telah ditentukan bahwa prasayarat dari rata-rata bersyarat (conditional

average) dari target data adalah :

Jika diatur turunan fungsional pada persamaan 6.138 terhadap fungsi y(x) = 0 maka dapat

ditentukan bahwa minimal error function terjadi ketika :

Jadi seperti sum-of-square error, output dari jaringannya mendekati rata-rata bersyarat dari

data target untuk vektor masukan yang diberikan. Untuk target skema pengkodeannya telah

dituliskan :

Dengan mensubstitusi persamaan 6.141 kedalam 6.139 ditemukan :

6.8 Multiple independent attributes (Beberapa Atribut Independen)

Dari semua pengklasifikasian masalah yang telah dibahas sejauh ini, telah ditetapkan

vector baru ke salah satu c (c adalah sebuah kelas yang saling terpisah dari yang lain

(eksklusif)). Namun, dalam beberapa aplikasi diharapkan dapat menggunakan jaringan untuk

menentukan probabilitas ada atau tidaknya sejumlah atribut yang tidak perlu saling terpisah

dengan yang lain. Dalam hal ini, jaringan ini memiliki multiple output dan nilai dari output

variabel yk merepresentasikan probabilitas adanya kemunculan atribut kth. Jika atribut

diperlakukan secara independen, maka distribusi dari nilai target akan memuaskan.

46

Dan sekarang dapat digunakan persamaan 6.118 pada masing-masing distribusi bersyarat untuk memberikan :

Jika sekarang dibangun fungsi likelihood (kemungkinan) dan mengambil logaaritma negatif dalam cara yang biasa , maka akan diperoleh error function dalam bentuk :

Dengan pilihan dari error function ini, output dari jaringan masing-masing harus memiliki

fungsi sigmoid logistic dalam bentuk persamaan 6.123. Sekali lagi, untuk variabel target

dalam bentuk biner t kn

error function-nya menghilang pada nilainya minimum. Jika kisaran

probabilitast knadalah Antara (0,1), minimum kesalahannya akan tergantung pada set data

tertentu, sehingga akan lebih nudah melepas nilai minimum untuk memberikan :

Yang selalu memiliki nilai absolut minimum yang berkaitan dengan { ykn } = 0.

6.9 Cross-entropy for multiple classes ( cross-entropy untuk beberapa kelas)

Kita sekarang kembali ke klasifikasi permasalahan konvensional yang melibatkan kelas

yang saling terpisah satu dengan yang lainnya, dan mempertimbangkan bentuk error

function yang akan diambil jika jumlah kelasnya lebih dari dua. Mempertimbangkan jaringan

dengan satu output t kn untuk setiap kelas, dan yang mana target data mempunyai skema

pengkodingan 1-of-C, jadi t kn ¿ δ kl untuk sebuah pola n dari kelas C1. Probabilitas pengamatan

dari set nilai target t kn ¿ δ kl diberikan sebuah vector inputan xn, hanya terjadi jika p(C1|x)=yl.

Nilai distribusi bersyarat untuk pola ini dapat ditulis sebagai :

47

Jika dibentuk fungsi kemungkinan, dan mengambil logaritma negative maka akan didapatkan error function dalam bentuk :

Minimum absolut dari error functions yang berhubungan dengan { ykn } terjadi ketika yk

n = t kn

untuk semua nilai dari n dan k. Minimal dari error function- nya diambil dari nilai :

Untuk skema koding 1-of-c nilai minimumnya adalah 0. Namun, fungsi error pada persamaan 6.148 masih tetap valid, sebagaimana yang terlihat, ketika t k

nadalah sebuah variabel kontinyu yang berkisaran Antara (0,1) merepresentasikan probabilitas inputan xn

termasuk kedalam kelas Ck. Dalam hal ini minimum dari error-function tidak perlu dihilangkan ( karena merupakan representasi entropy dari distribusi variabel target yang akan dibahas selanjutnya). Hal ini akan memudahkan untuk melepas nilai minimumnya, sehingga dapat

diperoleh error function dalam bentuk :

Yang mana persamaan ini merupakan non-negatif, dan akan sama dengan nol jika ykn = t k

n untuk semua nilai k dan n.

Sekarang akan dipertimbangkan fungsi aktivasi yang sesuai yang harus digunakan untuk unit-unit output dari jaringan. Jika nilai-nilai output yang diinterpretasikan sebagai probabilitas, maka nilai-nilai tersebut kisarannya harus terletak Antara (0,1), dan harus berjumlah kesatuan. Hal ini dapat dicapai dengan menggunakan generalisasi dari sigmoid logistic fungsi aktivasi yang berbentuk :

48

Yang mana persamaan tersebut dikenal sebagai normalisasi eksponensial, atau fungsi aktivasi softmax (Bridle,1990). Istilah softmax digunakan karena merupakan versi yang lebih halus dari model fungsi winner-takes-all dimana unit dengan input terbesar memiliki output +1 sementara semua unit yang lain memiliki keluaran 0. Jika eksponensial pada persamaan 6.151 dimodifikasi menjadi bentuk expβαk, kemudian aktivasi winner-takes-all direcover dalam batasan β→∞. Fungsi aktivasi Softmax dapat dianggap sebagai generalisasi dari fungsi logistik, karena dapat ditulis dalam bentuk :

Dimana nilai Ak diperoleh dari :

Sama seperti logistic sigmoid, dapat diberikan dorongan umum untuk softmax aktivasi dengan mempertimbangkan probabilitas posterior bahwa z unit tersembunyi termasuk kedalam kelas C k, di mana kepadatan kelas-bersyarat diasumsikan milik keluarga dari distribusi eksponensial dalam bentuk umum :

Dari teorema Bayes , probabilitas posterior kelas C k ditulis dalam bentuk :

Mensubstitusi persamaan 6.154 kedalam persamaan 6.155 sehingga diperoleh :

Sehingga dapat didefinisikan bahwa :

49

Hasil dari persamaan 6,156 merupakan lapisan akhir dari jaringan dengan fungsi aktivasi Softmax, dan menunjukkan bahwa output dapat diartikan sebagai probabilitas keanggotaan kelas, dikondisikan pada output dari unit tersembunyi.

Dalam mengevaluasi turunan dari fungsi kesalahan Softmax, perlu mempertimbangkan masukan untuk semua unit output, jadi : (untuk pola n)

Dari persamaan 6.151 harus :

Sedangkan dari persamaan 6.150 terdapat persamaan :

Substitusi persamaan 6.161 dan 6.162 kedalam persamaan 6.160, sehingga ditemukan

persamaan :

Ini merupakan hasil yang sama yang ditemukan pada kedua sum-of-square error (dengan fungsi aktivasi linear) dan two-class entropy-error (dengan fungsi aktivasi logistik). Sekali lagi, dapat ditemukan bahwa terdapat pasangan alami dari error function dan fungsi aktivasi.

6.10 Entropi

50

Konsep entropi sebenarnya di kembangkan oleh para ahli fisika dalam konteks

keseimbangan dari termodinamika dan dikembangkan kembali melalui mekanik statistik.

Teori ini sudah diperkenalkan kedalam teori informasi oleh Shannon (1948). Disini kita

memahami dua fungsi yang berbeda yaitu p(x) untuk salah satu variable x. hal ini sama

dengan masa jenis sebagai histogram yang dimana x-axis telah terbagi dalam konsep yang di

tentukan oleh bilangan bulat i. pikirkan sebuah histogram dengan menempatkan total N

kesamaan distrik objek kedalam bin, sehingga bin yang mengandung objek Ni,. Karena ada N

cara menentukan objek yang pertama, (N-1) cara menentukan objek yang kedua, dan

seterusnya, itulah total dari N begitulah cara menentukan Objek N. Penyusunan ulang

angkanya dalam menghitung jumlah objek berbeda, dikenal sebagai multiplisiti, yang

ditentukan melalui rumus :

Entropi ditentukan sebagai (konstanta) logaritma negativ dari multiplisiti sehingga.

Kita sudah menemukan limit N – yang memberikan hasil

Pada gambar 6.13 pada sempel dua gaussian fungsi dengan varians parameter a =

0,4 dan = 0,08, masing-masing berisi 1000 poin dan distribusi yang memiliki entropi rendah

dimana pi = Ni / N (N -> oo) dan merupakan probabilitas yang sesuai dengan nilai yang

terkecil sehingga pi = 1 / M dimana M adalah jumlah total bin Jika adalah lebar setiap bin,

51

maka massa probabilitas di bin , sehingga entropi bisa

ditulis dalam bentuk

Telah digunakan fungsi ∫p(x)dx=1 dimana fungsi tersebut menyimpang dalam batas M→∞

Dalam tujuan untuk menentukan ukuran entropi yang bermakna, karena tidak tergantung

dari p (x),dan hanya menggunakan istilah pertama di sisi kanan (6,168), yang disebut entropi

diferensial. Untuk distribusi yang merupakan fungsi dari beberapa variabel, kita

mendefinisikan entropi untuk menjadi

diamana x=(x1 , ...xd)T Untuk kasus tunggal x variabel pada sumbu tak terbatas (∞,∞)

kita memaksimalkan :

bahwa kendala distribusi menjadi normal dan bahwa mean dan varians distribusi merupakan

nilai yang ditetapkan :

Memperkenalkan Lagrange λ1,λ2❑dan λ3 (Lampiran C) untuk masing-masing

kendala, dapat kita menggunakan kalkulus variasi (Lampiran D) untuk memaksimalkan fungsi

Yang mengarah ke persamaan :

Akhirnya memberikan ekspresi untuk memaksimalkan distribusi tersebut dalam bentuk

52

Jadi Gaussian melihat bahwa distribusi memiliki entropi maksimum, untuk diberikan

mean dan varian, jumlah informasi, atau ekuivalen 'tingkat kejutan', yang diperoleh ketika

kita belajar bahwa peristiwa tertentu telah terjadi. Kami berharap bahwa informasi akan

tergantung pada p probabilitas, karena jika p = 1. Oleh karena itu kita mencari ukuran

informasi s (p) yang terus menerus, secara monoton meningkatkan fungsi p dan yang

sedemikian rupa sehingga s (l) = 0 Sebuah ekspresi yang tepat dapat diperoleh sebagai

berikut. Pertimbangkan dua independen peristiwa A dan B, dengan probabilitas PA dan ps •

Jika kita tahu bahwa kedua peristiwa terjadi kemudian informasi S(PA PB) jika informasi A

telah terjadi, maka informasi residual B harus terjadi S(PA PB) – S(PA) maka harus sama S

(PB) karena pengetahuan bahwa A telah terjadi seharusnya tidak mempengaruhi informasi

yang dihasilkan dari pembelajaran yang terjadi B. Hal ini menyebabkan kondisi berikut :

Bahwa dapat disimpulkan S(P2)=2S (p) dan dengan induksi S(pN)=N s(p) untuk integer N.

Demikian pula, S(P)=S([ p1/N ]N)=N s( p¿¿1/N )¿ dan dengan perpanjangan

S(pM /N)=(M/N)S(P) Ini berarti bahwa S(PX)=XS(P) untuk x rasional dan karenanya, dengan

kontinuitas, untuk real x. Jika Z= - log2p dan P = (1/2)Z

Maka persamaan :

Hal ini konvensional untuk memilih s (l / 2) = 1. Kita melihat bahwa jumlah informasi

sebanding dengan logaritma dari probabilitas. Ini timbul pada dasarnya karena cara

independen, probabilitas dan perkalian. variabel acak yang yang dapat mengambil nilai

α kP (α k) Jika pengirim ingin mengirimkan nilai ke penerima, maka jumlah informasi (dalam

bit) ini adalah – lnp(α k) jika variabel mengambil Nilai demikian α k diharapkan (rata-rata)

informasi yang diperlukan untuk mengirimkan nilai yang diberikan oleh persamaan :

53

yang merupakan entropi dari variabel acak α. Dengan demikian S(α) sebagai jumlah rata-rata

dari informasi yang diterima ketika nilai yang diamati. Rata-rata pesan biner diperlukan

untuk mengirimkan nilai dari entropi α.Hal ini dikenal sebagai coding teorema (Shannon,

1948, Viterbi dan Omura, 1979). Kembali ke kasus variabel kontinu, dilambangkan dengan

vektor x, Jika kita menyandikan nilai x untuk transmisi ke penerima, maka kita harus (secara

implisit maupun eksplisit) memilih q distribusi (x) untuk membangun coding. Informasi

diperlukan untuk mengkodekan nilai x dalam distribusi ini hanya – ln g(x).Jika

variabel x diambil dari p distribusi yang benar (x) maka informasi rata-rata

diperlukan untuk mengkodekan x diberikan oleh

Yang merupakan cross-entropyantara distribusi q (x) dan p (x). Perbandingan dengan

(2.68) menunjukkan bahwa sama dengan negatif log kemungkinan di bawah model q

distribusi (x) saat distribusi yang benar adalah p (x). ). Hal ini juga sama dengan jumlah dari

jarak Kullback-Leibler antara p (x) dan q (x), yang diberikan oleh (2.70), dan sejak Dalam

entropi p (x) maka

Dari semua distribusi kemungkinan q (x), pilihan yang memberikan informasi rata-rata

terkecil, yaitu nilai terkecil untuk crossentropy tersebut, adalah distribusi p benar (x) Karena

entropi p (x) independen dari q distribusi (x), kita lihat dari (6,182) yang meminimalkan silang

entropi setara dengan meminimalkan jarak Kullback-Leibler. Untuk variabel yang yang

mengambil seperangkat nilai diskrit a kita dapat menulis (6,181) di Bentuk

Pertimbangkan pertama jaringan dengan output yk (X) mewakili model probabilitas

untuk x milik kelas C k yang sesuai menganggap bahwa kami juga memiliki satu set variabel

target t k mewakili probabilitas. Kemudian ditarik secara independen dari distribusi umum,

informasi tersebut aditif dan karenanya total crossentropy menjadi

54

Untuk satu set titik data N yang dianggap ditarik secara independen dari distribusi

umum, informasi tersebut aditif dan karenanya total crossentropy diberikan oleh

persamaan :

yang dapat digunakan sebagai fungsi kesalahan untuk pelatihan jaringan.

Dilihat dari bentuk fungsi error berlaku tidak hanya ketika target t kn memiliki satu-of-c

coding tetapi juga ketika mereka di kisaran 0≤t kn≤1untukkendala untuk kendala

sesuai dengan probabilitas keanggotaan kelas. Untuk dua kelas, kita dapat

mempertimbangkan jaringan dengan output y yang mewakili probabilitas model untuk

keanggotaan kelas C1 dengan sesuai t probabilitas. Model probabilitas untuk keanggotaan

kelas C2 dan 1 - y, dan probabilitas yang sesuai adalah 1 - t. Mengikuti garis yang sama

argument seperti di atas kita kemudian tiba di fungsi error cross-entropy untuk dua kelas dan

N titik data dalam bentuk :

6.11 General conditions for outputs to be probabilities

Sejauh ini, kami telah mempertimbangkan tiga langkah kesalahan yang berbeda (sum-

of-squares, cross-entropy untuk satu output, dan cross-entropyuntuk jaringan Softmax) yang

semuanya memungkinkan output jaringan yang akan ditafsirkan sebagai probabilitas. Oleh

karena itu ukuran kesalahan harus memenuhi agar jaringan output memiliki properti ini.

Diskusi yang diberikan di sini didasarkan pada bahwa Hampshire dan Pearlmutter (1990).

Semua langkah-langkah error yang kami sedang mempertimbangkan mengambil bentuk

penjumlahan kesalahan untuk setiap pola E=∑n En error menjadi jumlah atas istilah untuk

setiap unit output yang terpisah. Hal ini terkait asumsi bahwa distribusi variabel target yang

berbeda statistik secara independen. Jadi kita menulis persamaan :

55

di mana f merupakan beberapa fungsi yang akan ditentukan selanjutnya. Kita juga akan

mengasumsikan hanya bergantung pada besarnya perbedaan antara yk dan t k jadi

f ( ykn , tkn)=f (|ykn−t kn|) menjadi batas dari kumpulan data tak terbatas, kita dapat menulis Rata-

rata per-pola kesalahan dalam benntuk

Jika kita menggunakan skema target 1-of-c coding, maka dari (6.99) kita dapat menulis syarat

distribusi variabel target dalam bentuk

Sekarang akan diganti (6,189) ke (6,188) dan dievaluasi fungsi integral atas t k yang dimana

variabel (hanya melibatkan integral dari 6-fungsi) untuk memberikan :

di mana kita telah menggunakan ∑kP (C k|x )=1dan diasumsikan bahwa 0≤ yk≤1 sehingga

tanda-tanda modulus dapat dihilangkan. Kondisi yang rata-rata per-pola memiliki kesalahan

dalam gambar (6,190) minimal hubungan dengan yk (X) diberikan dengan menetapkan

turunan fungsional (E) (Lampiran D) ke nol oleh persamaan :

Yang mana diberikan persamaan :

Jika output dari jaringan digunakan untuk mewakili probabilitas, sehingga fungsi

yk (x ) =P(C k∨x) harus memenuhi kondisi:

56

Sebuah kelas fungsi yang memenuhi kondisi ini diberikan persamaan :

Untuk r = 1 kita memperoleh yang memberikan sum-of-squares fungsi kesalahan.

Demikian pula, untuk r = 0 kita memperoleh f(y) = - ln(1-y)= - ln(1-|y|) yang menimbulkan

untuk fungsi kesalahan cross-entropi. Untuk melihat ini, pertimbangkan satu output dan

catatan bahwa f(y,t)= - ln(1-|y-t|)= - ln(y)if t = 1 dan f(y,t)= - ln(1-|y-t|)= - ln(1-y) jika t=0

dimasukkan kedalam sebuah ekspresi tunggal sehingga membentuk :

Menjumlahkan semua output, seperti dalam persamaan 6.187, kemudian semua

pola memberikan cross-entropy error untuk beberapa atribut independen dalam bentuk

persamaan 6.145.

Sebagai contoh dari error function yang tidak memuaskan pada persamaan

(6.193), mempertimbangkan pengukuran Minkowski-R error, yang diberikan pada f (y) -y R.

Mensubstitusi fungsi tersebut ke (6,193) sehingga memberikan :

yang hanya bisa dilakukan jika R = 2, sesuai dengan persamaan sum-of-squares error.

Untuk R ≠ 2, output dari jaringan tidak sesuai dengan probabilitas posterior, ini

merupakan fungsi diskriminan non-linear, sehingga diperoleh kemungkinan minimum

klasifikasi yang tidak sesuai dengan menetapkan pola untuk kelas yang output jaringannya

terbesar. Untuk melihat pengganti f (y) - y R ke kondisi (6,192) dengan output jaringan

minimum dari fungsi kesalahan, diberikan persamaan :

Dapat dilihat bahwa yk hanya mewakili probabilitas posterior ketika R = 2, sesuai

dengan sum-of-squares error. Namun, penetapan batasan-batasan rate-discriminant yang

sesuai untuk minimum kesalahan klasifikasi untuk semua nilai karena yk adalah fungsi

monoton dari probabilitas posterior P (C k | x).

57