Feature Selection and Redundant Feature Elimination for ...

178
การเลือกคุณลักษณะและขจัดคุณลักษณะซ้าซ้อนส้าหรับการจ้าแนกความคิดเห็นบนเครือข่ายสังคม ออนไลน์ วิทยานิพนธ์ ของ อัจฉรา ชุมพล เสนอต่อมหาวิทยาลัยมหาสารคาม เพื่อเป็นส่วนหนึ่งของการศึกษาตามหลักสูตร ปริญญาปรัชญาดุษฎีบัณฑิต สาขาวิชาวิทยาการคอมพิวเตอร์ กรกฎาคม 2562 สงวนลิขสิทธิ์เป็นของมหาวิทยาลัยมหาสารคาม

Transcript of Feature Selection and Redundant Feature Elimination for ...

การเลอกคณลกษณะและขจดคณลกษณะซ าซอนสาหรบการจาแนกความคดเหนบนเครอขายสงคมออนไลน

วทยานพนธ ของ

อจฉรา ชมพล

เสนอตอมหาวทยาลยมหาสารคาม เพอเปนสวนหนงของการศกษาตามหลกสตร ปรญญาปรชญาดษฎบณฑต สาขาวชาวทยาการคอมพวเตอร

กรกฎาคม 2562 สงวนลขสทธเปนของมหาวทยาลยมหาสารคาม

การเลอกคณลกษณะและขจดคณลกษณะซ าซอนสาหรบการจาแนกความคดเหนบนเครอขายสงคมออนไลน

วทยานพนธ ของ

อจฉรา ชมพล

เสนอตอมหาวทยาลยมหาสารคาม เพอเปนสวนหนงของการศกษาตามหลกสตร ปรญญาปรชญาดษฎบณฑต สาขาวชาวทยาการคอมพวเตอร

กรกฎาคม 2562 สงวนลขสทธเปนของมหาวทยาลยมหาสารคาม

Feature Selection and Redundant Feature Elimination for Opinion Classification on Social Network

Atchara Choompol

A Thesis Submitted in Partial Fulfillment of Requirements for Doctor of Philosophy (Computer Science)

July 2019 Copyright of Mahasarakham University

คณะกรรมการสอบวทยานพนธ ไดพจารณาวทยานพนธของนางอจฉรา ชมพล แลวเหนสมควรรบเปนสวนหนงของการศกษาตามหลกสตรปรญญา ปรชญาดษฎบณฑต สาขาวชาวทยาการคอมพวเตอร ของมหาวทยาลยมหาสารคาม

คณะกรรมการสอบวทยานพนธ

(ผศ. ดร. วรารตน สงฆแปน )

ประธานกรรมการ

(ผศ. ดร. พนดา ทรงรมย )

อาจารยทปรกษาวทยานพนธหลก

(ผศ. ดร. พฒนพงษ ชมภวเศษ )

อาจารยทปรกษาวทยานพนธรวม

(ผศ. ดร. มนสว แกนอาพรพนธ )

กรรมการ

(ผศ. ดร. ฉตรเกลา เจรญผล )

กรรมการ

มหาวทยาลยอนมตใหรบวทยานพนธฉบบน เปนสวนหนงของการศกษาตามหลกสตร

ปรญญา ปรชญาดษฎบณฑต สาขาวชาวทยาการคอมพวเตอร ของมหาวทยาลยมหาสารคาม

(ผศ. ศศธร แกวมน )

คณบดคณะวทยาการสารสนเทศ

(ผศ. ดร. กรสน ชยมล ) คณบดบณฑตวทยาลย

บทค ดยอ ภาษาไทย

ชอเรอง การเลอกคณลกษณะและขจดคณลกษณะซ าซอนสาหรบการจาแนกความคดเหนบนเครอขายสงคมออนไลน

ผวจย อจฉรา ชมพล อาจารยทปรกษา ผชวยศาสตราจารย ดร. พนดา ทรงรมย ผชวยศาสตราจารย ดร. พฒนพงษ ชมภวเศษ ปรญญา ปรชญาดษฎบณฑต สาขาวชา วทยาการคอมพวเตอร มหาวทยาลย มหาวทยาลยมหาสารคาม ปทพมพ 2562

บทคดยอ

งานวจยน จงไดนาเสนอข นตอนวธในการคดเลอกคณลกษณะและการลดคณลกษณะท

ซ าซอนสาหรบการจาแนกความคดเหนบนเครอขายสงคมออนไลน การคดเลอกคณลกษณะอาศยหลกการผสมผสานแนวคดวธฟลเตอรโมเดลรวมกบแนวคดวธการกฎความสมพนธ นาคาสนบสนนและคาความเชอมนมาพจารณารวมกนเพอใหคาน าหนกของคณลกษณะ โดยทาการปรบคาสนบสนนใหอยในชวง 0-1 เพอไมใหมคาสนบสนนของแตทมากเกนไป และนาคาพารามเตอรทเรยกวา p มาใชเพอถวงน าหนกระหวางคาสนบสนนและคาความเชอมน นอกจากน งานวจยน ยงไดนาเสนอการขจดคณลกษณะทซ าซอนโดยพจารณาจากคณลกษณะทเกดรวมกนในเอกสารเดยวกน แลวทาการเลอกคณลกษณะทมคาน าหนกสงสดและตดคณลกษณะทเหลอออก จากการทดลองแสดงใหเหนวา วธการคดเลอกคณลกษณะทนาเสนอใหประสทธภาพในการจาแนกสงเมอขอมลมขนาดใหญท คา p = 0.8 และใหคาความถกตองสงกวาวธการอน อยางมนยสาคญท 0.05 เมอเปรยบเทยบกบข นตอนวธการคดเลอกคณลกษณะแบบฟลเตอรโมเดล 3 วธ ไดแก วธการ Information Gain วธการ Chi-Square วธการ Gini Index และใชเวลาในการคดเลอกคณลกษณะนอยทสด การขจดคณลกษณะทซ าซอนดวยวธการทนาเสนอทาใหจานวนคณลกษณะลดลง แตไมไดลดประสทธภาพในการจาแนก

คาสาคญ : การวเคราะหความคดเหน, การคดเลอกคณลกษณะ, การขจดคณลกษณะซ าซอน

บทค ดยอ ภาษาองกฤษ

TITLE Feature Selection and Redundant Feature Elimination for Opinion Classification on Social Network

AUTHOR Atchara Choompol ADVISORS Assistant Professor Panida Songram , Ph.D. Assistant Professor Phatthanaphong Chompoowises , Ph.D. DEGREE Doctor of Philosophy MAJOR Computer Science UNIVERSITY Mahasarakham

University YEAR 2019

ABSTRACT

This research therefore presents methods for selecting features and

eliminating redundant features for opinion classification on social networks. In feature selection method, it selects features based on the concept of filter model together with the concept of association rules. Support and confidence values are used to calculated weight of feature. The support is normalized to 0-1 to remove outlier support. The parameter p is adapted to weight between the support and confidence values. In addition, this research presents the elimination of redundant features. If features are in the same documents, the feature having the highest weight is keep and the remaining features are eliminated. From the experiment results in feature selection, they show that the proposed method provides high classification efficiency on big dataset when p = 0.8. It gives higher accuracy than Information Gain, Chi-Square, and Gini Index with significance at 0.05. Moreover, it outperforms information Gain, Chi-Square, and Gini Index in computation time. For experimental results in redundant feature elimination, they show that the proposed method can reduce the number of features without efficiency of classification losses.

Keyword : Opinion Mining, Feature Selection, Eliminating Redundant Features

กตตกรรมประกาศ

กตตกรรมประกาศ

วทยานพนธฉบบน สาเรจสมบรณไดดวยความกรณาเปนอยางสงจาก ผชวยศาสตราจารย ดร.พนดา ทรงรมย อาจารยทปรกษาวทยานพนธหลก และผชวยศาสตราจารย ดร.พฒนพงษ ชมภวเศษ อาจารยทปรกษาวทยานพนธรวม ทานไดเมตตาใหความร ชวยเหลอและใหแนวคดตลอดจนคาแนะนาในการปรบปรงแกไขขอบกพรองตาง ๆ ต งแตเรมตนจนสาเรจลลวงสมบรณ ผวจยซาบซ งในความกรณาและขอกราบขอบพระคณเปนอยางสง

ขอกราบขอบพระคณ ผชวยศาสตราจารย ดร.วรารตน สงฆแปน ประธานกรรมการสอบวทยานพนธ ผชวยศาสตราจารย ดร.ฉตรเกลา เจรญผล และผชวยศาสตราจารย ดร.มนสว แกนอาพรพนธ กรรมการควบคมวทยานพนธ ทกรณาใหคาปรกษา คาแนะนาและแนวคด ตลอดจนแนวทางแกไขขอบกพรองในการทาวทยานพนธ

ขอขอบพระคณอาจารยสรายทธ กรวรตน ทใหคาแนะนาและคอยชวยเหลอในการพฒนาและปรบปรงเครองมอทใชในการวจยในคร งน จนงานสาเรจลลวงตามวตถประสงค

ขอขอบพระคณเพอนรวมงานคณะวศวกรรมศาสตรและเทคโนโลยอตสาหกรรม มหาวทยาลยกาฬสนธ และพนองชาวสานกคอมพวเตอรมหาวทยาลย มหาวทยาลยมหาสารคามทกทาน ทหมนไตถามความกาวหนาดวยความหวงใย ใหกาลงและคอยชวยเหลอแกผวจยตลอดระยะเวลาทเขยนวทยานพนธ

ขอขอบพระคณนางพรลภส โรมานชค นายอมต ชมพล นางสาวภสสรนวรตน ภมชชต นางสาวปรยาวด ภมชชต เดกหญงเอวารนทร ชมพล ตลอดจนญาตพนองทกคน ทคอยสงเสรมสนบสนน ใหความหวงใย และเปนกาลงใจใหกบผวจยมาโดยตลอด

ขอกราบขอบพระคณคณพอประกาศต ภมชชต คณแมจอน ภมชชต ผทมอบทรพยสมบตอนมคายงคอการศกษาและคอยเปนกาลงใจใหผวจยเสมอมา ทกคาสอนของทานเปนพลงยงใหญททาใหผวจยมแรงผลกดนในการทาใหการวจยคร งน ใหสาเรจลลวงไปดวยด

ขอขอบพระคณมหาวทยาลยกาฬสนธทไดกรณามอบทนอดหนนในการศกษาต อระดบปรญญาเอกแกผวจยในคร งน

อจฉรา ชมพล

สารบญ

หนา บทคดยอภาษาไทย ............................................................................................................................. ง

บทคดยอภาษาองกฤษ ....................................................................................................................... จ

กตตกรรมประกาศ............................................................................................................................. ฉ

สารบญ .............................................................................................................................................. ช

สารบญตาราง .................................................................................................................................... ฎ

สารบญภาพ ...................................................................................................................................... ด

บทท 1 บทนา ................................................................................................................................... 1

1.1 หลกการและเหตผล ............................................................................................................... 1

1.2 วตถประสงคของการวจย ....................................................................................................... 2

1.3 ความสาคญของการวจย ......................................................................................................... 2

1.4 ขอบเขตของการวจย .............................................................................................................. 3

1.5 นยามศพทเฉพาะ ................................................................................................................... 3

บทท 2 ทฤษฎและงานวจยทเกยวของ .............................................................................................. 5

2.1 การทาเหมองความคดเหน (Opinion Mining) ...................................................................... 5

2.2 ข นตอนการเตรยมขอมล (Data Preprocessing) .................................................................. 6

2.2.1 การตดคา ..................................................................................................................... 8

2.2.2 การกาจดคาหยด ......................................................................................................... 9

2.2.3 การทาความสะอาดขอมล .......................................................................................... 11

2.2.4 การหารากคาศพท ..................................................................................................... 11

2.2.5 การสกดคณลกษณะ .................................................................................................. 12

2.3 วธการจาแนกประเภทความคดเหน (Opinion Classifier Algorithm) ................................ 15

2.3.1 วธการใชคลงคา (Lexical Based) ............................................................................. 15

2.3.2 วธการเรยนรของเครอง (Machine Learning) .......................................................... 18

2.3.3 วธการผสมผสาน (Hybrids Methodology) ............................................................. 25

2.4 การประมวลผลภาษาธรรมชาต ............................................................................................ 26

2.4.1 ระดบการวเคราะหภาษาธรรมชาต ............................................................................ 27

2.4.2 เทคนคการประมวลผลภาษาธรรมชาต ...................................................................... 27

2.4.3 องคประกอบของภาษาธรรมชาต ............................................................................... 28

2.5 การคดเลอกคณลกษณะสาหรบทาเหมองขอความ (Feature Selection for Text Mining)28

2.5.1 วธฟลเตอร (Filter models) ..................................................................................... 29

2.5.2 วธ Wrapper Models .............................................................................................. 34

2.5.3 วธ Embedded Models .......................................................................................... 34

2.6 รปแบบขอมลแนวต ง (Vertical Data Format) ................................................................... 35

2.7 การวดประสทธภาพในการจาแนกขอมล (Evaluation) ....................................................... 37

2.7.1 การแบงขอมล ............................................................................................................ 37

2.7.2 การวดประสทธภาพการจาแนก ................................................................................. 39

2.8 งานวจยทเกยวของ............................................................................................................... 41

2.8.1 งานวจยทใชวธการใชคลงคา ...................................................................................... 41

2.8.2 งานวจยทใชวธการเรยนรของเครอง .......................................................................... 43

2.8.3 งานวจยทใชวธการใชคลงคารวมกบเรยนรของเครอง ................................................ 46

2.8.4 งานวจยทนาเสนอวธการลดคณลกษณะ .................................................................... 51

บทท 3 วธดาเนนการวจย ................................................................................................................ 56

3.1 การรวบรวมขอมล (Data Collected) ................................................................................. 57

3.2 การเตรยมขอมล (Data Preprocessing) ............................................................................ 64

3.2.1 การทาความสะอาดขอความ (Text Cleaning) ......................................................... 65

3.2.2 การกาจดคาหยด (Stop Word Removal) ............................................................... 66

3.2.3 การหารากคาศพท (Stemming) ............................................................................... 67

3.2.4 การตดคา ................................................................................................................... 69

3.4 การแทนคาในเอกสาร (Document Representation) ....................................................... 72

3.5 การคดเลอกคณลกษณะ (Feature Selection) ................................................................... 73

3.5 การลดคณลกษณะทซ าซอน ................................................................................................. 79

3.6 การแบงขอมล ...................................................................................................................... 81

3.7 กระบวนการจาแนกความคดเหน (Sentiment Classification) .......................................... 82

บทท 4 ผลการวจยและการอภปราย ............................................................................................... 86

4.1 เครองมอและขอมลทใชในการทดลอง .................................................................................. 86

4.1.1 เครองมอทใชในการทดลอง ....................................................................................... 86

4.1.2 ผลการรวบรวมขอมลในการทดลอง ........................................................................... 86

4.1.3 ผลการจดเตรยมขอมล ............................................................................................... 87

4.2 วธการทดลอง....................................................................................................................... 87

4.3 ผลการทดลอง ...................................................................................................................... 88

4.3.1 ผลการเปรยบเทยบประสทธภาพของวธการเลอกคณลกษณะ ................................... 88

4.3.2 ผลการวดประสทธภาพดานเวลา ............................................................................. 138

4.3.3 ผลการประเมน Big-O ............................................................................................. 142

4.3.3 ผลการวดประสทธภาพการลดคณลกษณะทซ าซอน ................................................ 147

บทท 5 สรปผลการวจย ................................................................................................................. 151

5.1 สรปผลและอภปราย .......................................................................................................... 151

5.2 ขอเสนอแนะ ...................................................................................................................... 152

บรรณานกรม ................................................................................................................................. 153

ประวตผเขยน ................................................................................................................................ 160

สารบญตาราง

หนา ตาราง 1 ตวอยางการตดคาภาษาองกฤษ ......................................................................................... 8

ตาราง 2 ตวอยางคาหยดในภาษาองกฤษ ........................................................................................ 10

ตาราง 3 ตวอยางของเทอมทมรากคาศพทเปน Engineer ............................................................... 12

ตาราง 4 รปแบบเวกเตอรแนวนอน (Horizontal Vector) .............................................................. 36

ตาราง 5 ตวอยางรปแบบขอมลแนวต ง (Vertical Data Format) ................................................ 37

ตาราง 6 Confusion Matrix .......................................................................................................... 39

ตาราง 7 จานวนชดขอมลท งหมด .................................................................................................... 58

ตาราง 8 ชดขอมลทใชในการวจย .................................................................................................... 58

ตาราง 9 คณลกษณะของชดขอมลทใชในการวจย ........................................................................... 58

ตาราง 10 ตวอยางชดขอมลนาเขา .................................................................................................. 72

ตาราง 11 ตวอยางคณลกษณะทไดจากการคดเลอก ....................................................................... 73

ตาราง 12 ตวอยางการแทนคาในเอกสาร ........................................................................................ 73

ตาราง 13 รปแบบเวกเตอรแนวนอน .............................................................................................. 74

ตาราง 14 ตวอยางขอมลทอยในรปแบบเวกเตอรแนวนอน ............................................................ 74

ตาราง 15 รปแบบขอมลแนวต ง (Vertical Data) .......................................................................... 75

ตาราง 16 ตวอยางเวกเตอรแนวนอน .............................................................................................. 79

ตาราง 17 รปแบบขอมลแนวต ง (Vertical Data) .......................................................................... 79

ตาราง 18 ตวอยางขอมลหลงผานกระบวนการลดคณลกษณะ ...................................................... 80

ตาราง 19 Confusion Matrix ....................................................................................................... 83

ตาราง 20 ชดขอมลทใชในการวจย ................................................................................................. 87

ตาราง 21 คณลกษณะของแตละชดขอมล ....................................................................................... 87

ตาราง 22 คาความถกตองของชดขอมล STS .................................................................................. 89

ตาราง 23 ผลการวเคราะห Paired-Sample t-test คาความถกตองของขอมลชด STS ................. 89

ตาราง 24 คาความแมนยาของชดขอมล STS ในคลาสเชงบวก ....................................................... 90

ตาราง 25 ผลการวเคราะห Paired-Sample t-test คาความแมนยาของขอมลชด STS ในคลาสเชงบวก ................................................................................................................................................. 90

ตาราง 26 คาความแมนยาของชดขอมล STS ในคลาสเชงลบ ......................................................... 91

ตาราง 27 ผลการวเคราะห Paired-Sample t-test คาความแมนยาของขอมลชด STS ในคลาสเชงลบ ................................................................................................................................................... 91

ตาราง 28 คาความระลกของชดขอมล STS ในคลาสเชงบวก .......................................................... 92

ตาราง 29 ผลการวเคราะห Paired-Sample t-test คาความระลกของขอมลชด STS ในคลาสเชงบวก ................................................................................................................................................. 92

ตาราง 30 คาความระลกของชดขอมล STS ในคลาสเชงลบ ............................................................ 93

ตาราง 31 ผลการวเคราะห Paired-Sample t-test คาความระลกของขอมลชด STS ในคลาสเชงลบ ................................................................................................................................................... 94

ตาราง 32 คาประสทธภาพโดยรวมของชดขอมล STS ในคลาสเชงบวก .......................................... 94

ตาราง 33 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของขอมลชด STS ในคลาสเชงบวก .................................................................................................................................. 95

ตาราง 34 คาประสทธภาพโดยรวมของชดขอมล STS ในคลาสเชงลบ ............................................ 96

ตาราง 35 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของขอมลชด STS ในคลาสเชงลบ .................................................................................................................................... 96

ตาราง 36 คาความถกตองของชดขอมล SemEval ......................................................................... 97

ตาราง 37 ผลการวเคราะห Paired-Sample t-test คาความถกตองของขอมลชด SemEval ........ 97

ตาราง 38 คาความแมนยาของชดขอมล SemEval ในคลาสเชงบวก .............................................. 98

ตาราง 39 ผลการวเคราะห Paired-Sample t-test คาความแมนยาของชดขอมล SemEval ในคลาสเชงบวก .................................................................................................................................. 99

ตาราง 40 คาความแมนยาของชดขอมล SemEval ในคลาสเชงลบ .............................................. 100

ตาราง 41 ผลการวเคราะห Paired-Sample t-test คาความแมนยาของชดขอมล SemEval ในคลาสเชงลบ .................................................................................................................................. 100

ตาราง 42 คาความระลกของชดขอมล SemEval ในคลาสเชงบวก ............................................... 101

ตาราง 43 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล SemEval ในคลาสเชงบวก ......................................................................................................................................... 101

ตาราง 44 คาความระลกของชดขอมล SemEval ในคลาสเชงลบ ................................................. 102

ตาราง 45 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล SemEval ในคลาสเชงลบ ........................................................................................................................................... 103

ตาราง 46 คาประสทธภาพโดยรวมของชดขอมล SemEval ในคลาสเชงบวก ............................... 104

ตาราง 47 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของชดขอมล SemEval ในคลาสเชงบวก ............................................................................................................................ 104

ตาราง 48 คาประสทธภาพโดยรวมของชดขอมล SemEval ในคลาสเชงลบ ................................. 105

ตาราง 49 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของชดขอมล SemEval ในคลาสเชงลบ .............................................................................................................................. 106

ตาราง 50 คาความถกตองของชดขอมล SS-Twitter .................................................................... 107

ตาราง 51 ผลการวเคราะห Paired-Sample t-test คาความถกตองของชดขอมล SS-Twitter ... 107

ตาราง 52 คาความแมนยาของชดขอมล SS-Twitter ในคลาสเชงบวก .......................................... 108

ตาราง 53 ผลการวเคราะห Paired-Sample t-test คาความแมนยาของชดขอมล SS-Twitter ในคลาสเชงบวก ................................................................................................................................ 109

ตาราง 54 คาความแมนยาของชดขอมล SS-Twitter ในคลาสเชงลบ ............................................ 110

ตาราง 55 ผลการวเคราะห Paired-Sample t-test คาความแมนยาของชดขอมล SS-Twitter ในคลาสเชงลบ .................................................................................................................................. 110

ตาราง 56 คาความระลกของชดขอมล SS-Twitter ในคลาสเชงบวก ............................................ 111

ตาราง 57 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล SS-Twitter ในคลาสเชงบวก ................................................................................................................................ 112

ตาราง 58 คาความระลกของชดขอมล SS-Twitter ในคลาสเชงลบ .............................................. 113

ตาราง 59 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล SS-Twitter ในคลาสเชงลบ .................................................................................................................................. 113

ตาราง 60 คาประสทธภาพโดยรวมของชดขอมล SS-Twitter ในคลาสเชงบวก ............................ 114

ตาราง 61 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวม ของชดขอมล SS-Twitter ในคลาสเชงบวก .............................................................................................................. 114

ตาราง 62 คาประสทธภาพโดยรวมของชดขอมล SS-Twitter ในคลาสเชงลบ............................... 116

ตาราง 63 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวม ของชดขอมล SS-Twitter ในคลาสเชงลบ ................................................................................................................ 116

ตาราง 64 คาความถกตองของชดขอมล HCR ............................................................................... 117

ตาราง 65 ผลการวเคราะห Paired-Sample t-test คาความถกตองของชดขอมล HCR .............. 117

ตาราง 66 คาความแมนยาของชดขอมล HCR ในคลาสเชงบวก .................................................... 119

ตาราง 67 ผลการวเคราะห Paired-Sample t-test คาความแมนยาของชดขอมล HCR ในคลาสเชงบวก ............................................................................................................................................... 119

ตาราง 68 คาความแมนยาของชดขอมล HCR ในคลาสเชงลบ....................................................... 120

ตาราง 69 ผลการวเคราะห Paired-Sample t-test คาความแมนยาของชดขอมล HCR ในคลาสเชงลบ ................................................................................................................................................. 120

ตาราง 70 คาความระลกของชดขอมล HCR ในคลาสเชงบวก ....................................................... 122

ตาราง 71 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล HCR ในคลาสเชงบวก ............................................................................................................................................... 122

ตาราง 72 คาความระลกของชดขอมล HCR ในคลาสเชงลบ ......................................................... 123

ตาราง 73 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล HCR ในคลาสเชงลบ ................................................................................................................................................. 123

ตาราง 74 คาประสทธภาพโดยรวมของชดขอมล HCR ในคลาสเชงบวก ....................................... 124

ตาราง 75 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของชดขอมล HCR ในคลาสเชงบวก ................................................................................................................................ 125

ตาราง 76 คาประสทธภาพโดยรวมของชดขอมล HCR ในคลาสเชงลบ ......................................... 126

ตาราง 77 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของชดขอมล HCR ในคลาสเชงลบ .................................................................................................................................. 126

ตาราง 78 คาความถกตองของชดขอมล Sanders ........................................................................ 128

ตาราง 79 ผลการวเคราะห Paired-Sample t-test คาความถกตองของชดขอมล Sanders ....... 128

ตาราง 80 คาความแมนยาของชดขอมล Sanders ในคลาสเชงบวก .............................................. 129

ตาราง 81 ผลการวเคราะห Paired-Sample t-test คาความแมนยาของชดขอมล Sanders ในคลาสเชงบวก ................................................................................................................................ 130

ตาราง 82 คาความแมนยาของชดขอมล Sanders ในคลาสเชงลบ ................................................ 131

ตาราง 83 ผลการวเคราะห Paired-Sample t-test คาความแมนยาของชดขอมล Sanders ในคลาสเชงลบ .................................................................................................................................. 131

ตาราง 84 คาความระลกของชดขอมล Sanders ในคลาสเชงบวก ................................................ 132

ตาราง 85 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล Sanders ในคลาสเชงบวก ......................................................................................................................................... 133

ตาราง 86 คาความระลกของชดขอมล Sanders ในคลาสเชงลบ .................................................. 134

ตาราง 87 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล Sanders ในคลาสเชงลบ ........................................................................................................................................... 134

ตาราง 88 คาประสทธภาพโดยรวมของชดขอมล Sanders ในคลาสเชงบวก ................................ 135

ตาราง 89 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของชดขอมล Sanders ในคลาสเชงบวก ............................................................................................................................ 135

ตาราง 90 คาประสทธภาพโดยรวมของชดขอมล Sanders ในคลาสเชงลบ................................... 136

ตาราง 91 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของชดขอมล Sanders ในคลาสเชงลบ .............................................................................................................................. 137

ตาราง 92 ประสทธภาพดานเวลาทใชในการคดเลอกคณลกษณะ ขอมลชด STS .......................... 138

ตาราง 93 ผลการวเคราะห Paired-Sample t-test ประสทธภาพดานเวลาของชดขอมล STS .... 139

ตาราง 94 ประสทธภาพดานเวลาทใชในการคดเลอกคณลกษณะ ขอมลชด SemEval ................. 139

ตาราง 95 ผลการวเคราะห Paired-Sample t-test ประสทธภาพดานเวลาของชดขอมล SemEval ...................................................................................................................................................... 139

ตาราง 96 ประสทธภาพดานเวลาทใชในการคดเลอกคณลกษณะ ขอมลชด SS-Tweet ................ 140

ตาราง 97 ผลการวเคราะห Paired-Sample t-test ประสทธภาพดานเวลาของชดขอมล SS-Tweet ...................................................................................................................................................... 140

ตาราง 98 ประสทธภาพดานเวลาทใชในการคดเลอกคณลกษณะ ขอมลชด HCR ......................... 141

ตาราง 99 ผลการวเคราะห Paired-Sample t-test ประสทธภาพดานเวลาของชดขอมล HCR ... 141

ตาราง 100 ประสทธภาพดานเวลาทใชในการคดเลอกคณลกษณะ ขอมลชด Sander .................. 141

ตาราง 101 ผลการวเคราะห Paired-Sample t-test ประสทธภาพดานเวลาของชดขอมล Sanders ...................................................................................................................................................... 142

ตาราง 102 ผลการทดสอบจานวนคณลกษณะทซ าซอน ................................................................ 147

ตาราง 103 ผลการวดประสทธภาพความถกตอง กอนและหลงการลดคณลกษณะซ าซอน ............ 147

ตาราง 104 ผลการวดประสทธภาพความแมนยา กอนและหลงการลดคณลกษณะซ าซอน ........... 148

ตาราง 105 ผลการวดประสทธภาพคาระลก กอนและหลงการลดคณลกษณะซ าซอน ................... 148

ตาราง 106 ผลการวดประสทธภาพโดยรวม กอนและหลงการลดคณลกษณะซ าซอน ................... 149

ตาราง 107 ประสทธภาพดานเวลา (วนาท) ในการการสรางโมเดลและการทดสอบโมเดลกอนและหลงลดคณลกษณะซ าซอน ............................................................................................................ 149

ตาราง 108 ระยะเวลา (วนาท) ทใชในการลดคณลกษณะซ าซอน ................................................. 150

สารบญภาพ

หนา รปท 1 ข นตอนการเตรยมขอมล ........................................................................................................ 7

รปท 2 การจาแนกความคดเหนดวยวธการใชคลงคา ....................................................................... 17

รปท 3 ข นตอนการจาแนกความคดเหนดวยวธการเรยนรดวยเครอง ............................................... 19

รปท 4 ตวอยางการสรางเสนแบงกลมขอมลของซพพอรทเวกเตอรแมชชน ..................................... 21

รปท 5 การหาคาซพพอรทเวกเตอร................................................................................................. 22

รปท 6 ข นตอนวธการผสมผสาน ..................................................................................................... 25

รปท 7 ข นตอนการทางานของภาษาธรรมชาต ................................................................................ 26

รปท 8 แสดงข นตอนของ Filter Model ......................................................................................... 29

รปท 9 ข นตอนการหาคาการเพมสารสนเทศ ................................................................................... 31

รปท 10 ข นตอนการหาคาไคสแคว ................................................................................................. 32

รปท 11 ข นตอนการหาคา Gini ...................................................................................................... 33

รปท 12 วธการทางานของวธ Wrapper Model ทมา [42] ........................................................... 34

รปท 13 แสดงความถของการเกดคา ทมา [44]............................................................................ 36

รปท 14 ตวอยางข นตอนการทางานของ K-Fold Cross Validation .............................................. 38

รปท 15 ข นตอนการวเคราะหความคดเหนของ Troussas .............................................................. 47

รปท 16 แสดงแนวคดวธการ Semantic Smoothing .................................................................... 52

รปท 17 แสดงแนวคดวธการ Automatic Sentiment-Topic Extraction .................................... 53

รปท 18 ข นตอนการดาเนนการวจย ................................................................................................ 56

รปท 19 ตวอยางขอมลความคดเหนจาก Stanford Twitter Sentiment Data .......................... 59

รปท 20 ตวอยางขอมลชด SemEval-2017 Task4A Dataset ....................................................... 60

รปท 21 ตวอยางขอมลชด Sentiment Strength Twitter Dataset ............................................. 61

รปท 22 ตวอยางขอมลชด Health Care Reform ......................................................................... 62

รปท 23 ตวอยางขอมลชด Sanders Twitter Dataset .................................................................. 63

รปท 24 ข นตอนการเตรยมขอมล.................................................................................................... 64

รปท 25 ข นตอนการทาความสะอาดขอความ ................................................................................. 66

รปท 26 ตวอยางการกาจดคาหยด .................................................................................................. 67

รปท 27 ตวอยางการหารากคาศพทดวยวธการ Porter Stemmer................................................. 69

รปท 28 ข นตอนการตดคา (1) ....................................................................................................... 70

รปท 29 ข นตอนการตดคา (2) ....................................................................................................... 71

รปท 30 ตวอยางการตดคาดวยวธการ Unigram รวมกบ Bigram ................................................. 72

รปท 31 แสดงข นตอนการคดเลอกคณลกษณะ ............................................................................... 78

รปท 32 แสดงข นตอนการตดคณลกษณะทซ าออก ......................................................................... 81

รปท 33 การแบงขอมลดวยวธ 10-Fold Cross Validation ........................................................... 82

รปท 34 Gini Index Algorithm ................................................................................................... 143

รปท 35 Chi-Square Algorithm ................................................................................................. 144

รปท 36 Information Gain Algorithm ...................................................................................... 145

รปท 37 Proposed Algorithm ................................................................................................... 146

บทท 1 บทน า

1.1 หลกการและเหตผล

ปจจบนเวบไซตเครอขายสงคมออนไลน (Social Networking Websites) ไดรบความนยมเปนอยางมาก ผคนใชเปนชองทางแบงปนขอคดเหน ประสบการณหรอเหตการณมากข น เนองจากเปนชองทางการสอสารทมความสะดวกรวดเรว ในแตละวนมขอความบนเวบไซตเครอขายสงคมออนไลนเพมข นเปนจานวนมากและมแนวโนมจะเพมข นทวคณ ขอความบนเวบไซตเครอขายสงคมออนไลน ประกอบดวย ขอเทจจรง (Facts) และ ความคดเหน (Opinions) ขอเทจจรงกลาวถงวตถประสงค คณลกษณะสนคาหรอบรการ สถานการณหรอเหตการณทเกดข นจรงและไมไดบงบอกถงความคดเหนใด ๆ ในขณะทขอความคดเหนจะบงบอกทศนคตทมตอสนคาหรอบรการและประเดนตาง ๆ มท งความคดเหนเชงบวกและความคดเหนเชงลบ นกวจยและองคกรหลายแหงใหความสนใจนาความคดเหนจานวนมหาศาลทอยบนเวบไซตเครอขายสงคมออนไลนมาใชประโยชนในดานตาง ๆ เชน ดานการตลาด เพอตดตามทศนคตของผบรโภคทมตอสนคาหรอบรการ เพอใหทราบความตองการทแทจรงของผบรโภค ดานการเมอง เพอสารวจทศนคตของประชาชนทมตอพรรคหรอนกการเมองหรอเพอทานายผลการเลอกต ง ดานการศกษา เพอตดตามทศนคตของผเรยนเพอนาไปปรบปรงการจดการเรยนการสอนใหมประสทธภาพยงข น เปนตน เนองจากขอความคดเหนทอยบนเวบไซตเครอขายสงคมออนไลนมจานวนมหาศาล หากตองการสารวจความคดเหนของผคนสวนมากทมตอผลตภณฑหรอเหตการณตาง ๆ อาจจะตองเสยเวลาและงบประมาณจานวนมาก นกวจยจงไดคดคนวธการเพอวเคราะหหาประเดนสาคญทซอนอยในขอความความคดเหนจานวนมาก วธหนงทนยมใช คอ การทาเหมองความคดเหน (Opinion Mining) หรอเรยกอกอยางหนงวา การวเคราะหความรสก (Sentiment Analysis) เปนศาสตรแขนงหนงของการประมวลผลภาษาธรรมชาตและการทาเหมองขอความ บคคลและองคกรจานวนมากใหความสนใจนาขอความคดเหนเหลาน นมาทาเหมองความคดเหนเพอประยกตใชในดานตาง ๆ เชน ดานการตลาด Troussas และ Virvou [1] จาแนกความคดเหนจากขอความทอยบนเฟสบค (Facebook) โดยใชวธการนาอฟเบย (Naïve Bayes) Akaichi และคณะ [2] จาแนกความคดเหนจากขอความและสญลกษณแสดงอารมณ (Emotion) ทอยบนเฟสบค โดยวธการใชคลงคา (Lexicon Based) รวมกบวธการนาอฟเบย (Naïve Bayes) ดานการเมอง Anjaria และ Guddeti [3] ไดใชขอมลทวตเตอรในการทานายผลการเลอกต งประธานาธบด โดยใชวธการเรยนรของเครอง (Machine Learning) Ortigosa [4] วเคราะหความ

2

คดเหนของผเรยนจากขอความทอยบนเฟสบค เพอประยกตใชกบการปรบปรงระบบการเรยนการสอนออนไลน (e-Learning) ใหเหมาะสมกบคณลกษณะของผเรยนแตละคน เปนตน

เนองจากขอความคดเหนทอยบนเครอขายสงคมออนไลนสวนมากเปนประโยคส น ๆ และคอนขางกากวม (Implicit Sentence) ไมไดระบถงคณลกษณะของสงทกลาวไวชดเจน [5] ในการจาแนกความคดเหนบนเครอขายสงคมออนไลนจะมคาคณลกษณะ (Feature) จานวนมาก เนองจากความหลากหลายของขอความ ดงน นจงตองมการคดเลอกคณลกษณะเพอนาไปใชในการจาแนกความคดเหน ซงเปนกระบวนการสาคญกระบวนการหนง ทใชในลดจานวนคณลกษณะทมจานวนมากและทาใหประสทธภาพในการประมวลผลดข น ปจจบนไดมการนาเสนอวธการคดเลอกคณลกษณะหลายแบบ [6] [7] [8] [9] เชน วธฟลเตอร (Filter Model) วธแรปเปอร (Wrapper Model) วธฝงตว (Embedded Model) และวธผสมผสาน (Hybrid Model) การเลอกคณลกษณะสาหรบงานดานการทาเหมองขอความสวนใหญเปนแบบ Filter Model [10] เนองจากมความงายและมประสทธภาพ ซงงานวจยน ไดทาการหาคาน าหนกของแตละคณลกษณะเพอจดลาดบความสาคญของคณลกษณะ โดยใชแนวคดวธฟลเตอรโมเดลผสมผสานกบแนวคดวธการใชกฎความสมพนธ เพอหาคาน าหนกของแตละคณลกษณะและทาการคดเลอกคณลกษณะทสาคญเพอใชในการจาแนก นอกจากน ยงไดนาเสนอวธการลดคณลกษณะทซ าซอนโดยทไมสงผลกระทบตอประสทธภาพในการจาแนก

1.2 วตถประสงคของการวจย

พฒนาข นตอนวธในการคดเลอกคณลกษณะและขจดคณลกษณะซ าซอนสาหรบการจาแนกความคดเหนทอยบนเครอขายสงคมออนไลน

1.3 ความส าคญของการวจย

1. นาเสนอวธการใหมในการคดเลอกคณลกษณะ โดยใชแนวคดวธฟลเตอรโมเดลผสมผสานกบแนวคดวธการใชกฎความสมพนธ

2. คณลกษณะสาคญทถกคดเลอกโดยวธการทนาเสนอสามารถสงผลใหประสทธภาพในการจาแนกความคดเหนบนเครอขายสงคมออนไลนสง เมอเปรยบเทยบกบวธการ Information Gain (IG) Chi-Square (Chi2) และ Gini Index

3. วธการทนาเสนอใชเวลาในการคานวณคาน าหนกนอยกวาวธการ Information Gain (IG) Chi-Square (Chi2) และ Gini Index

4. นาเสนอวธการใหมในการขจดคณลกษณะทซ าซอนออกโดยทไมสงผลกระทบตอประสทธภาพการจาแนก

3

1.4 ขอบเขตของการวจย

1. ทาการคดเลอกคณลกษณะโดยใชแนวคดวธฟลเตอรโมเดลผสมผสานกบแนวคดวธการใชกฎความสมพนธ

2. ทาการขจดคณลกษณะทไมจาเปนสาหรบการจาแนกความคดเหนบนเครอขายสงคมออนไลน

3. ใชวธการนาอฟเบยในการจาแนกความคดเหนบนเครอขายสงคมออนไลน 4. เปรยบเทยบวธการคดเลอกคณลกษณะทนาเสนอกบวธ Information Gain (IG) Chi-

Square (Chi2) และ Gini Index 5. เปรยบเทยบประสทธภาพในการคดเลอกคณลกษณะ โดยพจารณาจากประสทธภาพการ

จาแนก และเวลาในการคานวณคาน าหนกของคณลกษณะ 6. วดประสทธภาพวธการขจดคณลกษณะทซ าซอน โดยพจารณาจากประสทธภาพการ

จาแนก และเวลาในการขจดคณลกษณะทซ าซอน 7. ขอคดเหนทใชในงานวจยน เปนขอคดเหนจาก 5 แหลงขอมลมาตรฐาน ไดแก 1)

Stadford Twitter Sentiment Data [11] 2) SemEval-2017 Task4A Dataset (SemEval) [12] 3) Sentiment Strength Twitter Dataset (SS-Tweet) [13] 4) Health Care Reform (HCR) [14] 5) Sanders Twitter Dataset [15]

8. จาแนกประเภทความคดเหนเปน 2 กลม คอ เชงบวก (Positive) และเชงลบ (Negative) 9. ทาการสมเลอกขอความคดเหนทเปนขอความคดเหนเชงบวกและขอความคดเหนเชงลบ

จานวนเทากนเพอใชในการทดลอง

1.5 นยามศพทเฉพาะ

1. เวบไซตเครอขายสงคมออนไลน คอ เวบไซตทผใชสามารถแบงบนขอความถงเพอนจานวนมากผานผใหบรการดานเครอขายสงคมออนไลน (Social Network) บนอนเตอรเนต ซงเวบไซตเครอขายสงคมออนไลน ทใชในงานวจยน คอ เวบไซต Twitter

2. การทาเหมองความคดเหน (Opinion Mining) คอ การวเคราะหหาความรสกทซอนอยในขอความแสดงความคดเหน

3. ประสทธภาพในการจาแนก (Efficient) คอ คาความถกตอง (Accuracy) คาความแมนยา (Precision) คาความระลก (Recall) คาเฉลยประสทธภาพโดยรวม (F-Measure) และประสทธภาพดานเวลา

4

4. การจาแนกความคดเหน (Opinion Classification) คอ การจาแนกประเภทความคดเหนตามลกษณะการแสดงทศนคต ซงแบงเปน 2 ระดบ ไดแก เชงบวก (Positive) และ เชงลบ (Negative)

5. คณลกษณะทซ าซอน คอ คณลกษณะทปรากฏในเอกสารเดยวกน เชน คณลกษณะท 1 ปรากฏในเอกสาร 1 และ เอกสาร 5 คณลกษณะท 2 ปรากฏในเอกสาร 1 และ เอกสาร 5 แสดงวา คณลกษณะท 1 และ คณลกษณะท 2 เปนคณลกษณะทซ าซอนกน เปนตน

บทท 2 ทฤษฎและงานวจยทเกยวของ

งานวจยน ไดดาเนนการศกษาเอกสาร แนวคดและทฤษฎตาง ๆ ทเกยวของ ไดแก การทา

เหมองความคดเหน (Opinions Mining) การประมวลผลภาษาธรรมชาต (Natural Language Processing) การคดเลอกคณลกษณะ (Feature Selection) รปแบบขอมลแนวต ง (Vertical Data Format) การวดประสทธภาพในการจาแนกขอมล (Evaluation) และงานวจยทเกยวของ เพอเปนแนวทางในการตดคณลกษณะทซ าซอนและเพมประสทธภาพสาหรบการจาแนกความคดเหนบนเวบไซตเครอขายสงคมออนไลน

2.1 การท าเหมองความคดเหน (Opinion Mining)

การทาเหมองความคดเหน หรอการวเคราะหความรสก (Sentiment Analysis) [16] เปนการวเคราะหความคดเหน ความรสก ประเมนทศนคตและอารมณของผคน ทมตอสงตาง ๆ เชน สนคา บรการ องคกร ประเดน เหตการณ เปนตน โดยเกบรวบรวมขอมลและตรวจสอบอารมณของผคนจากขอความคดเหนทอยในสอสงคมออนไลน เชน Facebook, LinkedIn, Twitter, Flickr และ YouTube เปนตน ประเดนหลกในการทาเหมองความคดเหน คอ จาแนกความคดเหนเพอใหทราบถงความพงพอใจของบคคลเหลาน นวามความรสกในเชงบวกหรอเชงลบ การทาเหมองความคดเหนไดนาหลกการทาเหมองขอความและการประมวลผลภาษาธรรมชาตมาประยกตใช ปจจบนมการนาวธการทาเหมองความคดเหนมาใชเพอประโยชนหลายดาน ไดแก ดานการตลาด ใชเพอตดตามทศนคตของผบรโภคทมตอสนคาหรอบรการ เพอใหเขาใจถงความตองการทแทจรงของผบรโภค ดานการเมอง ใชเพอสารวจทศนคตของประชาชนทมตอพรรคหรอนกการเมองหรอเพอทานายผลการเลอกต ง ดานการศกษา ใชเพอตดตามทศนคตของผเรยนเพอนาไปปรบปรงการจดการเรยนการสอนใหมประสทธภาพยงข น เปนตน การทาเหมองความคดเหนจะใชขอมลทไดจากขอความแสดงความคดเหน ซงลกษณะขอความคดเหนอยในรปแบบไมมโครงสราง ในการนาขอมลไปเขาสกระบวนการจาแนกความคดเหนจงจาเปนตองแปลงขอความทไมมโครงสรางใหอยในรปแบบทมโครงสรางกอน เรยกวา กระบวนการเตรยมขอมล (Data Preprocessing) เพอนาขอมลไปสรางตวจาแนกความคดเหน

การทาเหมองความคดเหน แบงเปน 3 ระดบ ไดแก 1) ระดบเอกสาร (Document Level) เปนการสรปความคดเหนโดยรวมจากขอมลเอกสารท

รวบรวม โดยไมสนใจประเดนทอยในเอกสารน น ผลการจาแนกความคดเหนจะสรปในภาพรวมของแตละเอกสารเปนทศนคตเชงบวก ลบ หรอเปนกลาง ตวอยางเชน การรวบรวมบทวจารณเกยวกบผลตภณฑ (Product Review) แลวนามาเขาระบบเพอตรวจสอบวาบทวจารณน นแสดงความคดเหน

6

โดยรวมเกยวกบผลตภณฑเชงบวกหรอเชงลบ การวเคราะหในระดบน ถอวาแตละเอกสารแสดงความคดเหนตอเอนทตเดยว (Single Entity) ดงน น จงไมไดใชกบเอกสารทประเมนหรอเปรยบเทยบหลายเอนทต

2) ระดบประโยค (Sentence Level) เปนการนาเอกสารขอความมาแบงเปนประโยค เพอวเคราะหความคดเหนทอยในประโยความความคดเหนเชงบวก เชงลบ หรอเปนกลาง ประโยคทเปนกลางคอขอความทไมบงบอกถงความคดเหน งานวจยสวนมากทาการวเคราะหความคดเหนในกบการงานดานจาแนกประเภทของความคดเหน (Subjectivity Classification) ซงเปนการแยกระหวางประโยคบอกเลา (Objective Sentence) ทแสดงขอมลความจรง กบประโยคทแสดงมมมองและความคดเหนสวนตว (Subjective Sentences) [17]

3) ระดบคาหรอวล (Word or Phase Level) เปนการวเคราะหความคดเหนแบบละเอยดมากข น โดยแบงตามคณลกษณะทสนใจพจารณาทอยในขอความ แลวนามาจาแนกความคดเหนเพอใหทราบวาผคนมทศนคตอยางไรตอคณลกษณะทพจารณา ตวอยางเชน ประโยค “แมวาบรการจะไมด แตฉนกชอบบรรยากาศของรานอาหารน ” จะเหนวาผกลาวถงรานอาหารมความคดเหนเชงลบตอบรการของราน แตมความคดเหนเชงบวกตอบรรยากาศของราน เปนตน จะเหนวาใน 1 ประโยค มการพดถง 2 เอนตต ซงกคอ บรการ กบ บรรยากาศ การวเคราะหระดบคาหรอวล จะคนหาสงทผคนกลาวถง และวเคราะหวาเปนการกลาวถงในดวยความรสกบวก ลบ หรอเปนกลาง

กระบวนการทาเหมองความคดเหนในปจจบน แบงออกเปน 3 วธ คอ 1) วธการใชคลงคา เปนการจาแนกความคดเหนโดยพจารณาจากพจนานกรมคา ซงมคลงคาทไดระบข วความคดเหนไวแลว 2) วธการเรยนรของเครอง เปนวธการทอาศยหลกการเรยนรของมนษยในการพฒนากระบวนการเรยนรของเครอง เพอใหเครองคอมพวเตอรสามารถทางานไดอยางมประสทธภาพ และ3) วธการผสมผสาน ใชหลกการผสมผสานระหวางวธการใชคลงคาและวธการเรยนรของเครอง โดยการทาเหมองความคดเหน 3 วธการขางตน มกระบวนการเตรยมขอมลและข นตอนวธการจาแนกความคดเหนทแตกตางกน ซงจะกลาวในหวขอถดไป

2.2 ขนตอนการเตรยมขอมล (Data Preprocessing)

เนองจากขอความคดเหนเปนขอมลทอยรปแบบทไมมโครงสราง จาเปนตองแปลงขอมลใหอยในรปแบบทมโครงสรางกอน โดยใชกระบวนการเตรยมขอมล นอกจากน แลวพบวา ขอความคดเหนบนเวบไซตเครอขายสงคมออนไลน มขอมลกากวม (Inconsistent) และมขอมลรบกวน (Noisy) คอนขางมาก ซงถาขอมลกากวมหรอมขอมลรบกวนมาก เปนไปไดวาจะนาไปสความสบสนและผลลพธทผดพลาด กระบวนการเตรยมขอมลจะชวยใหขอมลมรปแบบเดยวกน (Consistency) และ มถกตอง (Accuracy) มากข น กระบวนการเตรยมขอมล [18] [19] โดยทวไปประกอบดวย 6

7

กระบวน ไดแก การตดคา (Tokenization) การกาจดคาหยด (Stop Word Removal) การทาความสะอาด (Cleaning) การหารากคาศพท (Stemming) การสกดคณลกษณะ (Feature Extraction) และการเลอกคณลกษณะ (Feature Selection) ดงแสดงในรปท 1

รปท 1 ขนตอนการเตรยมขอมล

จากรปท 1 แสดงใหเหนข นตอนการเตรยมขอมลทอยในรปแบบทไมมโครงสรางใหมโครงสราง เพอนาไปใชในกระบวนการจาแนกความคดเหนตอไป ซงไมจาเปนตองมครบทกกระบวนการ อาจจะเลอกทาบางกระบวนการข นอยกบขอมลทนามาใชและวธการวเคราะหขอมล งานวจยบางสวนทใชวธการจาแนกความคดเหนดวยวธการใชคลงคา กระบวนการทใชมเพยงกระบวนการสกดคณลกษณะ (Feature Extraction) โดยใชคลงคาความคดเหนมาเปรยบเทยบกบคาทอยในเอกสารเพอสกดคณลกษณะทสาคญออกมาจากเอกสาร สวนกระบวนการเลอกคณลกษณะ (Feature Selection) ใชเพอลดจานวนคณลกษณะทไดจากกระบวนการสกดคณลกษณะ การเลอกคณลกษณะทดจะชวยเพมประสทธภาพในการวเคราะหความคดเหนท งดานเวลาและความถกตอง นยมใชกบวธการเรยนรของเครอง การเตรยมขอมลแตละข นตอนอธบายไดดงน

Feature Extraction

Feature Selection

Stop Word Removal

Stemming

Tokenization

Cleaning

Unstructured Data

Pre-Processed

Data

8

2.2.1 การตดคา

การตดค า เปนกระบวนการน าเอกสารขอความมาแบงเปนประโยค (Sentence) หรอ ค า (Word) โดยทวไปการตดค าในขอความภาษาองกฤษนยมใช ชองวาง (White Space) คอมมา (Comma: , ) จดทศนยม (Point: . ) เครองหมายอฒภาค (Semicolon: ; ) เครองหมายค าถาม (Question Mark: ?) หรอสญลกษณตาง ๆ [20] กระบวนการตดค า เรมจากสแกนขอความทงหมดเพอหาขอบเขตค าและประโยค ซงค าในภาษาองกฤษจะใชชองวางเพอแบงค า และใชจดทศนยมหลงจบประโยค [21] ดงแสดงตวอยางในตาราง 1

ตาราง 1 ตวอยางการตดค าภาษาองกฤษ

INPUT OUTPUT This car is really great, latest technologies are included.

This | car | is | really | great | latest | technologies | are | included

This week is not going as i had hoped

This | week | is | not | going | as | i | had | hoped

I hate when I have to call and wake people up

I | hate | when | I | have | to | call | and | wake | people | up

I need a hug I | need | a | hug วธการตดค าทไดรบความนยมในงานดานเหมองขอความ ม 3 วธ [11] [22] ไดแก วธการ Unigram วธการ Bigram และ วธการ Unigram + Bigram แตละวธการมรายละเอยด ดงน

1) วธการ Unigram [23] เปนวธการหนงทงายและนยมใชมากทสดในการทาเหมองขอความ วธการน จะทาการตดคา 1 คา เพอแทน 1 คณลกษณะ เชน คาวา “This car is really great” หากทาการตดคาดวย วธการ Unigram จะไดคณลกษณะ คอ | This | car | is | really | great | ตวอยางงานวจยทใชวธการ Unigram เชน Read [24] ทาการจาแนกความคดเหนบนเวบไซตทวตเตอรทรวบรวมจาก Usenet News Group โดยใช Unigram Feature เปนตวแทนคณลกษณะ ผลการวดประสทธภาพ พบวา การจาแนกความคดเหนดวยวธการ Unigram รวมกบวธการซพพอรตเวกเตอรแมชชนมประสทธภาพสงกวาการใชวธการ Unigram รวมกบวธการนาอฟเบย การตดคาดวยวธการ Unigram มขอเสย คอ จะไดคณลกษณะจานวนมาก ทาใหการประมวลผลใชเวลานาน และมปญหาเกยวกบการแปลความหมายของคาเมอมคาทมความหมายเชงปฏเสธอยรวมดวย เชน good ความหมายคอ ด แตเมอเตมคาวา no good จะมความหมายตรงกนขาม คอ ไมด หากทาการตดคาโดยวธการ Unigrams คาวา good จะถกจดไวเปนอกหนง

9

คณลกษณะ เมอทาการแทนคาในเอกสาร จะทาใหผลการจาแนกคลาดเคลอนได โดยสรป วธการ Unigrams เปนวธการทงายและไดรบความนยมเปนอยางมาก แตยงมขอเสยอยมากเชนกน

2) วธการ Bigrams เปนวธการตดคาโดยการผสม 2 คา แทนดวย 1 คณลกษณะ เชน คาวา “This car is really great” หากทาการตดคาดวย วธการ Bigrams จะไดคณลกษณะ คอ |This car| |car is| |is really| |really great| งานวจยของ Tripathy และคณะ [22] นาเสนอผลการทดลองจาแนกความคดเหนโดยใชหลกการ N-gram ไดแก Unigram, Bigram, Trigram, Unigram รวมกบ Bigram, Bigram รวมกบ Trigram และ Unigram รวมกบ Bigram รวมกบ Trigram พบวา โดยภาพรวม วธการ Unigram รวมกบ Bigram มประสทธภาพสงสดเมอเทยบกบวธการอน 3) วธการ Unigrams รวมกบ Bigrams เปนวธการผสมผสานระหวางวธการ Unigrams และ วธการ Bigrams โดยขอความทมคาปฏเสธอยกอนหนา เชน no, not จะใชหลกการแบงขอความดวย Bigrams สวนขอความอน ๆ จะใชหลกการแบงขอความดวย Unigrams งานวจยของ Go และคณะ [11] แสดงใหเหนวาการจาแนกขอความคดเหนโดยการตดคาดวยวธการ Unigrams รวมกบ Bigrams มประสทธภาพการจาแนกสง โดยนาเสนอการจาแนกความคดเหนทอยบนเวบไซตทวตเตอร (Twitter Data) โดยใช Unigram, Bigrams, Unigrams รวมกบ Bigrams และ Unigrams รวมกบ Part of Speech Tags. ผลการวจยแสดงใหเหนวาการจาแนกความคดเหนดวยวธการซพพอรตเวกเตอรแมช ชนรวมกบ รวมกบ การตดคาโดยวธการ Unigrams รวมกบ Bigrams มประสทธภาพการจาแนกสงทสด

2.2.2 การกาจดคาหยด

คาหยด เปนคาทพบมากในเอกสารขอความ การกาจดคาหยดซงพบมากในเอกสารขอความ มวตถประสงคเพอเพมประสทธภาพในการประมวลผล เพราะคาหยดเปนคาทไมสอความหมาย เปนคาส นเปลองในการทาเหมองขอความ หากมเปนจานวนมากจะทาใหการประมวลผลชา ไมมประสทธภาพ การทาเหมองขอความภาษาองกฤษ มคลงคาหยดทถกรวบรวมและเผยแพรใหนกวจยหรอองคกรนาไปใชงานอยางแพรหลาย ตวอยางกลมคาหยด เชน คาบพบท (Prepositions) คาสรรพนาม (Pronouns) คาเชอม (Conjunctions) คานาหนานาม (Articles) [18] [25] การกาจดคาหยดทาไดหลายวธ วธทงายทสดคอการสรางคลงคาหยดไว แลวนาไปวเคราะหเปรยบเทยบกบคาทอยในเอกสาร หากปรากฏคาทตรงกบคลงคาหยด ใหทาการตดคาเหลาน นออกจากเอกสาร นอกจากคาหยดขางตนแลว ยงมคาหยดทเปนขอความเฉพาะ วธการหาคาหยดทเปนขอความเฉพาะทาไดโดยการหาคาความถของคาท งหมดในเอกสาร จากน นทาการจดเรยงลาดบของคาตามคาความถทปรากฏในเอกสารจากนอยไปมาก ซงจะพบวาขอความเฉพาะจะพบเปนจานวนมากในเอกสาร การกาจดคาเหลาน ควรทาการตดคาทตรงกบคลงคาหยดออกกอน จากน นหาคาความถของแตละคาในเอกสาร

10

แลวกาหนดคาความถสงสดของคาทปรากฏในเอกสารไว หากคาใดมคาความถมากกวาทกาหนด จะถอวาเปนคาหยด ใหลบออกไปจากเอกสาร แลวนาสวนทเหลอในเอกสารไปประมวลผลข นตอนตอไป [26] ตวอยางคาหยดในภาษาองกฤษ ดงแสดงในตาราง 2

ตาราง 2 ตวอยางค าหยดในภาษาองกฤษ

a about above after again against all am an and any are aren't as at be because been before being below between both but

doing don't down during each few for from further had hadn't has hasn't have haven't having he he'd he'll he's her here here's hers

if i've in into is isn't it itself let's me more most mustn't my myself no nor not of off on once only or

she she'd she'll she's should shouldn't so some such than that that's the their theirs them themselves then there there's these they they'd they'll

very was wasn't we we'd we'll we're we've were weren't what what's when when's where where's which while who who's whom why why's with

11

ตาราง 2 ตวอยางค าหยดในภาษาองกฤษ (ตอ)

by can't cannot could couldn't did didn't do does doesn't

herself him himself his how how's i i'd i'll i'm

other ought our ours ourselves out over own same shan't

they're they've this those through to too under until up

won't would wouldn't you you'd you'll you're you've your yourself yourselves

2.2.3 การทาความสะอาดขอมล

การทาความสะอาดขอมล เปนการตรวจสอบและแกไขคาทสะกดผดใหถกตอง แกไขคาทไมสมบรณใหเปนคาทสมบรณ ขอมลทอยบนเครอขายสงคมออนไลน โดยสวนมากมกจะเขยนผด หรอมตวอกษรซ า ๆ กระบวนการน ทาเพอลดจานวนคณลกษณะทซ าซอน รวมคาทมความหมายเดยวกนใหอยในรปแบบเดมทถกตอง ตวอยางขอมลการพมพอกษรซ า ๆ ทพบบอยบนเครอขายสงคมออนไลน เชน คาวา love พมพเปน looooooooove, looooove หรอ loveeeeee เปนตน ข นตอนการทาความสะอาดขอมลจะเรมจากการตรวจสอบตวอกษรทปรากฏซ าในคา หากพบอกษรน นปรากฏเกน 2 คร ง ใหทาการลบอกษรทซ าออกเหลอไวไมเกน 2 แลวนาไปเขากระบวนการตรวจสอบแกไขคาผดดวยพจนานกรมตอไป เชน “This car is too smallll” จากขอความขางตน คาวา “smallll” จะถกแกไขเปน “small” เปนตน

2.2.4 การหารากคาศพท

การหารากคาศพท เปนวธการลดจานวนคา โดยการจดกลมคาทมความหมายเหมอนกนไวดวยกน [18] เชน Agreed, Agreeing, Agreement เปนคาทมาจากรากคาศพทเดยวกน จะถกจดไวในกลมเดยวกน คอ Agree ในการหารากคาศพทโดยสวนมากจะใชคลงคาเขามาชวย ประโยชนของกระบวนการน คอ จะทาใหจานวนคณลกษณะลดลง ชวยเพมความเรวในประมวลผล วธการหาราก

12

คาศพท 2 วธการทนยมนามาใชงาน ไดแก การสรางตาราง (Table Lookup) และการลบคาเตม (Affix Removal) แตละวธการมรายละเอยดดงน 1) การสรางตาราง เปนวธการสรางตารางรากศพทสาหรบแตละเทอม จดเปนวธการทงายไมมความซบซอน การคนหาแตละเทอมทาไดสะดวก แตปญหาคอ การสรางใหครอบคลมทกเทอมสงผลใหส นเปลองพ นทในการจดเกบ การประมวลผลลาชา [26] ตวอยางวธการสรางตาราง เชน Engineering, Engineered, Engineer, Engineers เปนคาทใชรากคาศพทตวเดยวกน คอ Engineer แตละเทอมจะถกจดเกบรากคาศพทไวดงตาราง 3

ตาราง 3 ตวอยางของเทอมทมรากค าศพทเปน Engineer

Term Stem Engineering Engineer Engineered Engineer Engineer Engineer Engineers Engineer

2) การลบคาเตม เปนการลบคานาหนา (Prefix) และคาตอทาย (Suffix) ซงสวนมากกระบวนการลบคาเตมในภาษาองกฤษนยมลบคาตอทาย เนองจากคาตอทายจะเปนคาทแปลงรปของคาตามหนาท แตยงคงความหมายเดม เชน การแปลงพหพจนเปนเอกพจน เปลยน sses เปน ss เปลยน ies เปน y เปลยน es เปน e หรอตด s ออกจากทายคา เปนตน ปจจบนมข นตอนวธการหารากคาศพทเผยแพรอยเปนจานวนมาก และทไดรบความนยมเปนอยางมาก คอ Porter’s Stemmer

2.2.5 การสกดคณลกษณะ

การสกดคณลกษณะ เปนข นตอนดงคณลกษณะของขอความออกมา เพอใชเปนคณลกษณะตวแทน ซงสามารถเลอกคณลกษณะของขอความไดหลายวธ เชน คาหรอหนาทของคา (Part of Speech) ความสมพนธของคาในประโยค (Syntax) คาปฏเสธ (Negation) เปนตน งานวจยสวนมากใชวธการวเคราะหจากคา เรยกวา การแทนขอความดวยถงคา (Bag-of-Word) คอ สกดคาแสดงความคดเหนทอยในเอกสารเพอเปนตวแทนคณลกษณะ และวธการระบหนาทของคาดวยชดหนาทคา (POS Tag Set) ซงจะระบหนาทของแตละคาในเอกสารวาเปนคานาม (Noun) คากรยา (Verb) คาสรรพนาม (Pronoun) คาคณศพท (Adjective) คาวเศษณ (Adverb) และอน ๆ การเลอกคาคณลกษณะจากหนาทของคาเพอการจาแนกความคดเหน โดยสวนมากเลอกคาทมหนาทเปนคากรยา

13

คาคณศพท และคาวเศษณ เนองจากเปนคาทบอกถงความคดเหนในประโยคได หลงจากไดตวแทนคณลกษณะแลวจะมการแทนคาใหอยในรปแบบเวกเตอร วธทใชในการคานวณคาเพอแทนคาคณลกษณะทนยมใช [27] ไดแก 1) การแทนคาดวยคาการเกดข นหรอไมเกดข นของคา (Boolean Weighting) เปนวธการแทนขอความดวยคาทรวบรวมไวแลวในถงคา หากมคาในถงคาเกดข นในขอความทนามาวเคราะห จะแทนคาดวย 1 แตหากในขอความไมมคาทกาหนดไวในถงคาเกดข น จะแทนคาดวย 0 ดงสมการ (2.1)

1,

0,td

for term present in documentB

otherwise

(2.1)

โดยท tdB คอ คาการเกดคณลกษณะ t ในเอกสาร d 2) การแทนขอความดวยคาความถการเกดคา (Term Frequency: TF) วธการน จะสนใจจานวนคร งของคาทเกดข นในเอกสาร เกบขอมลเปนจานวนความถของการเกดคณลกษณะหรอเทอม (Term) ทปรากฏในเอกสาร หากคณลกษณะใดปรากฏบอยในเอกสารคาความถยอมมคาสง หากไมปรากฏเลยคาความถจะมคาเปน 0 คานวณไดแสดงดงสมการ (2.2)

( , )tdtf freq t d (2.2) เมอ ( , )freq t d คอ คาความถของการเกดคณลกษณะ t ในเอกสาร d 3) การแทนคาความถและคาความถผกผน (Term Frequency – Inverse Document Frequency: TF-IDF) เปนวธการใหคาน าหนกกบคณลกษณะทใชเปนตวแทนของเอกสาร ซงควรจะปรากฏอยเปนจานวนมากในเน อหาของเอกสารเฉพาะฉบบน นและปรากฏอยนอยในชดของเอกสารทเหลอท งหมด วธการน ไดจากแนวความคดวาการแทนขอความดวยคาความถการปรากฏของคณลกษณะเพยงอยางเดยว ไมสามารถจาแนกขอความไดดพอ เพราะถาคณลกษณะน นเกดข นเปนจานวนมากในทก ๆ เอกสาร แสดงวาคณลกษณะดงกลาวไมสามารถใชเปนตวแทนของเอกสารได จงตองหาคาความถผกผนดวย คานวณไดดงสมการ (2.3)

14

log( )td

t

Nidf

D (2.3)

โดยท N คอ จานวนเอกสารท งหมด

tD คอ จานวนเอกสารท งหมดทมคณลกษณะ t ปรากฏอย การหาคาความถและคาความถผกผน จะคานงถงความถของการปรากฏคณลกษณะในเอกสาร และคาความถผกผน คานวณจากผลคณของคาความถการเกดคาและคาความถผกผน ดงสมการ (2.4)

td td tdtfidf tf idf (2.4) จากการศกษางานวจยทผานมา พบวา การเตรยมขอมลในการทาเหมองความคดเหน ข นอยกบวธการจาแนกความคดเหนและคณลกษณะทใช เชน การเตรยมขอมลสาหรบวธการใชคลงคา สวนมากสกดคาความคดเหนจากคลงคาและหนาทของคา ในบางงานมการตดคา กาจดคาหยด ทาความสะอาดขอความ และหารากคาศพทกอนทาการสกดคาและหนาทของคา ท งน การเตรยมขอมลไมจาเปนตองทาทกกระบวนการขางตน บางงานทาแคบางกระบวนการ บางงานทากระบวนการกาจดคาหยดและหารากคาศพทกอนการตดคา บางงานไมมการตดคา ไมกาจดคาหยด ไมมกระบวนการทาความสะอาด และไมมกระบวนการหารากคาศพท มเพยงกระบวนการสกดคาจากคลงคาความคดเหน แลวใชวธการเปรยบเทยบกบคลงคาความคดเหนทมอยเพอนาไปประเมนและสรปข วความคดเหน เชน Karamibekr [5] ใช POS tagging ระบหนาทของคา จากน นสกดคาทมหนาทเปนกรยาชวยและคากรยาเปนตวแทนคณลกษณะเพอเปรยบเทยบกบคลงคาแสดงความคดเหนแลวนาไปประเมนและสรปความคดเหน จากงานวจยขางตนพบวา วธการใชคลงคาเนนการใชคลงคาความคดเหนมาชวยในการประเมนข วความคดเหนเปนหลก ไมมกระบวนการคานวณคาน าหนกคณลกษณะแตพจารณาวามคาทเปนความคดเหนเชงบวกในประโยคกคา มคาทเปนความคดเหนเชงลบกคา จากน นนามาสรปข วความคดเหนของประโยคหรอเอกสาร สวนการเตรยมขอมลสาหรบวธการเรยนรของเครอง สวนมากเตรยมขอมลโดยการตดคา กาจดคาหยด ทาความสะอาดและหารากคาศพท และคดเลอกตวแทนคณลกษณะดวยวธการสกดคณลกษณะ มการคานวณคาน าหนกของคาทใชเปนตวแทนคณลกษณะ ซงวธการทนยมในการคานวณคาน าหนก คอ การแทนคาดวยคาการเกดข น

15

หรอไมเกดข นของคา (Boolean Weighting) สวนการเตรยมขอมลเพอการจาแนกความคดเหนดวยวธการผสมผสาน ใชคณลกษณะทไดจากกระบวนการใชคลงคารวมกบการเลอกตวแทนคณลกษณะจากการสกดคณลกษณะทเหมาะสม

2.3 วธการจ าแนกประเภทความคดเหน (Opinion Classifier Algorithm)

การจาแนกความคดเหน ม 3 วธการหลกทไดรบความนยม ไดแก วธการใชคลงคา วธการเรยนรของเครอง และวธการผสมผสาน รายละเอยดแตละวธการมดงตอไปน

2.3.1 วธการใชคลงคา (Lexical Based)

วธการใชคลงคา เปนการจาแนกความคดเหนโดยใชพจนานกรมคาทระบข วความรสกของคาไวแลว ในงานวจยดานการทาเหมองความคดเหน เรยกวา คาแสดงความรสก (Sentiment Word) คาแสดงความคดเหน (Opinion Words) คาระบข วความเหน (Polar Word) หรอ คาทเปนความคดเหน (Opinion Bearing Words) [28] พจนานกรมทใชในการทาเหมองความคดเหนสวนมากจะมคาแสดงความรสก 2 ดาน คอ คาแสดงความรสกเชงบวก (Positive Sentiment Words) และ คาแสดงความรสกเชงลบ (Negative Sentiment Words) คาแสดงความรสกเชงบวก ใชในการแสดงความรสกในแงด เชน สวย (Beautiful) ด (Good) เยยม (Excellent) คาแสดงความรสกในเชงลบ ใชในการแสดงความรสกทไมด เชน แย (Bad) เบอ (Bored) เหนอย (Tired) เปนตน วธการรวบรวมคาแสดงความคดเหน ม 3 วธการหลก คอ การรวบรวมดวยตนเอง (Manual Approach) การใชพจนานกรม (Dictionary-based Approach และ การใชคลงคาศพท (Corpus-based Approach) [28] แตละวธการแตละวธการมรายละเอยดดงน

1) การรวบรวมดวยตนเอง เปนวธการรวบรวมคาศพทโดยวธการใชคนทาเปนหลก สวนมากจะใหผเชยวชาญเขามามสวนรวมในการรวบรวมคาศพทและสรางความสมพนธระหวางคาศพทไวดวยกน วธการน อาจจะตองใชผเชยวชาญจานวนมากและใชเวลานาน งานวจยสวนมากจงนยมใชวธการน รวมกบวธการอนทเปนอตโนมต เชน การรวบรวมคาศพทพ นฐานในข นตอนแรกหรอการตรวจสอบคาศพทในข นตอนสดทายทวธการแบบอตโนมตอาจจะมขอผดพลาดเกดข น วธการน มข นตอนทางานดงน [26] 1.1) กาหนดขอบเขตของหวขอ เปนการกาหนดขอบเขตใหกบหวขอหลกและหวขอยอยทจะทาการรวบรวม ซงแตละหวขออาจจะมความสาคญไมเทากน 1.2) การสะสมคาศพท เปนการรวบรวมคาศพททมความสมพนธกน ซงคาศพทเหลาน นอาจจะไดมาจากแหลงขอมลทมอยแลว เชน วารสาร หนงสอ หรอพจนานกรม เปนตน

16

1.3) การประมวลผลคาศพท เปนการรวบรวมคาศพททไดจากการสะสมคาศพท มาเกบไวดวยกนอยางเปนระบบ เพอกาจดคาซ าและเพอรวมคาทมความหมายเหมอนกนหรอใกลเคยงกนมาไวดวยกน 1.4) การจดกลมคาศพท 1.5) การจดลาดบความสมพนธของคาศพทในแตละกลม 1.6) การปรบเพมคาศพทอน ๆ ทเกยวของ 1.7) การตรวจสอบคาศพท 1.8) การตรวจสอบและปรบแตงรายการคาศพทแตละชดใหถกตองสมบรณ จดคาศพททมความสมพนธกนไวดวยกน และจดรปแบบการแสดงรายการคาศพทใหอยในรปแบบตามทตองการ

2) การใชพจนานกรม เปนวธการรวบรวมศพทพ นฐาน โยงไปยงคาพอง (Synonyms) และคาตรงขาม (Antonyms) โดยรวบรวมจากพจนานกรมคาทไดรบการยอมรบ เชน WordNet เพราะพจนานกรมคาเหลาน นจะมรายการคาพอง และคาตรงขาม วธการน มข นตอนทางานดงน 2.1) รวบรวมคาแสดงความรสกพ นฐานทบอกไดวาเปนคาแสดงทศนคตในเชงบวก หรอเชงลบ ข นตอนน ใชวธการเกบรวบรวมดวยตนเองแบบงาย ๆ 2.2) เพมเตมชดของคาโดยการคนหาใน WordNet หรอ พจนานกรมออนไลนอน ๆ เพอคนหาคาพองและคาตรงขาม 2.3) เพมคาใหมทคนพบลงในชดคาทสรางข นในกระบวนการแรก 2.4) ทาซ าทกกระบวนการจนกระทงไมพบคาใหม 2.5) ตรวจสอบความถกตองของคาท งหมดและขอผดพลาดอน ๆ

3) การใชคลงคาศพท เปนวธการทนามาใชเพอแกปญหาของคาทไมมในพจนานกรม เชน คาเฉพาะ คากากวม เปนตน จดเปนวธการทมความถกตองมากกวา 2 วธการแรก แตมขอจากด คอ ฐานขอมลตองมขนาดใหญมากพอ เพอใหไดสถตขอมลทมความนาเชอถอ การจาแนกความคดเหนดวยวธการใชคลงคาม 3 กระบวนการหลก ไดแก การสกดความรสกจากคลงคาความคดเหน คานวณข วความคดเหน และสรปข วความคดเหน ซงสามารถสรปในระดบประโยค (Sentence Level) หรอระดบเอกสาร (Document Level) ได ข นตอนการจาแนกความคดเหน แสดงดงรปท 2

17

รปท 2 การจ าแนกความคดเหนดวยวธการใชคลงค า

จากรปท 2 เมอไดขอมลทผานกระบวนการเตรยมขอมลแลว จะนาคณลกษณะทไดจากข นตอนการสกดคณลกษณะมาตรวจสอบข วความคดเหนโดยใชคลงคาความคดเหนและแทนคาคะแนนแตละคณลกษณะตามข วความคดเหน เพอใชในการประเมนความคดเหน เชน ถาคณลกษณะอยในกลมความคดเหนเชงบวก ใหมคาเทากบ +1 และคณลกษณะทอยในกลมความคดเหนเชงลบ ใหมคาเทากบ -1 เปนตน จากน นคานวณหาคาผลรวมของคณลกษณะทปรากฏในเอกสาร เพอพจารณาวาท งเอกสารเปนความคดเหนเชงบวกหรอเชงลบ โดยกาหนดใหเอกสารขอความประกอบดวยหลายประโยค เขยนแทนดวย 1 2{ , ,..., }mD S S S โดยท 1 2, ,..., mS S S คอ ประโยคในเอกสาร และ m คอ จานวนประโยค ความคดเหนโดยรวมของเอกสารไดมาจากผลรวมความคดเหนของประโยคในเอกสาร ซงแตละประโยคประกอบดวยคณลกษณะทใชเปนตวแทน เขยนแทนดวย

Pre-Processed Data

Extract Opinion Opinion Corpus

Calculate sentiment of each sentence

(Sentence-Level)

Sum of sentence sentiment

(Document-Level)

Classify Sentiment

Positive Negative

18

1 2{ , ,..., }nS o o o โดยท 1 2, ,..., no o o คอ คณลกษณะในประโยค และ n คอ จานวนคณลกษณะ การคานวณความคดเหนท งในระดบประโยคและระดบเอกสาร แสดงดงสมการ (2.5) และสมการ (2.6) ตามลาดบ

1

n

s i

i

S SO

(2.5)

เมอ iSO คอ คะแนนข วความคดเหนของคณลกษณะท i

1

m

D j

j

S SS

(2.6)

. เมอ jSS คอ คะแนนความคดเหนของประโยคท j

2.3.2 วธการเรยนรของเครอง (Machine Learning)

วธการเรยนรของเครอง เปนวธการพฒนากระบวนการเรยนรเพอใหเครองคอมพวเตอรสามารถทางานไดอยางมประสทธภาพโดยอาศยหลกการเรยนรของมนษย แบงเปน 2 เทคนคหลก ไดแก การเรยนรแบบมผสอน (Supervised Learning) และการเรยนรแบบไมมผสอน (Unsupervised Learning) แตละวธการอธบายไดดงน 1) การเรยนรแบบมผสอน (Supervised Learning) หรอเรยกวา การสรางตวแบบในการทานาย (Predictive Modeling) เปนเทคนคทเนนการเรยนรจากขอมลทมอยในอดต เพอนามาสรางสมการหรอรปแบบของชดขอมลสอน (Training Set) สาหรบหาคาตอบใหกบขอมลชดใหม (Test Set) การใชขอมลสอนจานวนมากจะชวยใหแบบจาลองการจาแนกความคดเหนมความถกตองสง แตระยะเวลาทเครองใชในการสรางแบบจาลองกจะมากตามไปดวย เทคนคการเรยนรแบบมผสอน [29] เกยวของกบ 2 กระบวนการ คอ กระบวนการเรยนรรปแบบจากขอมลชดสอน (Training Data) และกระบวนการจาแนกประเภทขอมลชดทดสอบ (Test Data) ดงแสดงในรปท 3

19

รปท 3 ขนตอนการจ าแนกความคดเหนดวยวธการเรยนรดวยเครอง

1.1) นาอฟเบย (Naïve Bayes) เปนวธการเรยนรแบบมผสอนวธการหนงทจดวางายและไดรบความนยมเปนอยางมาก ในการจาแนกความคดเหน ใชหลกการความนาจะเปนบนพ นฐานทฤษฎของเบย (Bayes’ Theorem) การสรางตวจาแนกนาอฟเบย จะพจารณาจากความเปนไปไดของคณลกษณะทเกดข นในคลาสเปรยบเทยบจานวนคณลกษณะท งหมดทเกดข นของขอมลชดสอน [30] การจาแนกขอมลชดทดสอบจะอาศยคาความนาจะเปนจากขอมลชดสอน มาทานายผลของขอมลชดทดสอบ โดยใชวธการคานวณคาความนาจะเปนของชดขอมลทอยในแตละคลาส จนครบทกคลาส คาความนาจะเปนของคลาสใดทมากทสด คลาสน นจะถกเลอกเปนคลาสคาตอบ วธการคานวณแสดงดงสมการ (2.7)

( | )( )

( )

Count W CP C

Count W (2.7)

Data Preprocessing

Train Data Test Data Classification Algorithm

Classifier

Evaluation

20

โดยท C คอ คลาสของความคดเหน เชน คลาสความคดเหนเชงบวก (Positive Class) คลาสความคดเหนทเปนเชงลบ (Negative Class) เปนตน |W C คอ จ านวนคณลกษณะทอยในคลาส W คอ จ านวนคณลกษณะทอยในเอกสาร

การจาแนกขอความดวยวธนาอฟเบยจะกาหนดใหแตละคณลกษณะทเกดข นเปนอสระตอกน ดงน น การคานวณหาคาความนาจะเปนของของคณลกษณะทเกดข นในคลาสจะเกดจากผลรวมของคณลกษณะ (

iW ) ทพบในคลาสน น แสดงดงสมการ (2.8)

11 2

1

( ) ( | )

( | , ,... )

( )

n

i

in n

i

i

P C P W C

P C W W W

P W

(2.8)

โดยท 1 2( | , ,... )nP C W W W คอ ความนาจะเปนของกลมคณลกษณะ

iW จานวน n ตว ทเกดข นในคลาส C

1

( | )n

i

i

P W C

คอ ผลคณของความนาจะเปนของคณลกษณะ

ทมอยในคลาส C

1

( )n

i

i

P W

คอ ผลคณของความนาจะเปนของคณลกษณะท งหมด

ในเอกสาร การหาคาตอบจากคาความนาจะเปนทแตละเอกสารทอยในคลาส จะใชวธการคานวณคาความนาจะเปนของชดของมลทอยในแตละคลาส จนครบทกคลาส แลวทาการเปรยบเทยบคาและเลอกคลาสคาตอบจากคาความนาจะเปนของคลาสทมคามากทสด แสดงดงสมการ (2.9)

n

i i

i=1

argmax P(C|W ) argmax[P(C) P(W |C)] (2.9)

21

สาหรบคณลกษณะทพบในขอมลชดสอนของคลาส คาความนาจะเปนจะเทากบ 0 สงผลใหความนาจะเปนท งหมดจะมคาเทากบ 0 ดวย จงนยมใชวธการประมาณคาความนาจะเปนของลาพลาเซยนสมทต ง (Laplacian Smoothing) มาชวยแกไขปญหาน โดยการเพมคาความนาจะเปน เทากบ 1 หรอ ใหแตละคณลกษณะ จะทาใหคาความนาจะเปนไมเปน 0 แสดงดงสมการ (2.10)

11

1

( )( | )

| | ( )i

i ilaplace i i

i iw

C w wP W W

V C w w

(2.10)

โดยท 0 < 1 และ V คอ จานวนคณลกษณะท งหมดในเอกสารขอมลเรยนร ขอดของวธนาอฟเบย [30] คอ วธการคานวณงายตอการนาไปใช ไดผลลพธทสามารถนาไปประยกตใชไดด แตขอเสยคอ ใชไดกบแอนทรบวทเปนอสระกนเทาน น 1.2) ซพพอรทเวกเตอรแมชชน (Support Vector Machines: SVM) [31] [27] เปนวธการเรยนรแบบมผสอนทนยมใชในการจดกลมขอมล ใชแนวคดการแบงขอมลดวยการหาเสนแบงทเหมาะสม (Optimal Hyper Plane)

รปท 4 ตวอยางการสรางเสนแบงกลมขอมลของซพพอรทเวกเตอรแมชชน

จากรปท 4 จะเหนวาขอมลสามารถถกแบงดวยเสนแบงมากกวา 2 เสน จะตองหาเสนแบงทเหมาะสม คอ เสนททาใหชดขอมลท งสองกลมมระยะหางระหวางกนมากทสด (Maximum Margin

Hyperplane: MMH) กาหนดใหชดขอมลเรยนร ( , )i iD x y โดยท 1 2 3( , , ,.., )i i i i imx w w w w

เปนเวกเตอรของตวแทนขอความทนาเขา และแตละ ix ถกกาหนดไวดวยคลาส iy เมอ iy เปนคา

22

จานวนจรง มคาต งแต -1 ถง +1 เสนทถกเลอกเพอใชเปนเสนไฮเปอรเพลน คอ เสนททาใหสมการ

iy มคาเทากบ 0 โดยมเวกเตอร [27] ดงสมการ (2.11)

1, 0

1, 0

w x by

w x b

(2.11)

โดยท w คอ เวกเตอรทต งฉากกบเสนไฮเปอรเพลน

ix คอ คาเวกเตอรขอมล b คอ คาโนมเอยง (Bias)

เมอมขอมล x เขามาใหม จะทานายหาคลาส y จากชดขอมลเรยนร ( ix , iy ) ทมคาใกลเคยงทสด

รปท 5 การหาคาซพพอรทเวกเตอร

ทมา [31]

ขอดของซพพอรทเวกเตอรแมชชน [27] คอ สามารถรองรบคณลกษณะจานวนมากได เนองจากใชการแทนขอมลแบบเวกเตอรและพจารณาเสนแบงกลมขอมลจากซพพอรตเวกเตอร (Support Vector) แตขอเสย คอ ตองทดลองเพอปรบคาพารามเตอรใหเหมาะสมสาหรบแตละเคอรเนล (Kernel) ทเลอกใช บางคร งอาจจะใชเวลานาน 1.3) ตนไมตดสนใจ (Decision Tree) [29] เปนอกวธการหนงทไดรบความนยม เนองจากเปนอลกอรทมทเขาใจงาย ความผดพลาดคอนขางนอย การจาแนกขอมลทาโดยการสรางตวจาแนกเพอคดเลอกแอตทรบวตทมความสมพนธกบคลาสมากทสดข นมาเปนโหนดบนสดของ

23

ตนไม หลงจากน นกจะหาแอตทรบวตถดไปเรอย ๆ โครงสรางตนไมตดสนใจประกอบดวย โหนดภายใน (Internal Node) ทใชในการตดสนใจ และโหนดใบ (Leaf Node) ทเปนกลมคลาส (Class) ทไดจากการจาแนกขอมลตามคณสมบต อลกอรทมทนยมใชในการสรางตนไมตดสนใจ คอ ID3 และ C4.5 อลกอรธม C4.5 ไดพฒนาเพมเตมจากอลกอรธม ID3 เพอใหมประสทธภาพมากข น เชน สามารถใชกบขอมลแบบตอเนอง (Continuous Data) และแบบไมตอเนอง (Discrete Data) สามารถใชงานไดกบขอมลทเกดการขาดหายได (Missing Data) และสามารถลดขนาดของตนไมโดยการตดกงทไมจาเปนออกไป โดยไมทาใหความถกตองลดลง เปนตน ในการหาความสมพนธของคณลกษณะ จะใชคาสารสนเทศ (Information Gain) เปนตววด สามารถคานวณดงสมการ (2.12)

( )

| |( , ) ( ) ( )

| |v

vv value A

SGain S A E S E S

S (2.12)

โดยท S คอ เซตของเอกสารท งหมด A คอ คณลกษณะทพจารณา

( )value A คอ คาทเปนไปไดของคณลกษณะ A

vS คอ เซตของเอกสารท งหมดทมคณลกษณะ A ทมคา v E คอ คาเอนโทรปของขอมล คานวณไดดงสมการ (2.13)

21

( ) ( )log ( )n

i ii

E S P V PV (2.13)

โดยท ( )i

P V คอ ความนาจะเปนของเอกสารทจะอยในคลาส i n คอ จานวนคลาสท งหมด

ในการจาแนกความคดเหนดวยวธตนไมตดสนใจ โครงสรางของตนไมจะประกอบไปดวย

โหนด (Node) หมายถง คณลกษณะ โดยอาจจะหมายถง คา ประโยค หรอวล กได และโหนดสดทายคอคลาสของเอกสาร การจาแนกขอมลจะทดสอบจากคาน าหนกของคณลกษณะไปเรอยๆ จนกวาจะถงโหนดคลาส โดยทวไปจะใชคาน าหนกแบบ Boolean Weighting 1.4) เพอนบานใกลทสด (K-Nearest Neighbor: K-NN) การจาแนกประเภทขอความดวยวธเพอนบานใกลทสดจะข นกบขอมลทมคณสมบตใกลเคยง K ตว หลกการ

24

ทางาน คอ ทาการวดระยะหางระหวางขอมลทตองการทานายกบขอมลทอยใกลเคยง จานวน K ตว คาตอบททานายได คอ คลาสทพบมากทสดของขอมลทเปนเพอนบานท ง K ตว [29] การวธการ K-NN มาใชกบการจาแนกความคดเหนโดยทวไปจะกาหนดคา K จะถกกาหนดใหเปนเลขค วธการ K-NN เหมาะสาหรบการจาแนกขอมลทเปนตวเลขและไมเหมาะกบขอมลทมแอททรบวจานวนมาก เนองจากเสยเวลาในการคานวณหาคาความหางเพอจาแนกขอมล สาหรบการจาแนกขอมล มกจะใชวธการวดระยะทางแบบ Euclidean Distance คอ การหาคารากทสองของผลตางระหวางคณลกษณะแตละตวยกกาลงสอง ดงสมการ (2.14)

2

1

( )n

i ii

d x y (2.14)

โดยท 1x คอ คาของคณลกษณะท 1 ของขอมลทตองการจาแนก

1y คอ คาของคณลกษณะท 1 ของขอมลเพอนบานทนามาพจารณา n คอ จานวนคณลกษณะท งหมด งานวจยทจาแนกความคดเหนโดยใชวธการเรยนรแบบมผสอน เชน Troussas และ Virvou [1] จาแนกความคดเหนจากขอความสถานะ (Status) ทอยบน Facebook ดวยวธการนาอฟเบย เปรยบเทยบกบวธการ Rocchio และ Perceptron พบวา วธการนาอฟเบย ใหคาความถกตองในการจาแนกความคดเหนสงกวาวธการ Perceptron และวธการอน ๆ Akaichi และคณะ [2] จาแนกความคดเหนจากขอความและขอความทเปนสญลกษณพเศษ (Emotion) ทอยบนเฟสบค โดยใชวธการคลงคารวมกบนาอฟเบย แลวเปรยบเทยบกบวธการซพพอรตเวกเตอรแมชชน (Support Vector Machine: SVM) พบวา คาความถกตองในการจาแนกความคดเหนของวธการนาอฟเบยสงกวาวธการซพพอรตเวกเตอรแมชชน เมอจานวนคณลกษณะ (Feature) ไมมาก แตประสทธภาพการจาแนกความคดเหนของวธการนาอฟเบยนอยกวาวธการซพพอรตเวกเตอรแมชชน เมอจานวนคณลกษณะเพมข น Ortigosa [4] นาเสนอการจาแนกความคดเหนของผเรยนเพอนามาประยกตใชสาหรบปรบปรงระบบการเรยนการสอนออนไลน (e-Learning) ใหเหมาะสมกบผเรยน โดยเปรยบเทยบการจาแนกความคดเหนดวยวธการซพพอรตเวกเตอรแมชชนรวมกบการใชคลงคา กบ 3 วธการ คอ 1) ใชคลงคาอยางเดยว 2) ใชคลงคารวมกบนาอฟเบย 3) ใชคลงคารวมกบตนไมตดสนใจ พบวา การจาแนกความคดเหนโดยวธการใชคลงคารวมกบซพพอรตเวกเตอรแมชชนใหคาความถกตองสงกวาวธการอน Anjaria และ Guddeti [3] จาแนกความคดเหนทอยบนทวตเตอร เพอทานายผลการเลอกต ง ซงไดจาแนกความคดเหนดวยวธการซพพอรตเวกเตอรแมชชน เปรยบเทยบกบวธการนาอฟเบย แมกซมมเอนโทรป (Maximum Entropy) และอารทฟเชยลนวรอลเนตเวรค

25

(Artificial Neural Networks) พบวา วธการซพพอรตเวกเตอรแมชชนมความถกตองในการทานายสงกวาวธการอน Basari และคณะ [32] จาแนกความคดเหนเกยวกบภาพยนตร (Movie Review) ดวยวธการซพพอรตเวกเตอรแมชชน เปรยบเทยบกบ วธซพพอรตเวกเตอรแมชชนรวมกบวธพาทเคลสวอรมออฟตไมเซชน (Particle Swarm Optimization) พบวา การจาแนกความคดเหนดวยวธซพพอรตเวกเตอรแมชชนรวมกบวธพาทเคลสวอรมออฟตไมเซชนมคาความถกตองสงกวาการจาแนกความคดเหนดวยวธซพพอรตเวกเตอรแมชชนอยางเดยว

2.3.3 วธการผสมผสาน (Hybrids Methodology)

การจาแนกความคดเหนดวยวธการผสมผสาน เปนการผสมผสานระหวางวธการใชคลงคากบวธการเรยนรของเครอง โดยใชวธการสกดคาตวแทนคณลกษณะจากคาในเอกสารและคลงคาความคดเหนทมอย เพอจาแนกความคดเหนดวยวธการเรยนรของเครอง ดงรปท 6

รปท 6 ขนตอนวธการผสมผสาน

จากรปท 6 แสดงข นตอนวธการจาแนกความคดเหนโดยวธการผสมผสานระหวางการใชคลงคาและเรยนรของเครอง โดยการเตรยมขอมลเพอสกดคณลกษณะจากเอกสารนาเขา เพอใชเปน

Classified Data

Document Data Pre-Processed Data

(Lexicon-based method)

Opinion Word Detection

Aggregate Opinion

Opinion Lexicon

Train Sentiment Classifier

(Machine Learning method)

Vector Representation

26

ตวแทนคณลกษณะและใชรวมกบคลงคาความคดเหนทมอย จากน นคานวณข วความคดเหนของคณลกษณะตวแทนขางตน เพอแทนคาในรปแบบเวกเตอรแลวจงจาแนกดวยวธการเรยนรของเครอง

2.4 การประมวลผลภาษาธรรมชาต

การทาเหมองความคดเหนอาศยหลกการประมวลผลภาษาธรรมชาตในการเตรยมขอมล เนองจากความคดเหนอยในรปแบบขอความทคอมพวเตอรไมสามารถเขาใจได จงตองใชการประมวลผลภาษาธรรมชาตมาชวยในการแปลงขอความทมนษยสอสารหรอทเรยกวาภาษาธรรมชาต (Natural Language) ซงมรปแบบทไมแนนอน ใหอยในรปแบบของภาษาทคอมพวเตอรเขาใจได มโครงสรางแนนอน มรปแบบไวยากรณและการตความหมายทชดเจน (Formal Language) การทจะทาใหคอมพวเตอรเขาใจภาษาธรรมชาตของมนษยน น อาศยหลกการปญญาประดษฐ (Artificial Intelligence : AI) และ หลกภาษาศาสตร (Linguistics) การประมวลผลภาษาธรรมชาตสามารถนาไปประยกตใชในงานดานตาง ๆ ทเกยวกบภาษาได เชน นามาชวยในการวเคราะหเอกสารตางๆ วาเกยวของกบเรองใด เพอชวยในการคนคนขอมล (Information Retrieval) หรอ นามาชวยใหคอมพวเตอรสามารถสรปประเดนสาคญ (Information Summarization) ทอยในเอกสารได การประมวลผลภาษาธรรมชาตประกอบดวย 2 สวน [33] คอ การทาความเขาใจภาษา (Natural Language Understanding: NLU) และการสรางภาษา (Natural Language Generation: NLG) ข นตอนการทางานของภาษาธรรมชาตสามารถแสดงไดดงรปท 7

รปท 7 ขนตอนการท างานของภาษาธรรมชาต

ทมา : [33]

ขอมลน าเขา

วเคราะหเชงโครงสราง และความหมายทางภาษา

ประเมนคา หาค าตอบ

แทนความหมาย

แสดงผลลพธ

ค าศพท

27

2.4.1 ระดบการวเคราะหภาษาธรรมชาต

1) การวเคราะหระดบการผสมคา (Morphological Level) เปนการนาคาหรอวลมาวเคราะห เพอแบงยอยหรอตอเขากนใหเกดเปนคาทมความหมาย 2) การวเคราะหระดบไวยากรณ (Syntactic Analysis) เปนการสารวจหนาทของคาในประโยค รวมถงความสมพนธของคาในประโยคเพอใหทราบวาคาใดทาหนาทเปน ประธาน (Subject) กรยา (Verb) หรอ กรรม (Object) ของประโยค 3) การวเคราะหระดบความหมายของคา (Semantic Level) เปนการสารวจความหมายของคาทนามาใชในประโยค เนองจากคาบางคาสามารถมความหมายไดหลายความหมายข นอยกบบรบททถกใชในประโยคน น ๆ 4) การวเคราะหระดบโครงสราง (Discourse Level) เปนการสารวจเกยวกบโครงสรางของขอความและโครงสรางของเอกสาร โดยดจากคาหรอประโยคขางเคยง เชน คาทมความหมายเชงลบเมอตามดวยคาทมความหมายเชงบวก จะกลายเปนความหมายเชงลบ เชน ไม (No) เมอรวมกบคาวา ด (Good) มความหมายในเชงลบ คอหมายถงไมด สวนคาทมความหมายเชงลบเมอรวมกบความทมความหมายเชงลบ จะหมายถงความหมายในเชงบวก เชน คาวา ไม เมอรวมกบคาวา เลว มความหมายในเชงบวก คอ ไมเลว เปนตน

2.4.2 เทคนคการประมวลผลภาษาธรรมชาต

เทคนคการประมวลผลภาษาธรรมชาต เปนการวเคราะหคาทอยในประโยคเพอหาคาทจะใชเปนคาหลก โดยการเปรยบเทยบกบคาทมอยแลวในคลงคาศพท แตถาคาหลกทมอยแลวไมตรงกบความตองการ ผใชสามารถเพมคาหลกลงในคลงคาศพทไดเพอใหระบบสามารถวเคราะหไดตรงกบการใชงานมากทสด เทคนคการประมวลผลภาษาธรรมชาตทไดรบความนยมในปจจบนม 2 วธการ ไดแก การวเคราะหคาหลก (Keyword Analysis) และการวเคราะหไวยากรณ มรายละเอยดดงตอไปน [33] 1) การวเคราะหคาหลก (Keyword Analysis) เปนวธการวเคราะหคาจากประโยคเพอใหทราบวาคาใดทจะใชเปนคาหลก โดยการเปรยบเทยบกบคาทถกจดเกบไวในฐานความร แตถาคาหลกทมอยไมตรงกบความตองการของผใชน น ผใชสามารถเพมคาหลกลงในฐานความรไดเพอชวยใหระบบสามารถวเคราะหไดตรงกบผใชมากทสด โดยข นตอนพ นฐานของกระบวนการวเคราะหโดยใชคาหลกในการประมวลผลภาษาธรรมชาตจะเกยวของกบข นตอนการแบงคาแตละคาในประโยค (Parsing) และ ข นตอนการจบครปแบบของคา (Pattern Matching)

28

2) การวเคราะหไวยากรณ (Syntactic Analysis) วธการน เปนวธการวเคราะหประโยคแบบละเอยด ดาเนนการเกยวกบการวเคราะหไวยากรณ ความหมาย และความสมพนธระหวางคาในประโยค เพอนาไปประมวลผล และแสดงผลลพธใหกบผใช วธการน มการวเคราะหรปประโยค วเคราะหความหมายของประโยค หาความหมายของคาในประโยค วเคราะหหาความหมายทแทจรงของประโยค และทาการทดลองเชอมประโยคหลายประโยคเขาดวยกน

2.4.3 องคประกอบของภาษาธรรมชาต

1) ตววเคราะห (Parser) เปนองคประกอบหนงททาหนาทวเคราะหไวยากรณของประโยคทถกปอนเขาสระบบ ซงแบงประโยคออกเปนคา โดยคาแตละคาจะถกนาไปจบคกบโครงสรางทใชในการวเคราะหชนดของคา ท งน โครงสรางดงกลาวถกออกแบบไวในลกษณะของตนไม เรยกวา Parser Tree 2) พจนานกรม (Lexicon) เปนพจนานกรมทใชประกอบการวเคราะหความหมายซงประกอบดวยการสะกดคาทถกตอง ความหมาย และหนาทของคาน น ๆ ในประโยค กรณทคามความหมายมากกวาหนงความหมาย พจนานกรมจะแสดงความหมายท งหมดออกมาให 3) สวนการทาความเขาใจ (Under Stander) เปนสวนททางานรวมกบฐานความร เพอกาหนดความหมายของประโยคท งประโยค โดยจะใชพารเซอรทรในการคนหาและอางองขอมลในฐานความร 4) ฐานความร (Knowledge Based) เปนทจดเกบความรตาง ๆ ทเกยวของกบภาษาธรรมชาตทมนษยใชในการสอสาร ซงฐานความรจะชวยอานวยความสะดวกใหกบระบบในการกาหนดความหมายของประโยคทผใชปอนเขาสระบบ 5) สวนจดทาโครงสรางขอมล (Generator) เมอสวนทาความเขาใจทาการคนหาความหมายของประโยคไดแลวจะสรางโครงสรางขอมลของประโยคได และจะถกจดเกบไวในหนวยความจาของระบบ

2.5 การคดเลอกคณลกษณะส าหรบท าเหมองขอความ (Feature Selection for Text Mining)

กระบวนการสาคญในการทาเหมองขอความ คอ กระบวนการเตรยมขอมลเพอใหขอมลทอยในรปแบบขอความซงไมมโครงสรางเปนขอมลทอยในรปแบบทมโครงสรางเพอนาไปประมวลผลได แตดวยปรมาณขอมลทมอยเปนจานวนมาก หากจานวนคณลกษณะทใชมมาก จะสงผลตอประสทธภาพในการประมวลผล เนองจากอลกอรทมในการสรางแบบจาลองการวเคราะหขอมลโดยทวไป ไมสามารถรองรบการทางานกบจานวนคณลกษณะทมจานวนมากไดด [34] เวกเตอรทแปลงจากรปแบบขอความโดยทวไปพบวามคณลกษณะจานวนมาก เนองจากคณลกษณะไดมาจากคา

29

ทอยในเอกสารขอความท งหมด ถงแมในการเตรยมขอมลจะมกระบวนการกาจดคาหยด การหารากศพทอยแลว แตพบวาคณลกษณะยงมจานวนมากเมอเทยบกบจานวนเอกสาร และเนองจากคณลกษณะแตละตวมความสาคญไมเทากน คณลกษณะจานวนมากทไดจากเอกสารมท งคณลกษณะทสาคญ ซงจาเปนตอการจาแนก และอาจจะมคณลกษณะทไมจาเปน (Less Informative) หรอเปนคณลกษณะทซ าซอน (Redundant Features) ซงอาจทาใหตวจาแนกเรยนรผดพลาดและสงผลตอประสทธภาพการจาแนกได ดงน น การคดเลอกคณลกษณะจงเปนกระบวนการทสาคญอยางหนงเพอใหไดคณลกษณะของขอมลทดเพอใชเปนตวแทนของขอมลสวนใหญไดกอนจะสรางตวจาแนก ลดจานวนคณลกษณะทมจานวนมากและทาใหประสทธภาพในการประมวลผลดข น ปจจบนไดมการนาเสนอวธการคดเลอกคณลกษณะหลายแบบ [6] [7] [8] [9] เชน วธฟลเตอร (Filter Model) วธแรปเปอร (Wrapper Model) วธฝงตว (Embedded Model) และวธผสมผสาน (Hybrid Model) การเลอกคณลกษณะสาหรบงานดานการทาเหมองขอความสวนใหญเปนแบบ Filter Model เนองจากมความงายและมประสทธภาพ [10]

2.5.1 วธฟลเตอร (Filter models)

วธฟลเตอรเปนการคดเลอกเลอกคณลกษณะโดยใชคาน าหนกของคณลกษณะและคลาส โดยการคานวณหาคาน าหนกของแตละคณลกษณะหรอคาน าหนกทเกดจากความสมพนธระหวางคณลกษณะกบคลาสตาง ๆ จากน นจะทาการเรยงคณลกษณะตามคาน าหนกจากมากไปนอย โดยคณลกษณะทมคาน าหนกมากทสดแสดงวามความสาคญมากทสด และจะเลอกคณลกษณะทมคาน าหนกมากไปใชในการสรางตวจาแนก เทคนคในการคานวณคาน าหนกของคณลกษณะมหลายวธ เชน Mutual Information (MI) Information Gain (IG) Chi-Square (Chi2) Gini Index Fisher Score และ ReliefF เปนตน ภาพประกอบแสดงวธการทางานของ Filter Model แสดงดงรปท 8

รปท 8 แสดงขนตอนของ Filter Model

Vector f1 f2 f3 f4 C d1 0 1 1 0 c1 d2 1 0 1 0 c2 d3 1 1 0 1 c1 d4 0 0 1 1 c2 d5 0 1 0 1 c1

Feature Ranking

1 2 3 4 . . n

Rank

.

.

Feature

Selected Features

KNN Naïve Bayes

SVM Decision Trees

Classifiers

30

จากรปท 8 แสดงข นตอนของวธการ Filter Model โดยเรมจากนาเขาเวกเตอรขอมล ซงแต

ละแถวในเวกเตอรแทนดวยเอกสารและแตละคอลมนแทนดวยคณลกษณะ ทาการคานวณคาน าหนกของคณลกษณะจากการปรากฏในเอกสารและพจารณาความสมพนธระหวางแตละคณลกษณะกบคลาสตาง ๆ จากน นจะไดคณลกษณะทเรยงลาดบตามคาน าหนกมากสดไปนอยสดเพอนาไปใชงานในการจาแนกขอมลตอไป

เทคนคในการคานวณคาน าหนกของคณลกษณะมหลายวธ เชน คาสารสนเทศรวม (Mutual Information : MI) Information Gain (IG) Chi-Square (Chi2) Fisher Score, Gini index และ ReliefF เปนตน ในงานวจยน ผวจยพฒนาข นตอนวธการใหมสาหรบคานวณคาน าหนกของคณลกษณะและเลอกคณลกษณะทมความจาเปนตอการจาแนกความคดเหนเปรยบเทยบกบวธการเลอกคณลกษณะพ นฐานทไดรบความนยมในงานทางดานเหมองขอความ ไดแก คาการเพมของขอมล (Information Gain: IG) คาสถตไคสแคว (Chi-Square) และคา Gini Index แตละเทคนคมรายละเอยดดงน

1) คาการเพมสารสนเทศ (Information Gain : IG) [35] เปนเครองมอวดคาความสาคญของคณลกษณะอกวธการหนงทไดรบความนยมเปนอยางมากในงานดานเหมองขอความ คาการเพมสารสนเทศไดนาไปประยกตใชในอลกอรทม ID3 และ C4.5 โดยทาการเลอกคณลกษณะสาหรบแบงขอมลจากคณลกษณะทมคาการเพมสารสนเทศสงทสด การหาคาการเพมสารสนเทศใชการปรากฏของคาทมในเอกสาร [36] [37] คานวณไดดงสมการ (2.16)

2

2

2

( | ) ( ) log ( )

( ) ( | ) log ( | )

( ) ( | ) log ( | )

i k k

k

i k i k i

k

i i ik k

k

IG t C p c p c

p t p c t p c t

p t p c t p c t

(2.16)

เมอ ( )ip t คอ ความนาจะเปนของการพบเทอม it ในเอกสาร ( )ip t คอ ความนาจะเปนของการไมพบเทอม it ในเอกสาร ( )kp c คอ คาความนาจะเปนของคลาส k ( | )k ip c t คอ คาความนาจะเปนของคลาส k เมอพบคา it

31

ข นตอนการหาคาการเพมสารสนเทศแสดงไดดงรปท 9 Algorithm 1: Information Gain Feature Ranking

1. S = 0 2. For each kc C do: 3. calculate ( )kp c ;

4. ( ) log 2( ( )c k kH S p c p c 5. cS H 6. End For 7. For each ie E 8. Calculate ( )ip e ; 9. ( ) log 2( ( ))i iSum S P e p e ; 10. S Sum ; 11. End For 12. For each class kc C do: 13. For each term ie E do: 14. Calculate ( | )k ip c e ; 15. 2( | ) log ( | )k i k iM S p c e p c e ; 16. S M ; 17. End For 18. End For 19. ( | ) ( 1) ( 1)H C E Sum M ;

20. ( | )cIG H H C E

รปท 9 ขนตอนการหาคาการเพมสารสนเทศ

2) คาสถตไคสแคว (Chi-Square) นอกจากเทคนคการเลอกคณลกษณะโดยการหาคาการเพมของขอมลขางตนแลว การหาคาสถตไคสแควเปนอกเทคนคหนงทไดรบความนยมในการทาเหมองความคดเหนเชนกน เปนการวดความสมพนธระหวางคณลกษณะ ( t ) และ คลาส ( c ) [38] [39] [39] โดยคาไคสแควสามารถคานวณไดจากสมการ (2.17)

22 ( ( , ) exp ( , ))( , )

exp ( , )

i k i ki k

i k

observed t c ected t ct c

ected t c

(2.17)

32

เมอ ( , )i kobserved t c คอ จานวนเอกสารทปรากฏคณลกษณะ it ในคลาส kc

exp ( , )i kected t c คอ ความนาจะเปนของการเกดคณลกษณะ it ในคลาส kc หาไดจากสมการ (2.18)

exp ( , ) ( ) ( , )i k k i kected t c prob c observed t c (2.18)

เมอ ( )kprob c คอ คาความนาจะเปนของการเกดคลาส k ในเอกสารท งหมด หาไดจากสมการ (2.19)

( , )( )

j k

k

n d cprob c

N (2.19)

ข นตอนการหาคาไคสแคว แสดงไดดงรปท 10

Algorithm 2: Chi-Square Feature Ranking 1. for each class kc C do: 2. for document

jd D do:

3. if jd in kc do:

4. 1kn ; 5. for each term it T do: 6. if it in kc do: 7. ( , ) 1i kObserved t c ; 8. end for 9. end for

10. 2 2( , ) (( ( , ) ( , )) ) / ( , )i k i k i k i kChi t c Observed t c Expected t c Expected t c ; 11. 2 1 2( ) / ( )kprob c n n n ; 12. end for 13. for each class it T do: 14. for each term kc C do: 15. ( , ) Pr ( ) ( , )i k k i kExpected t c ob c Observed t c ;

16. 2 2( , ) (( ( , ) ( , )) ) / ( , )i k i k i k i kChi t c Observed t c Expected t c Expected t c ; 17. end for 18. 2 2 2

1 2( ) ( , ) ( , )i i iChi t Chi t c Chi t c ; 19. end for

รปท 10 ขนตอนการหาคาไคสแคว

33

3) Gini index [40] [41] เปนคาทบงบอกวาคณลกษณะน นวาสมควรนามาใชเปนคณลกษณะในการแบงขอมลหรอไม คณลกษณะทมคา Gini index นอยแสดงวาเปนคณลกษณะทมความสาคญและสามารถแบงขอมลไดด แนวคดการใช Gini index คอ สมมต D คอ ขอมลตวอยางซงอยคลาสแตกตางกน k คลาส ขอมลใน D สามารถแบงเปนขอมลยอยได k ชด สมมต id คอชดขอมลยอยทอยในคลาส iC ดงน น Gini index ของ D แสดงไดดงสมการ (2.20)

2

1( ) 1

k

iiGini D p (2.20)

โดยท iP คอโอกาสท D จะเกดขอมลอยในคลาส iC ถา Gini Index เทากบ 0 แสดงวาขอมลทกตวทอยใน D อยในคลาสเดยวกน จากน นทาการคานวณหาคา Gini Sprit ของแตละคณลกษณะเพอพจารณาวาคณลกษณะใดสามารถแยกแยะขอมลไดดทสด ซงถา Gini Split นอยแสดงวาสามารถแยกแยะขอมลไดด วธการคานวณคา Gini Split แสดงดงสมการ (2.21)

1 21 2

| | | |( ) ( ) ( )

| | | |T

D DGiniSplit D Gini D Gini D

D D (2.21)

โดยท 1

| |D คอ จานวนคาน าหนกของคณลกษณะ it ทมคาเทากบ 1

2| |D คอ จานวนคาน าหนกของคณลกษณะ it ทมคาเทากบ 0

ข นตอนการหาคา Gini Index แสดงไดดงรปท 11 Algorithm 3: Gini Index Feature Ranking

1. for each class kc C do: 2. for document

jd D do:

3. if jd in kc do:

4. 1kn ; 5. for each term it T do: 6. if it in kc do: 7. ( , ) 1i kn t c ; 8. end for 9. end for

10. /k kp n N

11. 2( ) 1 kGini D p ;

12. ( , ) 1 [ ( , ) / ( , )]i j i k kiGini t D n t c n t c

13. end for

รปท 11 ขนตอนการหาคา Gini

34

2.5.2 วธ Wrapper Models

การคดเลอกคณลกษณะวธ Wrapper Model เปนการคดเลอกคณลกษณะจากตวจาแนกทสรางข นมาจากเซตของคณลกษณะทกาหนดไวแลวทาการวดประสทธภาพการทางานของตวจาแนก จากน นทาการเลอกคณลกษณะททาใหตวจาแนกมประสทธภาพในการจาแนกมากทสด [42] ภาพประกอบแสดงวธการทางานของ Wrapper Model แสดงดงรปท 12

รปท 12 วธการท างานของวธ Wrapper Model ทมา [42]

จากรปท 9 แสดงวธการทางานของวธ Wrapper Model โดยวธการคดเลอกคณลกษณะม 3 ข นตอนหลก คอ คนหาซบเซต (Subset) ของคณลกษณะ แลวประเมนผลซบเซตดงกลาวจากประสทธภาพของตวจาแนก และทาซ าไปเรอย ๆ จนกวาจะไดตวจาแนกทมประสทธภาพดเปนทพงพอใจ จงนาซบเซตทไดไปใชกบขอมลชดทดสอบ ซงการคดเลอกคณลกษณะดวยวธการแบบ Wrapper models ใหประสทธภาพในการจาแนกดกวาวธการแบบ Filter models แตใชเวลาในการประมวลผลนานเมอเปรยบเทยบกบวธการคดเลอกคณลกษณะแบบ Filter models

2.5.3 วธ Embedded Models

การคดเลอกคณลกษณะวธ Embedded Models เปนวธการคดเลอกคณลกษณะทใหประสทธภาพในการจาแนกสงแตใชเวลาในการประมวลผลนอย โดยรวมเอาขอดของ Wrapper models และ Filter models เขาดวยกน คาน าหนกของคณลกษณะสามารถเรยนรไดจากตวจาแนกทสรางข น วธการคดเลอกคณลกษณะทมประสทธภาพในการคดเลอกคณลกษณะทสกดจากขอความ คอ Support Vector Machine (SVM) ซงสรางตวจาแนกจากคณลกษณะท งหมดจากน นทาการคานวณน าหนกของคณลกษณะเพอคดเลอกคณลกษณะทมความสาคญ คณลกษณะทมคาน าหนกเปน 0 จะถกกาจดท งไป โดยทประสทธภาพของตวจาแนกยงคงเดม คณลกษณะทมคาน าหนกสง

35

แสดงวามความสาคญและจะถกเลอกนาไปใช ตวจาแนก SVM มประสทธภาพในการจาแนกขอมลทเปนขอความซงเปนขอมลเบาบางและมจานวนคณลกษณะทสง [43] ดงน นงานวจยน จงเลอกวธการคดเลอกคณลกษณะจากตวจาแนกทสรางข นโดยใช SVM และใช Linear kernel ซงใหประสทธภาพทดเมอจาแนกขอมลสองชด การจาแนกขอมลขอความ x โดยใช Linear kernel ใน SVM สามารถทาไดโดยใชสมการ (2.22)

( ) sgn[ ] for Ti ii

prediction x b w x w x (2.22)

โดยท Tw คอ เวกเตอรทต งฉากกบเสนไฮเปอรเพลน b คอ คาโนมเอยง (Bias) x คอ คาเวกเตอรขอมลทจะจาแนก xi = (xi1,xi2,…,xid) คอ ซพพอรตเวกเตอร และ d คอ จานวนคณลกษณะในตวจาแนก น าหนกของเวกเตอร w = (w1, w2,…,wd) สามารถคานวณไดจากตวจาแนก SVM ดงสมการท 2.6 สาหรบการคดเลอกขอมล |wj| หมายถงคาน าหนกของคณลกษณะ j ถาคาน าหนกของคณลกษณะ j มคาใกล 0 แสดงวาคณลกษณะ j มผลกระทบนอยในการจาแนกขอมล แตถาคาน าหนกของคณลกษณะ j มคาสงแสดงวาคณลกษณะ j มผลกระทบสงในการจาแนกขอมล ดงน นคณลกษณะทมคาน าหนกนอยจะถกกาจดออกไปเพราะไมมความสาคญสาหรบการจาแนกขอมล

2.6 รปแบบขอมลแนวตง (Vertical Data Format)

วธการจาแนกขอความโดยสวนมากจะสรางตวจาแนกจากรปแบบเวกเตอรแนวนอน (Horizontal Vector) ชดขอมลจะถกจดเกบในรปแบบของแถว แตละแถวแทนดวยเอกสาร และประกอบดวยคาน าหนกของคณลกษณะทเปนตวแทนของเอกสารท งหมด ถาไมปรากฏคณลกษณะในเอกสารคาน าหนกจะมคาเปน 0 ในงานวจยของ Saif และคณะ [44] ไดทาการวเคราะหความถของการเกดคาแตละคาในเอกสาร โดยเปรยบเทยบขอมลทวตเตอร (Twitter Data) กบขอมลวจารณภาพยนตร (Movie Review Data) พบวา คาความถของคาทเกดข นในเอกสารท งหมดทมจานวนนอยกวา 10 คร ง มมากถงรอยละ 93 สาหรบขอมลทวตเตอร และ รอยละ 78 สาหรบขอมลวจารณภาพยนตร ดงรปท 13

36

รปท 13 แสดงความถของการเกดค า ทมา [44]

จากรปท 10 แสดงใหเหนวาขอความคดเหนทอยบนเครอขายสงคมออนไลนมการใชคาศพททหลากหลายและเปนไปไดวาคาศพทจานวนมากเหลาน นอาจเปนขอมลทเปนทางการ คาทสะกดผด อกษรยอ หรอคาเฉพาะทใชกบบคคลบางกลม [45] คาศพททหลากหลายเหลาน นสงผลใหขนาดของคาคณลกษณะมจานวนมาก สงผลใหใชเวลาในการประมวลผลมากและประสทธภาพในการจาแนกความคดเหนลดลง ตวอยางขอมลในรปแบบเวกเตอรสาหรบใชในการจาแนกความคดเหนโดยทวไป จะเปนรปแบบเวกเตอรในแนวนอน โดยทแถวประกอบดวย เซตของเอกสาร 1 2{ , ,.., }nD d d d เมอ n = จานวนเอกสารท งหมด และแตละคอลมนประกอบดวย เซตของคณลกษณะ

1 2{ , ,.., }mT t t t เมอ m = จานวนคณลกษณะท งหมด และ w เปนคาน าหนก (Weight) ของการแทนคาการเกดคณลกษณะในเอกสาร แสดงดงตาราง 4

ตาราง 4 รปแบบเวกเตอรแนวนอน (Horizontal Vector)

ล ำดบเอกสำร (Document ID)

คณลกษณะท 1 ( 1t )

คณลกษณะท 2 ( 2t )

… คณลกษณะท n ( nt )

1d 11w 12w … 1mw

2d 21w 22w … 2mw

… … … … …

nd 1nw 2nw nmw

37

วธการแปลงขอมลเวกเตอรแนวนอนเปนขอมลแนวต ง เปนอกหนงวธการทชวยให การวเคราะห ชวยลดระยะเวลาในการประมวลผล และงายตอการวเคราะหความสมพนธของคณลกษณะ ขอมลแนวต ง ประกอบดวยแถวซงเปนตวแทนคณลกษณะ แตละคณลกษณะ ประกอบดวยเอกสาร ทปรากฏคณลกษณะน น เชน แถวท 1 คอ คณลกษณะ 1t ประกอบดวยเอกสาร 1 5,d d แสดงวา ในเอกสาร 1d และ 5d มคณลกษณะ 1t ปรากฏอย ดงตาราง 5

ตาราง 5 ตวอยางรปแบบขอมลแนวตง (Vertical Data Format)

คณลกษณะ (Feature)

ชดของเอกสำร (Set of Documents)

1t 1 5,d d

2t 2 3,d d

… …

nt 1 3 4, ,d d d

ตวอยางงานวจยทใชรปแบบขอมลแนวต ง เพอเพมประสทธภาพของข นตอนวธ เชน Zaki

และ Gouda [12] แสดงใหเหนวาการจดรปแบบขอมลแนวต ง สามารถลดขนาดของหนวยความจาและมประสทธภาพดกวาการใชรปแบบขอมลแนวนอน Viger และ Gomariz [46] แสดงใหเหนวาการทาเหมองรปแบบลาดบ (Sequential Pattern Mining) โดยใชรปแบบขอมลแนวต งชวยใหประสทธภาพดเยยม และชวยลดเวลาในการคานวณ งานวจยน ผวจยไดใชรปแบบขอมลแนวต งมาใชในการวเคราะหคณลกษณะ ซงขอดของวธการน คอชวยลดเวลาในการประมวลผลไดดมาก

2.7 การวดประสทธภาพในการจ าแนกขอมล (Evaluation)

การวดประสทธภาพสาหรบงานวจยดานเหมองความคดเหนโดยทวไปจะหาคาความถกตอง (Accuracy) ความแมนยา (Precision) คาความระลก (Recall) และคาเฉลยประสทธภาพโดยรวม (F-measure) การวดประสทธภาพจาเปนตองแบงขอมลออกเปน 2 สวน คอ ขอมลชดสอนกบขอมลชดทดสอบ

2.7.1 การแบงขอมล

การแบงขอมลเพอใชวดประสทธภาพการจาแนก แบงเปน 3 วธการหลก [29] ไดแก 1) วธ Self Consistency Test เปนวธการทงายทสด คอ ขอมลทใชสรางโมเดลและขอมลทใช

ทดสอบเปนขอมลชดเดยวกน วธการน ไดผลการวดประสทธภาพทคอนขางสง แตไมคอยไดรบความ

38

นยมและไมเหมาะสมทจะนาไปใชรายงานผลในงานวจยตาง ๆ เนองจากการวดประสทธภาพมความลาเอยงจากการใชขอมลชดเดยวกนในการสรางตวจาแนกและตวทดสอบ

2) วธ Split Test เปนวธการแบงขอมลดวยการสม ซงจะแบงออกเปน 2 สวน เชน 60% ตอ 40% หรอ 70% ตอ 30% โดยขอมลสวนทใชสาหรบสรางโมเดล คอ ขอมลสวนท 1 (60%,70%) และ ขอมลทใชในการทดสอบประสทธภาพของโมเดล คอ ขอมลสวนท 2 (40%,30%) การทดสอบดวยวธน จะทาการสมขอมลเพยงคร งเดยว ถาสมขอมลทใชสาหรบการทดสอบทมลกษณะทใกลเคยงกบขอมลทใชสรางโมเดล กจะทาใหผลการวดประสทธภาพออกมาด แตถาสมขอมลทดสอบทมลกษณะแตกตางกบขอมลทใชสาหรบสรางโมเดลมาก กจะทาใหผลของการวดประสทธภาพออกมาไมด ดงน น หากจะใชวธ Split Test ควรจะมการสมหลายคร ง วธการน จะใชเวลาในการสรางโมเดลนอย เหมาะกบชดขอมลทมขนาดใหญมาก

3) วธ Cross-Validation Test เปนวธทนยมใชในการวดประสทธภาพของโมเดล เนองจากผลทไดมความนาเชอถอ การวดประสทธภาพดวยวธการน จะทาการเลอกขอมลออกมา K ชด เพอประเมนผล จากขอมลท งหมด โดยการทดลองคร งแรกจะใชชดขอมลชดแรกเปนตวทดสอบและขอมลชดทเหลอเปนชดขอมลเรยนร ทาไปเรอย ๆ จนครบจานวน K ชด เชน 5-fold cross-validation คอ จะทาการแบงขอมลออกเปน 5 ชด โดยทแตละชดมจานวนขอมลเทากน หลงจากน นขอมลชดแรกเปนขอมลทดสอบประสทธภาพของโมเดลและขอมลชดทเหลอเปนชดเรยนร ทาวนไปเชนน จนครบ 5 รอบ แลวนาคาประสทธภาพทไดในแตละรอบมาคานวณคาเฉลย การแบงขอมลดวยวธการ Cross-validation Test ดงแสดงในรปท 14

Experiment 1 Experiment 2 Experiment 3 Experiment 4 Experiment 5

รปท 14 ตวอยางขนตอนการท างานของ K-Fold Cross Validation

= Test Set = Training Set

39

วธการประเมนผลดวย K-Fold Cross Validation มขอดคอ ขอมลทกชดจะถกนามาทดสอบ

ประเมนผล แตมขอเสยคอ ใชเวลานานในการทดสอบ โดยข นอยกบจานวนชดทจะนามาทดสอบ

2.7.2 การวดประสทธภาพการจาแนก

งานวจยดานการทาเหมองความคดเหน (Opinion Mining) โดยทวไปใชวธการวดประสทธภาพ [29] ไดแก คาความถกตอง (Accuracy) คาความแมนยา (Precision) คาความระลก (Recall) และคาเฉลยประสทธภาพโดยรวม (F-Measure) อธบายโดยใชตาราง Confusion Matrix ซงเปนตารางแบบจตรส มจานวนแถวเทากบจานวนคอลมน และเทากบจานวนคลาส เชน มคลาสคาตอบของขอมลชดสอน 2 คลาส คอ ความคดเหนเชงบวก (Positive) และ ความคดเหนเชงลบ (Negative) ทาใหตารางน ถกสรางเปนตารางขนาด 2x2 โดยทขอมลดานคอลมน เปนคลาสทอยในขอมลชดสอน (Actual) และขอมลดานแถว เปนคลาสททานายได (Predicted) ดงตาราง 6

ตาราง 6 Confusion Matrix

Predicted

Actual Positive Negative

Positive TP FN

Negative FP TN

โดยท TP (True Positive) คอ จานวนขอมลททานายถกวาเปนคลาส Positive FN (False Negative) คอ จานวนขอมลททานายวาเปนคลาส Negative

แตคาตอบคอ Positive FP (False Positive) คอ จานวนขอมลททานายวาเปนคลาส Positive

แตคาตอบคอ Negative TN (True Negative) คอ จานวนขอมลททานายถกวาเปนคลาส Negative

1) การวดคาความถกตอง (Accuracy) การวดคาความถกตองของการจาแนกความคดเหนเปนการวดความถกตองของวธการหรอรปแบบการจาแนกประเภทขอมลโดยจะพจารณารวมทกคลาส คานวณจากผลรวมของคาททานายคลาสไดถกตองหารดวยผลรวมของคาททานายท งหมด ดงสมการ (2.23)

40

TP TN

AccuracyTP TN FN FP

(2.23)

2) การวดคาความแมนยา (Precision) การวดคาความแมนยาของการจาแนกความคดเหนเปนการวดประสทธภาพของวธการหรอ

รปแบบการจาแนกประเภทขอมลโดยจะพจารณาแยกทละคลาส คานวณจากคาททานายถกตองวาเปนคลาสทพจารณา หารดวยผลรวมของคาททานายถกวาเปนคลาสทพจารณาและคาททานายวาเปนคลาสอนแตในความเปนจรงอยในคลาสทพจารณา ดงสมการ (2.24) สมการ (2.25) ตามลาดบ

Pr positive

TPecision

TP FP

(2.24)

Pr negative

TNecision

FN TN

(2.25)

3) การวดคาความระลก (Recall) การวดคาความระลกของวธการจาแนกความคดเหนเปนการวดความถกตองของวธการโดย

จะพจารณาแยกทละคลาส คานวณจากคาททานายถกตองวาเปนคลาสทพจารณา หารดวยผลรวมของคาททานายถกตองวาเปนคลาสทพจารณาและคาททานายวาเปนคลาสทพจารณาแตคาตอบอยในคลาสอน ดงสมการ (2.26) สมการ (2.27) ตามลาดบ

Re positive

TPcall

TP FN

(2.26)

Re negative

TNcall

FP TN

(2.27)

4) คาเฉลยประสทธภาพโดยรวม (F-measure) คาเฉลยประสทธภาพโดยรวมซงจะพจารณาแยกทละคลาส เปนการนาคาความระลกและคา

ความแมนยามาพจารณารวมกน ระบบทมประสทธภาพดจะตองมคาความระลกและคาความแมนยาสงใกลเคยงกน ดงสมการ (2.28) สมการ (2.29) ตามลาดบ

41

Pr Re2

Pr Re

positive positive

positive

positive positive

ecision callF measure

ecision call

(2.28)

Pr Re2

Pr Re

negative negative

negative

negative negative

ecision callF measure

ecision call

(2.29)

2.8 งานวจยทเกยวของ

2.8.1 งานวจยทใชวธการใชคลงคา

Karamibekr และ Ghorbani [5] วเคราะหความแตกตางของการทาเหมองความคดเหนทมตอสนคา (Product Review) และ ความคดเหนประเดนทวไปทางสงคม (Social Issue) เนองจากการจาแนกความคดเหนประเดนทางสงคมมประสทธภาพในการจาแนกไมสงมาก เมอเปรยบเทยบกบการจาแนกความคดเหนทมตอสนคา จากผลการศกษาพบวา ความคดเหนทมตอสนคาจะมคาคณลกษณะทบงบอกถงเรองน นๆ ปรากฏอยในประโยค แตความคดเหนในประเดนทางสงคมมคาคณลกษณะทบอกถงประเดนนอยมาก และยงพบวาความคดเหนทมตอสนคาเปนประโยคทชดเจน ไมกากวม (Explicit Mention s) ในขณะทความคดเหนประเดนทวไปของสงคมสวนมากเปนประโยคกากวม (Implicit Mentions) ดงน น การจาแนกความคดเหนดวยวธการเดยวกบการวเคราะหความคดเหนในประเดนทางสงคมจงยงไมเพยงพอ ผวจยจงไดนาเสนอวธการใหมในการจาแนกความคดเหนประเดนทางสงคม โดยใชวธการหาคากรยาทบงบอกถงความรสก (Opinion Verb) ในประโยค และใชเปนคาหลกในการหาหนาทของคาอน ๆ งานวจยน ใชคลงคาจาก Stanford POS Tagger ในการหาคากรยา คานาม คาคณศพท คาวเศษณ เมอทราบหนาทของคาแตละคาแลวใหกาหนดคาน าหนก (Strange) ของคา คอ คาทเปนความคดเหนเชงลบมาก (Strongly Negative) เทากบ -2, คาทเปนความคดเหนเชงลบ (Negative) เทากบ –1, คาทเปนความคดเหนเชงบวก (Positive) เทากบ 1, คาทเปนความคดเหนเชงบวกมาก (Strong Positive) เทากบ 2 ชดขอมลทใชสาหรบงานวจย เปนขอมลความคดเหนเกยวกบประเดนทางสงคม จานวน 1,016 ความคดเหน ประกอบดวยความคดเหนเชงบวก จานวน 588 ความคดเหน และความคดเหนเชงลบ จานวน 428 ความคดเหน ข นตอนวธการจาแนกความคดเหนเรมจากการแบงเอกสารออกเปนประโยค แลวสกดคากรยาและระบหนาทคาอนๆ ทบงบอกถงความรสก โดยใช Stanford POS Tagger แลวใหคาคะแนนแตละคา จากน นคานวณคาความคดเหนในประโยคจากคาผลรวมของคะแนนความคดเหนแตละคา และหาคาความ

42

คดเหนท งเอกสารโดยการนาคาความคดเหนแตละประโยคมารวมกน การประเมนประสทธภาพการจาแนกใชวธการประเมนความถกตอง พบวา วธการจาแนกความคดเหนในประเดนทางสงคม มความถกตองในการจาแนก เทากบ 65%

Mostafa [47] นาเสนอการเหมองขอความสาหรบวเคราะหความรสกของผบรโภคทมตอสนคายหอดง ไดแก Nokia, T-Mobile, IBM, KLM และ DHL โดยรวบรวมขอความทอยในเวบไซตทวตเตอร (Twitter) มาประเมนความรสกของผบรโภค เพอประเมนวาผบรโภคมความคดเหนตอสนคาแตละยหอในเชงบวก (Positive) หรอ เชงลบ (Negative) วธการทผวจยใช คอ พจนานกรมคาแสดงความคดเหน (Sentiment Corpus) จานวน 6,800 คา ประกอบดวยความคดเหนเชงบวก และความคดเหนเชงลบ จากน นกาหนดใหคาความคดเหนเชงบวกมคาน าหนกเทากบ +1 และคาความคดเหนเชงลบมคาน าหนกเทากบ -1 ประเมนความคดเหนจากคาทพบในประโยค และสรปผลเพอแสดงใหเหนในรปแบบกราฟ โดยใช StreamGraph Software แสดงใหเหนความรสกโดยรวมของผบรโภคทมตอสนคายหอเหลาน น

Marrese-Taylor และคณะ [48] นาเสนอข นตอนวธในการทาเหมองความคดเหน เพอประยกตใชกบขอความคดเหนเกยวกบการทองเทยว โดยรวบรวมขอมลจากเวบไซต TripAdvisor ข นตอนการจาแนกความคดเหน ผวจยพฒนาเพมเตมจากข นตอนของ Bing Liu’s ซงเปนข นตอนทพฒนาข นเพอจาแนกความคดเหนเกยวกบสนคาทวไป ไมไดเจาะจงความคดเหนดานการทองเทยวโดยตรง งานวจยน มข นตอนการจาแนกความคดเหน 3 ข นตอน คอ 1) สกดประเดน (Aspect) ทกลาวถงในขอความ แลวแยกแตละประเดนออกเปนประโยค (Sentence) 2) นาประโยคมาวเคราะห เพอจาแนกประเภทความคดเหน โดยแบงเปน 3 ดาน ไดแก ความคดเหนเชงบวก ความคดเหนเชงลบ และความคดเหนทเปนกลาง 3) สรปความคดเหนภาพรวมวานกทองเทยวสวนมากมความคดเหนเกยวกบแตละประเดนเปนอยางไร ผลการวดประสทธภาพข นตอนวธจาแนกความคดทนาเสนอเปรยบเทยบวธการของ Liu’s พบวา วธการทนาเสนอมคาความถกตองสงกวาวธการของ Liu’s

Somasundaran [49] จาแนกความคดเหนดวยวธการใชคลงคา ขอมลทใชในการวจยรวบรวมจากคลงขอมลความคดเหน MPQA Corpus จานวน 2,232 ความคดเหน ประกอบดวย ขอความคดเกยวกบ Gun Right จานวน 306 ขอความ ขอความเกยวกบ Gay Rights จานวน 846 ขอความ ขอความเกยวกบ Abortion 550 ขอความ และขอความเกยวกบ Creationism จานวน 530 ขอความ โดยสรางคลงคาศพทความรสกและคาตรงขาม มข นตอนการดาเนนการ 4 ข นตอน คอ 1) สราง Candidate Set จากคลงคาศพททสกดจากขอความ ดวยวธ N-gram เชน “can only rise to meet it by making some radical changes” จะได Candidate Set คอ [can, can only, can only rise] 2) ลบคาทไมมข วความคดเหนออก 3) หาคาความคดเหนของขอความใน Candidate

43

Set 4) บนทกลงในคลงคาศพท คณลกษณะทใชในการจาแนกความคดเหน คอ Model Verbs และ Syntactic Rules ผลการประเมนประสทธภาพ พบวา มความถกตองในการจาแนก เทากบ 63.96

Cruz [50] นาเสนอวธการอตโนมตสาหรบสรางพจนานกรม Lemma Level ซงแรงจงใจในการทาวจยเกดจากปญหาของการวเคราะหประโยคจากคาในพจนานกรม เชน คาวา “Good” ในพจนานกรมมความหมายในเชงบวก แตหากนาไปใชกบบางประโยค เชน “His second album is not so good” จะเหนวาประโยคน มคาวา Good หากใชการวเคราะหดวยพจนานกรม ขอความน จะจดเปนขอความเชงบวก แตหากเราวเคราะหตามรปประโยคแลวจะพบวาขอความน เปนเชงลบ วธการสรางพจนานกรม Lemma Level ผวจยไดสรางพจนานกรม Synset Level สาหรบภาษาองกฤษ ทพฒนาเพมเตมจาก SentiWordNet 3.0 ซงจดเปนหนงในพจนานกรมทนยมมากทสดในปจจบน จากน นทาการพฒนาพจนานกรม Lemma Level จานวน 8 Layer แตละ Layer จะถกจดเรยงในลกษณะทเปนช นตอกนโดยกาหนดให Layer ถดไปม Lemmas ท งหมดของ Layer กอนหนา ผลการวจยพบวา วเคราะหความคดเหนโดยใชพจนานกรม Lemma Level สาหรบขอความภาษาองกฤษ ไดคาความถกตองมากกวา 80% ใน Layer ท 1-7 และสาหรบขอความภาษาสเปนและอก 3 ภาษา ทใชอยางเปนทางการในสเปน ไดคาความถกตองมากกวา 80% ใน Layer ท 1-6 เชนกน สวนใน Layer อนๆ ใหคาความถกตองท 60%

Terrana [51] นาเสนอการวเคราะหขอความทอยบน Facebook ของผใช โดยสราง Facebook Page เพอใหเขาถงขอมลของทกดถกใจเพจน น แลวทาการดงขอมลเพอตรวจสอบวาใครกลาวถงอะไร กลาวถงใคร และกลาวในเชงบวก เชงลบ หรอเปนกลาง การเขาถงขอมลทอยบน Facebook ผวจยใช Facebook Graph APIs และ Facebook Query Language (FQL) Table Reference สาหรบดงขอมล Text Messages, Comments และ Likes และทาการวเคราะหตนฉบบเน อหาโดยใช Linguistic Inquiry and Word Count (LIWC) ซงเปนซอฟตแวรในการคานวณระดบท User Root เพอใชระบหมวดหมของคาทแตกตาง แลวจาแนกความรสกตามเน อหาทางอารมณของพวกเขา จากน นนามาสรางเปนกราฟความสมพนธของผใช

2.8.2 งานวจยทใชวธการเรยนรของเครอง

Go และคณะ [11] นาเสนอวธการจาแนกความคดเหนทอยบนเวบไซตทวตเตอร (Twitter Data) โดยใชวธการเรยนรของเครอง ไดแก นาอฟเบย, แมกซมม เอนโทรป (Maximum Entropy) และซพพอรเวกเตอรแมชชน ใช Unigram, Bigrams, Unigrams รวมกบ Bigrams และ Unigrams รวมกบ Part of Speech Tags. ขอมลทใชในการสรางรปแบบการจาแนก คอ ขอความทรวบรวมโดยใช Twitter API จานวน 1,600,000 ขอความ แบงเปนขอความคดเหนเชงบวก จานวน 800,000 ขอความ และขอความคดเหนเชงลบ จานวน 800,000 ขอความ ในกระบวนการเตรยมขอมลชดสอน

44

ผวจยไดลบขอความแสดงอารมณ (Emoticons) ออก จากน นทาการแทนคาขอมล โดยขอความทข นตนดวยสญลกษณ @ ถกแทนทดวยขอความ USERNAME ขอความทเปนทอยเวบไซต ถกแทนคาดวยขอความ HTTP นอกจากน ยงมการตรวจสอบตวอกษรทซ ากนมากกวา 2 ตว เพอแทนทดวยตวอกษรทซ าจานวน 2 ตว ทาการสกดคณลกษณะดวยวธการตางๆ ขางตน รวมกบการจาแนกดวยวธการเรยนรของเครอง ขอมลทใชในการทดสอบเปนขอความทรวบรวมโดย Twitter API ประกอบดวยขอความคดเหนเชงบวกจานวน 182 ขอความ และขอความคดเหนเชงลบ จานวน 177 ขอความ ผลการวจยพบวา วธการซพพอรตเวกเตอรแมชชนรวมกบ รวมกบ Unigrams และ Bigrams มประสทธภาพการจาแนกสงทสด คอ 82.20%

Anjaria และ Guddeti [3] นาเสนอการศกษาปจจยทมอทธพลตอการทาเหมองความคดเหนของขอมลบนทวตเตอร โดยใชวธการเรยนรแบบมผสอน ไดแก ซพพอรตเวกเตอรแมชชน, นาอฟเบย, แมกซมม เอนโทรป, อารทฟเชยล นวรอล เนตเวรค (Artificial Neural Networks) และรวมหลกการวเคราะหองคประกอบกบซพพอรตเวเตอรแมชชนในการทจะลดจานวนมต (Dimensionality Reduction) ของขอมล ในการทดสอบผวจยไดทดลอง 2 กรณทแตกตางกน คอ การทานายผลเลอกประธานาธบดประเทศสหรฐอเมรกา ในป ค.ศ.2012 และ การเลอกต งท Karnataka ในป ค.ศ.2013 ผลการประเมนประสทธภาพการทานาย พบวา วธการซพพอรตเวกเตอรแมชชนใหคาความถกตองสงกวาวธการอน คอ การทานายผลการเลอกต งประธานาธบด ประเทศสหรฐอเมรกา ไดคาความถกตอง เทากบ 88% และผลการทานายการเลอกต งท Kanataka ไดคาความถกตองเทากบ 58%

Akaichi และคณะ [2] นาเสนอการจาแนกความรสกจากขอความทโพสตบน Facebook เพอวเคราะหความคดเหนและพฤตกรรมของผใชเฟสบค งานวจยน มข นตอนการดาเนนการ 5 ข นตอน คอ ข นตอนท 1) รวบรวมขอมลทโพสตบนเวบไซตเฟสบคของผใชชาวตนเชยน (Tunisian) จานวน 260 คน ข นตอนท 2) พฒนาคลงคาศพทสาหรบเกบคาทอยในรปแบบภาษาทไมเปนทางการ (Informal Language) แตใชบอยบนเครอขายสงคมออนไลน โดยผวจยไดพฒนาคลงคาศพท 3 ประเภท คอ คลงคาศพทสาหรบเกบอกษรยอ (Acronyms) เชน LOL (Positive), GR8 (Positive), CU (Neutral) เปนตน คลงคาศพทสาหรบเกบสญลกษณแสดงอารมณ (Emoticon) เชน :), :-), :p, :’(, <3 เปนตน และคลงคาศพทสาหรบเกบคาอทาน (Interjections) เชน Wow, Haha, Hihi, Oh dear เปนตน ซงในคลงคาศพทท งสามประเภทน จะระบความหมายไวดวยวาคาดงกลาวมความหมายในเชงบวก (Positive) เชงลบ (Negative) หรอ เปนกลาง (Neutral) ข นตอนท 3) สกดคณลกษณะของขอความทรวบรวมมาจากเฟสบคใหอยในรปแบบของขอมลทมโครงสราง โดยใช Unigrams, Bigrams, Trigrams และ Part-of-Speech เปนคณลกษณะในการจาแนกขอความ ข นตอนท 4) สรางโมเดลการเรยนร (Training Model) กาหนดคลาสคาตอบ แลวแบงขอมล 2 กลม คอ ขอมลชดสอน 60% ขอมลชดทดสอบ 40% ข นตอนสดทาย ทาการวดประสทธภาพของโมเดล งานวจยน

45

กาหนดคณลกษณะสาหรบจาแนกความคดเหน 7 รปแบบ ไดแก Unigrams, Bigrams, Trigrams, Unigrams + Bigrams, Unigrams + Trigrams, Bigrams + Trigrams และ Unigrams + Bigrams + Trigrams และทาการเปรยบเทยบการใชวธการเรยนรของเครอง 2 วธ คอ นาอฟเบย และ ซพพอรตเวกเตอรแมชชน ผลการวจยพบวา เมอใชคณลกษณะ Unigrams วธการซพพอรตเวกเตอรแมชชนใหคาความถกตอง เทากบ 72.78% ซงสงกวาวธนาอฟเบย แตเมอใชคณลกษณะแบบ Bigrams พบวา วธนาอฟเบยใหคาความถกตองสงกวาวธซพพอรตเวกเตอรแมชชน คอ 69.42%

Basari และคณะ [32] นาเสนอการทาเหมองความคดเหนจากขอความคดเหนเกยวกบหนง (Movie Review) มข นตอนการดาเนนการ 6 ข นตอน คอ ข นตอนท 1) ใชชดขอมลทวตเตอร (Twitter) ทเวบไซต Stanford ไดรวบรวมไว ข นตอนท 2) เตรยมขอมล (Preprocessing) ประกอบดวยการกรองขอมล ในการกรองขอมลน จะใชคาสาคญ (Keyword) เปนชอของหนง เชน Transformers, Star Trek, X-Men, The Hangover เปนตน จากน นทาการลบคาทไมมความหมายออก เชน @, Url, Hashtag (#) เปนตน ข นตอนท 3) สกดและเลอกคณลกษณะ (Feature Selection and Extraction) ข นตอนท 4) กาหนดคาน าหนกคณลกษณะ (Feature Weighting) ข นตอนท 5) จาแนกความคดเหนดวยวธการเรยนรของเครอง ซงงานวจยน ไดใชวธซพพอรตเวกเตอรแมชชนรวมกบวธ Particle Swarm Optimization เปรยบเทยบกบการใชวธการซพพอรตเวกเตอรแมชชนอยางเดยว ข นตอนท 6) ตรวจสอบและประเมนผล ผลการวจย พบวา การใชวธซพพอรตเวกเตอรแมชชนอยางเดยว มคาความถกตองเทากบ 71.87% สวนการใชวธซพพอรตเวกเตอรแมชชนรวมกบวธ Particle Swarm Optimization มคาความถกตองสงข นเปน 77.00%

Pak และ Paroubek [52] นาเสนอการจาแนกความคดเหนทอยบนเวบไซตทวตเตอร (Twitter) มข นตอนคอ สกดคณลกษณะ โดยใช n-gram การเตรยมขอมลประกอบดวย 4 ข นตอน คอ 1) การกรองขอความ (Filtering) หรอเรยกอกอยางวาการทาความสะอาดขอความ โดยลบขอความทเปน URL ( เชน http://example.com) ชอผใชทวตเตอร (เชน @alex) สญลกษณพเศษทใชในทวตเตอร เชน สญลกษณ รทวต (RT) และอโมตคอน 2) การตดคา งานวจยน ใชการตดคาโดยใชชองวาง (Space) และสญลกษณพเศษ (Punctuation Marks) 3) ลบคาทไมมนยสาคญออก เชน “a” “an” “the” เปนตน 4) สราง n-gram feature โดยคาทเปนคาปฏเสธ (Negation Word) จะถกรวมเปนคาเดยวกบคาถดไป เชน I do not like fish เมอสรางรปแบบ bigrams จะได “I do+not”, “do+not like”, “not+like fish” เปนตน งานวจยน ใชตวจาแนก 3 วธการ คอ Naïve Bayes, SVM และ CRF ซงผลการวจยพบวา Naïve Bayes มประสทธภาพความถกตองในการจาแนกสงทสด

Yang และคณะ [53] จาแนกความคดเหนทอยบนเวบบลอกดวยวธการซพพอรตเวกเตอร แมชชนและคอนดชนนอลแรนดอมฟลด (Conditional Random Field : CRF) วธการคอ รวมรวม

46

ขอมลโพสตทอยบนเวบบลอกแบงเปนขอมลชดสอนและขอมลชดทดสอบ จากน นสรางคลงคาศพทและตวจาแนกจากขอมลชดสอน งานวจยน จาแนกความคดเหนในระดบประโยคและใชผลการวเคราะหแตละประโยคไปสรปความคดเหนระดบเอกสาร ผลการวจย พบวา การจาแนกความคดเหนในระดบประโยค วธการคอนดชนนอลแรนดอมฟลด มประสทธภาพดกวาวธการซพพอรตเวกเตอรแมชชน และพบวาประโยคสดทายของเอกสารจะเปนขอสรปความคดเหนในระดบเอกสารได

2.8.3 งานวจยทใชวธการใชคลงคารวมกบเรยนรของเครอง

Ortigosa และคณะ [4] นาเสนอวธการสกดความรสกและวเคราะหการเปลยนแปลงทางอารมณของผเรยน จากขอความทอยบน Facebook เพอนามาประยกตใชสาหรบปรบปรงระบบการเรยนการสอนออนไลน (e-Learning) ใหเหมาะสมกบผเรยน งานวจยน ใชวธการทเรยกวา Sentbuk ในการดงขอความทอยบน Facebook แลวนามาวเคราะหถงความรสกของผเรยนดวยการผสมผสานกนระหวางวธการใชคลงคาและเรยนรของเครอง ทาการจาแนกความรสกเปน 3 กลม คอ เชงบวก เชงลบ และเปนกลาง และทาการทดสอบวธการจาแนกความรสก 4 วธการ คอ 1) ใช Lexical-base อยางเดยว 2) ใช Tree decision (J48-C4.5) รวมกบ Lexicon-based tagging 3) ใช Naïve-Bayes รวมกบ Lexicon-based tagging และ 4) ใช Support Vector Machine รวมกบ Lexicon-based tagging ผลการวจยพบวา การวเคราะหความรสกจากขอความบน Facebook ดวยวธการ Support Vector Machine รวมกบ Lexicon-based tagging ใหคาความถกตอง (Accuracy) สงทสด คอ 83.27% ผลการวเคราะหนาไปประยกตใชเปนขอมลพ นฐานสาหรบผสอนและใชปรบปรงระบบ e-learning ได

Troussas และ คณะ [1] นาเสนอการจาแนกความคดเหนจากขอความทอยบนเฟสบค ดวยวธนาอฟเบย ข นตอนแรกทาการรวบรวมขอมลสถานะทอยบนเฟสบค ซงประกอบดวย 2 กลม คอ ความคดเหนเชงบวก (Positive) และ ความคดเหนเชงลบ (Negative) จากน นแบงขอมลชดสอนและชดทดสอบเปน 50% - 50% แลวสรางตวจาแนกดวยขอมลชดสอนและทาการจาแนกความคดเหนขอมลชดทดสอบ ดงรปท 15

47

รปท 15 ขนตอนการวเคราะหความคดเหนของ Troussas

ผวจยไดเปรยบเทยบการจาแนกความคดเหน 3 วธการ คอ นาอฟเบย, โรชโน (Rocchino), เปอรเซปทรอน (Perceptron) พบวา วธการนาอฟเบยมความแมนยาในการจาแนกมากกวาวธการอน คอ 77.00%

Mudinas และคณะ [54] นาเสนอการวเคราะหความคดเหนทชอวา pSenti เปนการจาแนกความคดเหนดวยวธการใชคลงคารวมกบวธการเรยนรของเครอง และนาเสนอผลการเปรยบเทยบการจาแนกความคดเหนดวยวธการ pSenti กบการจาแนกความคดเหนดวยวธการใชคลงคาอยางเดยวและการจาแนกความคดเหนดวยวธการเรยนรของเครองอยางเดยว 5 กระบวนการหลก คอ 1) การเตรยมขอมล 2) การสกดคณลกษณะ 3) การคนหาคาคณลกษณะทเปนคาแสดงความคดเหนดวยวธการใชคลงคา 4) จาแนกความคดเหนดวยกระบวนการเรยนรของเครอง 5) การปรบคาน าหนกความคดเหน และ 6) สรปผล ขอมลทใชม 2 ชด คอ ขอมลวจารณซอฟตแวร (Software Reviews) ของ CNET และขอมลวจารณภาพยนตร (Movie Reviews) ของ IMDB ในการจาแนกความคดเหนดวยวธการใชคลงคา โดยใชคลงความคดเหนเดยวกบ pSenti สวนการจาแนกความคดเหนดวยวธการเรยนรของเครองอยางเดยวใชคลงความคดเหนเดยวกบ pSenti และใชถงคาเปนคณลกษณะ ผลการจาแนกความคดเหน พบวา pSenti มความถกตองในการจาแนกเทากบ 82.30% ซงสงกวาวธการใชคลงคาอยางเดยวทมคาความถกตองเทากบ 66.00% แตนอยกวาวธการเรยนรของเครองอยางเดยวทมคาความถกตองเทากบ 86.85%

Fang และ Chen [55] นาเสนอวธการผสมผสานการใชคลงคากบวธการซพพอรตเวกเตอรแมชชน เพอพฒนาการจาแนกความคดเหน และแสดงใหเหนถงปญหาในการใชวธการใชคลงคาอยาง

48

เดยวไมสามารถครอบคลมการจาแนกความคดเหนไดทกโดเมน เชน คาวา Long เปนความคดเหนเชงบวกสาหรบอายการใชงานแบตเตอร แตหากกลาวถงโดเมนของกลองอาจจะหมายถงความลาชาของชตเตอร ซงเปนความคดเหนเชงลบ การใชวธการเรยนรของเครองจะชวยเพมประสทธภาพการจาแนกได เนองจากจะทาการเรยนรจากประโยคนาเขา แตอาจจะยงไมใชวธการทดทสด งานวจยน ไดทาการรวบรวมความคดเหนสาหรบแตละโดเมน และรวบรวมคาศพททเปนความคดเหนเชงบวกและเชงลบใหกบแตละโดเมนจากคลงคาศพทความคดเหนและรวบรวมรปแบบการใชภาษาจากเวบไซต คลงคาแบงเปน 2 รปแบบคอ คลงคาคณลกษณะ และคลงคาความคดเหนทมตอคณลกษณะ การสรางตวจาแนกไดผสมผสานวธการใชคลงคากบวธการ SVM คอ คดเลอกตวแทนคณลกษณะนาประโยคนาเขาจากหนาทของคาและผสมผสานความรทอยในคลงคาศพททสรางข นและใสคณลกษณะเพมเตมลงในคณลกษณะทไดจากการคดเลอกโดยหนาทของ เชน ประโยค “The case is rigid so it gives the camera extra nice protection.” ข นตอนแรกคดเลอกคณลกษณะจากหนาทของคา ไดแก คานาม (Nouns) คากรยา (Verb) คาคณศพท (Adjective) และ คากรยาวเศษณ (Adverb) ผลทไดคอ [case, rigid, give, camera, extra, nice, protection] จากน นจาแนกคณลกษณะจากคาทได ซงคาวา case ในประโยคจะมความหมายเกยวกบอปกรณกลอง ในข นตอนน จะทาการเพมคาวา Accessory เพมเขาไป จะได [case, rigid, give, camera, extra, nice, protection, accessory] ข นตอนตอไปคอ การจาแนกข วความคดเหน โดยผสมผสานคลงคาทสรางข นกบคลงคาความคดเหนของ MPQA ในการทดสอบประสทธภาพการจาแนก งานวจยน ไดเปรยบเทยบประสทธภาพการจาแนกความคดเหน 4 วธการ ไดแก SVM, MPQA + SVM, DomainLexicons + SVM และ DomainLexicons + MPQA + SVM พบวา วธการจาแนกความคดเหนโดยใช DomainLexicons + MPQA + SVM มประสทธภาพความถกตองของการจาแนกสงทสด คอ 66.80%

Zhang และคณะ [56] พฒนาวธการใหมชอวา LMS ในการจาแนกความคดเหนบนเวบไซตทวตเตอร ประกอบดวย 3 กระบวนการหลก ไดแก กระบวนการเตรยมขอมล กระบวนการใชคลงคา และกระบวนการเรยนรของเครอง การเตรยมขอมลประกอบดวย 4 กระบวนการยอย คอ 1) การตดคาดวยชองวาง 2) ทาความสะอาดขอมลโดยตดลงคและสญลกษณพเศษทไมมความหมายท งไป เชน RT, @, url เปนตน 3) การหารากคาศพท เปนการหารากคาศพทเดมจากซงขอความบนเวบไซตทวตเตอรสวนมากมกใชคายอ เชน wknd หมายถง weekend กระบวนการน ใชคลงคามาชวย 4) ระบหนาทของคาในประโยคใหอยในรปแบบ Part of Speech Tagging (POS) กระบวนการถดไปคอ การหาประเภทของประโยค แบงเปน 3 ประเภท คอ ประโยคบอกเลา (Declarative Sentence) ประโยคคาสง (Imperative Sentence) และประโยคคาถาม (Interrogative Sentence) ซงประโยคคาถามจดเปนประโยคทไมบอกข วความคดเหน ในบางประโยคทข นตนดวยคาสรรพนามแสดงวาอาง

49

ถงประโยคแรก เชน I bought this iPhone yesterday. It is awesome. จากประโยคขางตน It หมายถง iPhone ในประโยคแรก เปนตน นอกจากการใชคลงคาความคดเหนแลวยงมกฎความคดเหน (Opinion Rules) ไดแก 1) กฎคาปฏเสธ (Negation Rules) เมออยหนาคาจะถกเปลยนความหมายเปนตรงขาม เชน this cellphone is not good จะเหนวา good เปนคาเชงบวก เมอมคาวา not อยหนาคาจะความหมายจะถกเปลยนเปนเชงลบ 2) กฎประโยคทมคาวาแต (But-Clause Rules) ประโยคทอยกอนและหลงคาวาแต จะมมความตรงขามกน 3) กฎคาทมความหมายลดลงและเพมข น (Decreasing and Increasing Rules) คาทมความหมายเกยวกบการเพมข นหรอลดลงจะเกยวของกบคาแสดงความคดเหน เชน ยาชวยบรรเทาความเจบปวดอยางมาก (The drug eases my pain greatly) ซงคาวาเจบปวด (Pain) เปนคาเชงลบในคลงคาความคดเหน แตเมอดรปประโยคแลวพบวาประโยคน มความหมายในเชงบวก จงมกฏคาทมความหมายลดลงและเพมข น คอ คาทมความหมายลดลงรวมกบคาเชงลบจะมความหมายเชงบวก สวนคาทมความหมายลดลงรวมกบคาทมความหมายเชงบวกจะมความหมายเชงลบ หลงจากผานกระบวนการใชคลงคาแลว ทาการแปลงขอมลในอยในรปแบบเวกเตอร งานวจยน ใชการสกดคณลกษณะโดยใชไคสแคว และใชซพพอรตเวกเตอรแมชชนเปนตวจาแนก และเปรยบเทยบการจาแนกความคดเหนทพฒนากบวธการเรยนรของเครองอยางเดยว วธการใชคลงคาอยางเดยว ผลการวจยพบวา วธการ LMS ซงใชวธการใชคลงคารวมกบการเรยนรของเครองมประสทธภาพการจาแนกสงสด คอ มคาความถกตองโดยเฉลยเทากบ 85.40

Read [24] นาเสนอการจาแนกความคดเหนบนเวบไซตทวตเตอร โดยใชขอมลอโมตคอน (Emoticons) ทรวบรวมจาก Usenet news groups ประกอบดวยขอความอโมตคอนทบงบอกความคดเหนในดานบวก และอโมตคอนทบงบอกความคดเหนในดานลบ ใช Unigram Feature เปนตวแทนคณลกษณะและแทนคาดวยความถของการเกดคา วธการทใชเปนตวจาแนก ประกอบดวย 2 วธการ คอ ซพพอรตเวกเตอรแมชชน และนาอฟเบย การทดสอบใชการแบงขอมลดวยวธ 3-fold cross validation ผลการวดประสทธภาพ พบวา การจาแนกความคดเหนดวยวธการนาอฟเบย มคาความถกตอง เทากบ 78.90 % สวนการจาแนกความคดเหนดวยวธการซพพอรตเวกเตอรแมชชน มคาความถกตอง 81.50%

Hamouda และคณะ [57] นาเสนอวธการจาแนกความคดเหนโดยใชคลงคาศพททสรางดวยวธการเรยนรของเครอง ประกอบดวย 2 กระบวนการหลก คอ 1) กระบวนการเตรยมขอมล (Data Preparation Phase) ขอมลทใชคอขอความคดเหนเกยวกบสนคาบนเวบไซตอเมซอน (Amason Product Review Data Set) ซงมหลากหลายโดเมน เชน หนงสอ กลอง เครองเลน mp3 เปนตน ขอความคดเหนมจานนท งหมด 5,000,000 ขอความ ประกอบดวยขอความและคะแนนทผแสดงความคดเหนกาหนดไว (Rating Score) มคาต งแต 1-5 ผวจยทาการคดเลอกและแบงขอมลเปน 2

50

กลม คอ คาคะแนนเทากบ 1-2 จดอยในกลมขอความคดเหนเชงลบ และคาคะแนนเทากบ 4-5 จดอยในกลมขอความคดเหนเชงบวก หลงจากจดกลมแลวไดขอความคดเหนจานวนท งหมด 756,958 ความคดเหน ผวจยไดทาการสมมาจานวน 25,000 ความคดเหน เลอกความคดเหนทมตวอกษรไมเกน 500 จดไวในกลมของขอความคดเหนทวไป (Normal Review) จากน นทาการตดคาโดยใชตวเลข สญลกษณพเศษทไมใชคาทใชทวไป จากน นวเคราะหคาหรอวล (Morphological Analysis) เพอหารากคาศพท เชน run คอรากคาศพทของ runs, ran และ running เปนตน และกระบวนการท 2) คอ กระบวนการสรางคลงคาศพท (Lexicon Development Phase) ในกระบวนการน มการเรยนรขอมลชดสอนโดยใชวธการซพพอรตเวกเตอรแมชชน จากน นทาการประเมนคาน าหนกของคาทจะเปนตวแทนคณลกษณะโดยใชคาความถผกผน (TF-IDF) ในการคานวณหาคาการจาแนกแลวเกบไวในคลงคาศพทสาหรบใชในการจาแนกตอไป และหลงจากไดสรางคลงคาศพทแลว ผวจยทดสอบการจาแนกขอมลโดยใชขอมลความคดเหนทอยบนเวบไซตอเมซอน จานวน 4,000 ความคดเหน ประกอบดวย ความคดเหนเชงบวก 2,000 ความคดเหน และความคดเหนเชงลบ 2,000 ความคดเหน จากน นวดประสทธภาพการจาแนกดวย MLBSL กบ SentiWordNet, คลงคาศพททรวบรวมเอง และคลงคาศพททมาจากหลายแหลงขอมล พบวา การจาแนกความคดเหนจากคลงคาศพท MLBSL มประสทธภาพความถกตองสงทสด คอ 71.75%

Lu และ Tsou [58] นาเสนอวธการจาแนกความคดเหนโดยการผสมผสานวธการใชคลงคากบวธการเรยนรของเครอง โดยข นตอนแรกจะใชคลงคาศพทความคดเหนขนาดใหญจะถกจดไวในขอมลชดสอน เรยกวาวธการเรยนรแบบมผสอน คอ คลงคาศพทโดยทวไปจะถกรวบรวมโดยไมคานงถงบรบทหรอโดเมน งานวจยน ไดปรบปรงวธการสรางคลงคาดวยวธการเรยนรของเครอง เรยกวา SVM-Lexicon โดยลบคาทมคาความเชอมนตาในคลงคาศพทออกรวมถงวเคราะหคากรยาทระบความคดเหนเพมในคลงคาความคดเหน ใชตวจาแนกความคดเหน 3 วธการ ไดแก นาอฟเบย แมกซมมเอนโทรป และซพพอรตเวกเตอรแมชชน ผลการวจยพบวา การจาแนกความคดเหนดวยวธการ SVM รวมกบ SVM-Lexicon มประสทธภาพความถกตองและความแมนยาสงทสด คอ 74.20% และ 71.20% ตามลาดบ

วาทน นยเพยร และ พยง มสจ [59] นาเสนอการคดเลอกคณลกษณะเพอใหไดคาทเหมาะสมในการแทนเอกสารและเพมประสทธภาพในการจาแนกเอกสารใหมความถกตองมากข น โดยทาการเปรยบเทยบการคดเลอกคณลกษณะเพอลดมตของขอมลแบบการกรอง 3 วธ ไดแก อนฟอรเมชนเกน เกนเรโช และไคสแคร วธการดาเนนการประกอบดวย 4 ข นตอน คอ ข นตอนท 1) การเตรยมขอมล ซงขอมลทใชในการทดลองเปนขอมลบทคดยอภาษาองกฤษจากฐานขอมล ACM Digital Library ข นตอนท 2) การคดเลอกคณลกษณะเพอลดมตขอมล การคดเลอกคณลกษณะใช 2 วธ ไดแก การกรอง และการควบรวม ข นตอนท 3) การจาแนกประเภทขอมล ในการจาแนก

51

ขอความมใชวธ นาอฟเบย (NB) เบยเซยนเนต (BN) เคเนยเรสตเนเบอร (KNN) และ ซพพอรตเวกเตอรแมชชน ข นตอนท 4) การประเมนประสทธภาพ ใชวธการวดคาความแมนจา คาเรยกคน และคาประสทธภาพโดยรวม (F-measure) ผลการทดลอง พบวา วธคดเลอกแบบไคสแครใหผลดทสด วดประสทธภาพโดยรวม ไดเทากบ 82.20% และ การควบรวมใชเทคนคซพพอรตเวกเตอรแมชชน (SVM) รวมกบการคนหาดวยวธเชงพนธกรรม (SVMG) และการคนหาดวยวธละโมบ (SVMGD) โดยวธการคดเลอกแบบ SVMGD ใหผลดทสด วดประสทธภาพโดยรวมไดเทากบ 94.00% ซงการจาแนกขอความท งสองวธใชข นตอนวธแบบซพพอรตเวกเตอรแมชชนโดยใชเคอรเนลแบบเรเดยลเบสสฟงกชน (SVMR) เมอเปรยบเทยบประสทธภาพท งวธการกรองและการควบรวม สรปไดวา ประสทธภาพโดยรวมของการควบรวมมคามากกวาการกรอง 1.80% ซงทาใหนกวจยสามารถนาเทคนคของการควบรวมไปใชเพมประสทธภาพการจาแนกขอความ

ฐตมา เกษมศรธนาวฒน และ ธนสน เพยตระกล [60] นาเสนอวธการสรปความเหนจากทศนคตทเกยวของกบหนงสอ โดยแบงทศนคตเปน 2 ดาน คอ ดานบวก (Positive) และดานลบ (Negative) ขอมลนามาใชในการทดสอบ เปนขอความคดเหนภาษาองกฤษ รวบรวมมาจากความเหนเกยวกบหนงสอคอมพวเตอรดานโปรแกรมมงบนเวบไซต Amazon ในข นตอนการเตรยมขอมล ผวจยทาการเลอกคณลกษณะ (Feature Selection) โดยใชวธการ Principle Components Analysis และ Relief Algorithm การจาแนกความคดเหนใชหลกการ Machine Learning ไดแก Naïve Bayes, Decision Tree (J48) และ Multi-Layer Perceptron การประเมนความถกตองของการจาแนกความคดเหน ไดใชการทดสอบแบบ 5-Fold Cross-Validation ทาการเปรยบเทยบผลการจาแนกแตละวธ พบวา Naïve Bayes ใหความถกตองในการจาแนกสงทสด คอ 68%

2.8.4 งานวจยทนาเสนอวธการลดคณลกษณะ

Saif และคณะ [45] นาเสนอวธการจดกลมคาเพอลดคณลกษณะและแกไขปญหาขอมลเบาบาง โดยคาทมความหมายเหมอนกนจะถกจดกลมไวดวยกน ในงานวจยน ม 2 วธการ ทใชในการจดกลมคา คอ Semantic Smoothing และ วธการ Automatic Sentiment-Topic Extraction วธการ Semantic Smoothing เปนการสกดความหมายทซอนอยในขอความทวต และนามารวบรวมไวในตวจาแนกขอมลชดสอน (Classifier Training) ทผานการแกไขแลว ตวอยางเชน คาวา “iPad”, “iPod” และ “Mac Book Pro” พบบอยมากในขอความทวตและเมอนามาวเคราะหแลวพบวาสวนใหญมความคดเหนในเชงบวก (Positive Polarity) จงทาการสรางรปแบบเกยวกบความหมายของคาเหลาน ไวในกลม “Product/Apple” เพอเกบไวเปนผลของขอมลทดสอบทจะเขามาใหม เชน ขอมลทดสอบระบวา “I got my iPhone. What a product!” ผลการจาแนกการทดสอบจะกลายเปน

52

ความคดเหนเชงบวก ตามทไดรวบรวมไวในขางตน รายละเอยดวธการ Semantic Smoothing ดงรปท 16

รปท 16 แสดงแนวคดวธการ Semantic Smoothing

อกวธการคอ Automatic Sentiment-Topic Extraction เปนรปแบบทใชการตรวจสอบท งหวขอและความคดเหนพรอมกน ประกอบดวย 3 ข นตอน คอ เลอก 1 ความคดเหนจากเอกสาร จากน นเลอกหวขอทเกยวของ แลวสรางคลงหวขอและความคดเหนเปนคลงคาความคดเหน โดยขอความในแตละเทอมจะถกจดกลมไวตามข วความคดเหนและอยภายใตหวขอทกาหนด ดงแสดงในรปท 17

53

รปท 17 แสดงแนวคดวธการ Automatic Sentiment-Topic Extraction

ขอมลทใชในการทดสอบรวบรวมจาก Stanford Twitter Sentiment Dataset โดยสมขอความคดเหนจานวน 1000 ขอความ เปนขอมลทดสอบ ตวจาแนกทใชทาสอบคอ นาอฟเบย ผลการทดลองพบวา การเลอกชดคณลกษณะท งสองแบบ จะมประสทธภาพดกวาการเลอกคณลกษณะแบบพ นฐาน โดยการเลอกคณลกษณะโดยใชวธการ Semantic Smoothing มประสทธภาพความถกตองในการจาแนก เทากบ 84.0 % และ การเลอกคณลกษณะโดยวธการ Automatic Sentiment-Topic Extraction ประสทธภาพความถกตองในการจาแนก เทากบ 86.3% 2 ขอเสยของวธการน คอ จะตองมการระบจานวนหวขอไวลวงหนา ซงเปนเรองยากทจะคาดเดาจานวนทเหมาะสมของหวขอ

Sayfullina [61] นาเสนอวธการเลอกคณลกษณะทมความสาคญและรวมคาคณลกษณะทมความหมายเหมอนกนไวดวยกน ขอมลทใชในการวจยรวบรวมจาก KDD Cup และ SemEval 2013 ประกอบดวย 5 ข นตอน คอ 1) เลอกเทอมจากจานวนการเกดของคา ใชรปแบบ Unigram และ Bigrams พจนานกรมความคดเหน ซงไดระบสทสออารมณใหแตละคา สาหรบคาศพทของชดขอมลทวตเตอร ประกอบดวย คาปฏเสธ คาแสลง และอโมตคอน 2) กระบวนการเตรยมขอความ กาจดคาซ า 3) หารากคาศพท 4) จดอนดบคณลกษณะ ดวยคา Tf-Idf 5) รวมคาทมความหมายคลายกนโดยใชอลกอรทมของ Word Clustering รวมกบการใชคลงคาใน WordNet มาตรวจสอบความหมายวาใกลเคยงกนหรอไม ถาหากเปนคาทมความหมายใกลเคยงกนใหรวมเปนคณลกษณะเดยวกน ซงการใชวธการน ชวยลดปญหาขอมลเบาบาง จานวนคณลกษณะลดลงจาก 5029 เหลอ 3182 คณลกษณะ นาไปทดสอบการจาแนกความคดเหนโดยวธการนาอฟเบย พบวา การลดคณลกษณะดวยวธการทนาเสนอชวยใหประสทธภาพการจาแนกดข น

54

Saif และคณะ [62] นาเสนอวธการลดคณลกษณะ 2 วธการ คอ Shallow Semantic Smoothing เปนวธการลดจานวนคาศพทโดยการวเคราะหจากประโยควาอยในกลมคาศพทใด แลวจะจดกลมไวในกลมคาศพททไดต งคาไว เชน ประโยค “Downloading apps for my iPhone! So much fun :)” จะถกจดอยในกลมคา “Product” วธการน จะชวยลดขนาดคาศพทของขอมลชดสอนลงและชวยลดปญหาขอมลเบาบาง อกวธการหนง คอ วธการ Semantic Smoothing for Naïve Bayes Classifier เปนการใชหลกการขางตนเพอมาประยกตใชรวมกบวธการนาอฟเบย โดยดคาความสมพนธของคาดวย ขอมลทใชในการวจยคร งน เปนขอมลทวตเตอร ซงประกอบดวย 1.6 ลาน ขอความคดเหน รวบรวมโดย Go และคณะ ในการทดลองผวจยทาการเลอกขอมลมาจานวน 60,000 ขอความคดเหน สาหรบเปนชดสอนและขอมลชดทดสอบ ตวจาแนกทใชคอ นาอฟเบย ผลการวจย พบวา การเลอกคณลกษณะดวยวธการ Shallow Semantic Smoothing ใหประสทธภาพความถกตองเทากบ 76.30 สวนการเลอกคณลกษณะดวยวธการ Semantic Smoothing for Naïve Bayes Classifier ชวยใหประสทธภาพการจาแนกเพมข นเปน 81.30% ซงจากการวเคราะหงานวจยน จะเหนวาการเลอกคณลกษณะโดยการวเคราะหรปประโยค อาจจะทาใหสญเสยคณลกษณะทสาคญซงมผลตอตวจาแนก สวนการปรบปรงคณลกษณะสาหรบตวจาแนกโดยตรงจะชวยเพมประสทธภาพการจาแนกได

Ong [63] นาเสนอวธการปรบปรงขอมลเบาบางดวยคาการเพมของขอมล (Sparsity Adjusted Information Gain: SAIG) ซงไดปรบเปลยนแมทรกซคาการเพมขอมลแบบเดมและปรบปรงคาการจดอนดบตามคาความเบาบางของเวกเตอรคณลกษณะ ทาใหคณลกษณะลดลงแตประสทธภาพยงคงอยในระดบตามเปาหมาย โดยนาขอมลความถของเทอม ความถของเอกสาร ความเบาบาง (Sparsity) ความหนาแนน (Density) เพอมาปรบปรงการเลอกคณลกษณะ ขอมลทใชในการวจย เปนขอมลวจารณผลตภณฑและขอมลวจารณภาพยนตร ข นการทดลองเรมจากการเตรยมขอมล ทาการลบขอความทซ ากนออกจากชดขอมล จากน นลบขอความทพมพอกษรซ าๆกนเกน 3 คร ง เชน “yaaaaaaayyyy!!!!!” จะถกแกไขเปน “yaaay!!!” หลงจากน นทาการตดคาโดยกาหนดขอบเขตของคาจาก ชองวาง (Whitespace) และอกขระพเศษ เชน เครองหมายคาถาม และวงเลบ จากน นทาการตรวจสอบแกไขคาทสะกดผด ลบคาหยด และหารากคาศพท ผวจยใชข นตอนวธการจาแนก 3 วธการ ไดแก นาอฟเบย ซพพอรตเวกเตอรแมชชน และ เพอนบานใกลทสด ผลการวจยนาเสนอโดยการเปรยบเทยบระหวางการเลอกคณลกษณะโดยคาการเพมของขอมลแบบเดม (Information Gain) กบการเลอกคณลกษณะดวยวธการปรบปรงขอมลเบาบางดวยคาการเพมของขอมล (SAIG) พบวา เมอขอมลมจานวนมาก การเลอกคณลกษณะดวยวธการ SAIG รวมกบการจาแนกดวยวธการซพพอรตเวกเตอรแมชชน มประสทธภาพการจาแนกสงกวาวธการอน

55

Parlar และคณะ [64] น าเสนอวธการใหมในการเลอกคณลกษณะส าหรบการจ าแนกความคดเหน โดยใชวธการก าหนดคาน าหนกของคณลกษณะดวยการประยกตใชวธการดงขอมลสารสนเทศ (Information Retrieval) ขอมลทใชในการวจย เปนขอมลวจารณผลตภณฑและขอมลวจารณภาพยนตรภาษาตรก (Turkish Languages) และภาษาองกฤษ (English Languages) ทดสอบการคดเลอกคณลกษณะทน าเสนอ เปรยบเทยบกบการคดเลอกคณลกษณะท 4 วธการ ไดแก วธการ Chi Square วธการ Information Gain วธการ Document Frequency Difference และ วธการ Optimal Orthogonal Centroid เปรยบเทยบการจ าแนกความคดเหน 4 วธการ ไดแก Naïve Bayes Multinomial, Support Vector Machines, Maximum Entropy และ Decision Trees ผลการวจย พบวา เมอใชวธการ Naïve Bayes Multinomial ในการจ าแนกความคดเหนทงขอความทเปนภาษาตรกและขอความภาษาองกฤษ วธการคดเลอกคณลกษณะทน าเสนอมประสทธภาพสงกวาวธการอน Pratiwi และ Adiwijaya [65] น าเสนอวธการลดคณลกษณะส าหรบการจ าแนกความคดเหนบทวจารณภาพยนตร ขอมลทใชในการวจย เปนขอมลวจารณภาพยนตร Benchmark Dataset ประกอบดวย ความคดเหนเชงบวก จ านวน 1,000 ขอความ และขอความคดเหนเชงลบ จ านวน 1,000 ขอความ การทดสอบแบงขอมลดวยวธการ 10 Fold Cross-Validation Test การทดลองประกอบดวย 10 ขนตอน คอ 1) อานขอมลทรวบรวม (Reading the Dataset) 2) ลบขอความทไมใชตวอกษร (Non Alphabetic Removal) 3) ตดขอความ (Tokenization) 4) ก าจดค าหยด (Stopwords Removal) 5) หาราค าศพท (Stemming) 6) สรางชดค าศพท (Initial Vocabulary Construction) 7) สรางเมตรกซคณลกษณะ (Initial Feature Matrix Construction 8) ตรวจสอบคณลกษณะทปรากฏในขอมลชดสอน ถาคณลกษณะปรากฏในทงสองคลาสจ านวนเทากน แสดงวาคณลกษณะนนไมมความส าคญตอการจ าแนก 8) คดเลอกคณลกษณะดวยวธการท IGDFFS 10) สรางคลงค าศพท (Dictionary Construction) ผลการวจย พบวา การคดเลอกคณลกษณะดวยวธ IGDFFS ชวยลดคณลกษณะทไมส าคญไดมากกวา 90% สวนวธการจ าแนกความคดเหนทน าเสนอ มคาประสทธภาพความถกตองในการจ าแนกความคดเหน 96% จากงานวจยทเกยวของแสดงใหเหนวาการคดเลอกคณลกษณะมความส าคญตอประสทธภาพการจ าแนกความคดเหน งานวจยทผานมาสวนใหญท าการคดเลอกคณลกษณะโดยดลกษณะการเกดในเอกสาร การจดกลมค าทเหมอนกนไวดวยกน จะเหนวาการปรากฏของค าในเอกสารมความส าคญตอการคดเลอกคณลกษณะ งานวจยนผวจยไดประยกตใชแนวคดวธฟลเตอรโมเดลผสมผสานกบแนวคดวธการใชกฎความสมพนธ เพอวเคราะหความส าคญของคณลกษณะทมตอคลาส ซงเปนวธการทงาย รวดเรวและมประสทธภาพ นอกจากนแลวงานวจยนไดน าเสนอขนตอนวธการขจดคณลกษณะทซ าซอนทไมสงผลกระทบตอตวจ าแนกและยงชวยลดระยะเวลาในการสรางตวจ าแนกและทดสอบตวจ าแนกได

56

บทท 3 วธด าเนนการวจย

การดาเนนการวจยใหบรรลวตถประสงค ผวจยไดอาศยแนวคดและวธดาเนนการวจยตามทฤษฎ และงานวจยทเกยวของกบการจาแนกความคดเหนทอยบนเวบไซตเครอขายสงคมออนไลน โดยการดาเนนงานวจย ประกอบไปดวย 6 ข นตอน ไดแก 1) การรวบรวมขอมล (Collected Data) 2) การเตรยมขอมล (Data Preprocessing) 3) การเลอกคณลกษณะ (Feature Selection) และการกาจดคณลกษณะทซ าซอน (Removal of Redundant Features) 4) การแบงขอมล (Data Partitioning) 5) การสรางตวจาแนก (Classifier) และ 6) การวดประสทธภาพการจาแนก (Evaluation) ดงรปท 18

รปท 18 ขนตอนการด าเนนการวจย

Data Collection

Cleaning Remove StopWords Stemming

StopWords Lexicon

Tokenization

Data Preprocessing Phase

Stemmed Text

Document Representation

Features Selection and Removal of Redundant Features

Training Set Testing Set

Proposed Method

Classifier

Naïve Bayes

Evaluation

57

จากรปท 18 แสดงข นตอนการดาเนนการวจย โดยเรมจากกระบวนการรวบรวมขอมลความคดเหนบนเครอขายสงคมออนไลน ในงานวจยน ผวจยใชขอมลความคดเหนทรวบรวมจากเวบไซตทวตเตอร จากน นนาเขาสกระบวนการเตรยมขอมล ประกอบดวย กระบวนการทาความสะอาดขอความ โดยการลบตวอกษรซ าและแกไขคาทสะกดผด กระบวนการลบคาหยดหรอคาทไมมนยสาคญในการจาแนกความคดเหน โดยใชคลงคาศพททมอยแลว จากน นทาการหารากคาศพท โดยใชคลงคาศพท จากน นนาเขาสกระบวนการตดคา งานวจยน ตดคาดวยวธการ Unigrams รวมกบ Bigrams โดยขอความทมคาปฏเสธ เชน no, not จะใชหลกการตดคาดวยวธการ Bigrams สวนขอความอน ๆ จะใชหลกการตดคาดวย Unigrams ซงคณลกษณะไดจากการตดคา จากน นเขาสกระบวนการแทนคาน าหนกในเอกสารดวยวธการ Boolean Weighting โดยหากพบคณลกษณะในเอกสาร จะใหมคา เทากบ 1 หาก ไมพบใหมคา เทากบ 0 ขนาดเวกเตอรจะมขนาดเทากบขนาดเอกสาร x ขนาดของคณลกษณะ หลงจากไดเวกเตอรแลวทาการแบงขอมลเปน 2 ชด ไดแก ขอมลชดสอน (Training Set) และขอมลชดทดสอบ (Testing Set) นาขอมลชดสอนมาจดลาดบความสาคญของคณลกษณะ เพอเขาสกระบวนการเลอกคณลกษณะและขจดคณลกษณะทซ าซอน และสรางตวจาแนก เพอนาไปเลอกคณลกษณะและจาแนกความคดเหนขอมลชดทดสอบ แลวทาการประเมนประสทธภาพของการจาแนก วเคราะหผลการทดลองเพอปรบปรงประสทธภาพตอไป รายละเอยดแตละกระบวนการมดงตอไปน

3.1 การรวบรวมขอมล (Data Collected)

ผวจยรวบรวมขอมลความคดเหนทรวบรวมจากเครอขายสงคมออนไลนจานวน 5 ชดขอมล ไดแก 1) Stadford Twitter Sentiment Data [11] 2) SemEval-2017 Task4A Dataset (SemEval) [12] 3) Sentiment Strength Twitter Dataset (SS-Tweet) [13] 4) Health Care Reform (HCR) [14] 5) Sanders Twitter Dataset [15] รายละเอยดขอมลแตละชด ไดแก จานวนขอมลท งหมด จานวนขอมลในแตละคลาส แสดงดงตาราง 7 ในการทดลองผวจยทาการสมขอความ โดยเลอกขอความคดเหนทเปนขอความคดเหนเชงบวกและขอความคดเหนเชงลบจานวนเทากน ชดขอมลทใชในการวจย แสดงดงตาราง 8 สวนรายละเอยดดานคณลกษณะอน ๆ ไดแก ความยาวสงสด ความยาวส นสด และความยาวเฉลย ผวจยนาขอมลทรวบรวมท งหมดมาวเคราะห ผลการวเคราะหขอมลแสดงดงตาราง 9

58

ตาราง 7 จ านวนชดขอมลทงหมด

ชดขอมล

จานวนขอมลท งหมด

จานวนขอมลในแตละคลาส

Negative

Positive

Natural

Other

Irrelevant

STS 1,600,000 800,000 800,000 - - -

SemEval 13,975 2,186 5,349 6,440 - -

SS-Twitter 4,242 1,037 1,252 1,953 - - HCR 2,516 1,381 541 470 45 79

Sanders 5,513 654 570 2,503 - 1,786

ตาราง 8 ชดขอมลทใชในการวจย

ชดขอมล จ านวนขอความคดเหน

จ านวนขอมลในแตละคลาส Negative Positive

STS 10,000 5,000 5,000 SemEval 4,000 2,000 2,000

SS-Twitter 2,600 1,300 1,300 HCR 1,000 500 500

Sanders 1,000 500 500

ตาราง 9 คณลกษณะของชดขอมลทใชในการวจย

ชดขอมล ความยาวสงสด (ตวอกษร)

ความยาวส นสด (ตวอกษร)

ความยาวเฉลย (ตวอกษร)

STS 152 8 74

SemEval 185 11 109 SS-Twitter 164 4 97

HCR 142 23 113

Sanders 148 9 97

59

ขอมลแตละชดมรายละเอยดดงน 1) Stanford Twitter Sentiment Data (STS) ประกอบดวย ขอความคดเหนขอมล

ชดสอน จานวน 1,600,000 ขอความ แบงเปนความคดเหนเชงบวก (Positive) จานวน 800,000 ขอความ และความคดเหนเชงลบ (Negative) จานวน 800,000 ขอความ รปแบบของขอมลเปนไฟลเอกสารประเภท Comma Separated Value (CSV) ประกอบดวย 6 ฟลด ไดแก 1) ข วความคดเหน (Polarity of the Tweet) ม 2 ดาน คอ 0 หมายถง ความคดเหนเชงลบ และ 4 หมายถง ความคดเหนทเปนเชงบวก 2) ลาดบ (ID of the Tweet) มรปแบบเปนตวเลขจานวนเตม 3) วน/เวลา (Date of the Tweet) เชน Sat May 16 23:58:44 UTC 2009 4) ประเดนทโพสต (Domain) เชน Obama, Nike, San Francisco เปนตน หากไมระบจะมคาเปน NO_QUERY ซงขอมลชดสอนจะไมไดระบประเดนทโพส 5) ชอผโพสต (User that Tweeted) และ 6) ขอความคดเหน (Text of the Tweet) ตามลาดบ จากการวเคราะหคณลกษณะขอมล พบวา ขอมลชดน มความยาวสงสด เทากบ 152 ตวอกษร ความยาวส นสด เทากบ 8 ตวอกษร และมความยาวเฉลย เทากบ 74 ตวอกษร ในการวจยน ผวจยทาการเลอกขอมลจานวน 2 ฟลด ไดแก ข วความคดเหน และขอความคดเหน และทาการสมขอความคดเหนเพอการทดลอง จานวน 10,000 ขอความ แบงเปนขอความคดเหนเชงบวก จานวน 5,000 ขอความ และขอความคดเหนเชงลบ จานวน 5,000 ขอความ ตวอยางชดขอมล Stanford Twitter Sentiment Data ดงแสดงในรปท 19

รปท 19 ตวอยางขอมลความคดเหนจาก Stanford Twitter Sentiment Data

60

2) SemEval-2017 Task4A Dataset (SemEval) เปนขอมลทรวบรวมจากเวบไซตทวตเตอร จานวน 13,975 ขอความ รปแบบของไฟล เปนเอกสารประเภท text file (.txt) ประกอบดวย 3 ฟลด ไดแก 1) ลาดบของขอความคดเหน (SID) 2) ข วความคดเหน (Polarity) 3) ขอความคดเหน (Twitter Message) ประกอบดวย 3 คลาส ไดแก ความคดเหนเชงบวก (Positive) ความคดเหนเชงลบ (Negative) และความคดเหนทเปนกลาง (Neutral) ขอมลชดน ประกอบดวยขอความคดเหนเชงบวก จานวน 5,349 ขอความ ขอความคดเหนเชงลบ จานวน 2,186 ขอความ และขอความทเปนกลาง จานวน 6,440 ขอความ จากการวเคราะหคณลกษณะขอมล พบวา ขอมลชดน มความยาวสงสด เทากบ 185 ตวอกษร ความยาวส นสด เทากบ 11 ตวอกษร และมความยาวเฉลย เทากบ 109 ตวอกษร ผวจยไดทาการสมขอความคดเหนเพอใชในการทดลอง จานวน 4,000 ขอความ แบงเปนขอความคดเหนเชงบวก จานวน 2,000 ขอความ และขอความคดเหนเชงลบ จานวน 2,000 ขอความ ตวอยางขอมลชด SemEval-2017 Task4A Dataset แสดงดงรปท 17

รปท 20 ตวอยางขอมลชด SemEval-2017 Task4A Dataset

61

3) Sentiment Strength Twitter Dataset (SS-Tweet) ประกอบดวยขอมลทรวบรวมจากเวบไซตทวตเตอร จานวน 4,242 ขอความ เปนเอกสารประเภท text file (.txt) ประกอบดวย 3 ฟลด ไดแก 1) คาเฉลยความคดเหนเชงบวก (Mean Pos) 2) คาเฉลยความคดเหนเชงลบ (Mean Neg) และ 3) ขอความคดเหน (Tweet) ตามลาดบ ในการระบข วความคดเหนทาไดโดยนาคาเฉลยความคดเหนเชงบวกหารกบคาเฉลยความคดเหนเชงลบ หากผลหารมคาเทากบ 1 แสดงวาเปนขอความคดเหนทเปนกลาง หากผลหารมคามากกวา 1.5 แสดงวาเปนขอความคดเหนเชงบวกและหากไมใช 2 กรณขางตนแสดงวาเปนขอความคดเหนเชงลบ ผวจยทาการคานวณข วความคดเหนดวยวธการขางตน พบวาขอมลทรวบรวมประกอบดวย ขอความคดเหนเชงบวก จานวน 1,320 ขอความ ขอความคดเหนเชงลบ จานวน 2,910 ขอความ และขอความคดเหนทเปนกลาง จานวน 12 ขอความ จากการวเคราะหคณลกษณะขอมล พบวา ขอมลชดน มความยาวสงสด เทากบ 164 ตวอกษร ความยาวส นสด เทากบ 4 ตวอกษร และมความยาวเฉลย เทากบ 97 ตวอกษร ผวจยไดทาการสมขอความคดเหนเพอใชในการทดลอง จานวน 2,600 ขอความ แบงเปนขอความคดเหนเชงบวก จานวน 1,300 ขอความ และขอความคดเหนเชงลบ จานวน 1,300 ขอความ ตวอยางขอมลชด Sentiment Strength Twitter Dataset แสดงดงรปท 18

รปท 21 ตวอยางขอมลชด Sentiment Strength Twitter Dataset

62

4) Health Care Reform (HCR) ประกอบดวยขอมลทรวบรวมจากเวบไซตทวตเตอร เมอ

เดอนมนาคม ป ค.ศ. 2010 จานวน 2,516 ขอความ โดยผรวบรวมคดเลอกจากขอความทวตเตอรทมแฮชแทก #hcr รปแบบของขอมลเปนไฟลเอกสารประเภท Comma Separated Value (CSV) ประกอบดวย 6 ฟลด ไดแก 1) ลาดบ (Tweet id) 2) รหสผใชงาน (User id) 3) ชอผใชงาน (Username) 4) ขอความคดเหน (Content) 5) ข วความคดเหน (Sentiment) 6) ประเดนทโพสต (Target) 7) รหสผอธบาย Annotator id 8) ความคดเหนเพมเตม (Comment) 9) ขอโตแยง (Dispute) ชดขอมลนประกอบดวย 5 คลาส ไดแก ความคดเหนเชงบวก (Positive) ความคดเหนเชงลบ (Negative) ความคดเหนทเปนกลาง (Neutral) ขอความทไมตรงประเดน (Irrelevant) และ ขอความอน ๆ (Other) จากการวเคราะหคณลกษณะขอมล พบวา ขอมลชดนมความยาวสงสด เทากบ 142 ตวอกษร ความยาวสนสด เทากบ 23 ตวอกษร และมความยาวเฉลย เทากบ 113 ตวอกษร ผวจยทาการเลอกขอมลจานวน 2 ฟลด ไดแก ขอความคดเหนและข วความคดเหน และทาการสมขอความคดเหนเพอการทดลอง จานวน 1,000 ขอความ แบงเปนขอความคดเหนเชงบวก จานวน 500 ขอความ และ ขอความคดเหนเชงลบ จานวน 500 ขอความ ตวอยางขอมลชด Health Care Reform แสดงดงรปท 22

รปท 22 ตวอยางขอมลชด Health Care Reform

63

5) Sanders Twitter Dataset ประกอบดวยขอมลทรวบรวมจากเวบไซตทวตเตอร จานวน 5,512 เอกสาร แบงเปน 4 หวขอ ไดแก Apple, Google, Microsoft และ Twitter รปแบบของขอมลเปนไฟลเอกสารประเภท Comma Separated Value (CSV) ประกอบดวย 2 ฟลด ไดแก ข วความคดเหน (Sentiment) และ ขอความคดเหน (TweetText) ประกอบดวย 4 คลาส ไดแก ความคดเหนเชงบวก (Positive) ความคดเหนเชงลบ (Negative) ความคดเหนทเปนกลาง (Neutral) และ ความคดเหนอน ๆ (Irrelevant) ขอมลชดน ประกอบดวยขอความคดเหนเชงลบจานวน 654 ขอความ ขอความคดเหนทเปนกลาง จานวน 2,503 ขอความ และขอความคดเหนเชงบวก จานวน 570 ขอความ และ ขอความคดเหนอน ๆ จานวน 1,786 ขอความ จากการวเคราะหคณลกษณะขอมล พบวา ขอมลชดนมความยาวสงสด เทากบ 148 ตวอกษร ความยาวสนสด เทากบ 9 ตวอกษร และมความยาวเฉลย เทากบ 97 ตวอกษร ผวจยไดทาการสมขอความคดเหนเพอใชในการทดลอง จานวน 1,000 ขอความ แบงเปนขอความคดเหนเชงบวก จานวน 500 ขอความ ขอความคดเหนเชงลบ จานวน 500 ขอความ ตวอยางขอมลชด Sanders Twitter Dataset แสดงดงรปท 23

รปท 23 ตวอยางขอมลชด Sanders Twitter Dataset

64

3.2 การเตรยมขอมล (Data Preprocessing)

ขอมลทใชในการวจยเปนขอความทอยบนเวบไซตเครอขายสงคมออนไลน ประกอบดวยแฮชแทก (Hash Tag: #) ทใชอธบายสถานะทตองการเนนประเดนหรอความรสกพเศษตางๆ และมขอความแสดงอารมณ (Emoticons) ทหลากหลาย บางขอความมทอยเวบไซต (URL) แทรกอยดวย นอกจากน ยงมการแทกชอบคคลโดยขอความทแทกชอบคคลคอขอความทข นตนดวยเครองหมายแอด (@) ขอความคดเหนทอยบนเวบไซตทวตเตอรเปนขอความส นๆ ไมมโครงสรางทแนนอน มคาศพทสแลง อกขรพเศษ และคาสะกดผดคอนขางมาก การเตรยมขอมลเปนกระบวนการสาคญกระบวนการหนงทจะชวยลดจานวนคณลกษณะเพอเพมประสทธภาพและลดระยะเวลาในการจาแนกความคดเหน ประกอบดวย 4 ข นตอน ไดแก การทาความสะอาดขอความ การกาจดคาหยด การหารากคาศพท และการตดคา ดงแสดงในรปท 24

รปท 24 ขนตอนการเตรยมขอมล

Tweet Data

Data Preprocessing Phase

Text Cleaning

Stop Words Removal

Tokenization

Stemming

65

3.2.1 การทาความสะอาดขอความ (Text Cleaning)

เนองจากขอความบนเครอขายสงคมออนไลนเปนขอความทไมมโครงสรางทแนนอน ประกอบดวยคาและอกขระพเศษทไมมผลตอความคดเหนเปนจานวนมาก เชน ชอผใชงาน ทอยเวบไซต การจะนาขอมลไปจาแนกใหมประสทธภาพจะตองดาเนนการทาความสะอาด โดยตรวจสอบและลบขอความทไดทาการวเคราะหแลววาไมมผลตอการจาแนกความคดเหน รวมท งดาเนนการตรวจสอบและแกไขคาทสะกดผด ข นตอนการทาความสะอาดขอความ แสดงดงรปท 25 ประกอบดวย 6 ข นตอน คอ 1) การแปลงขอความท งหมดใหเปนตวอกษรพมพเลก (Lower Case Tokens) เชน Http จะถกแกไขเปน http เปนตน 2) ลบขอความทข นตนดวย “@” ออก เนองจากตามหลกมาตรฐาน ขอความทข นตนดวย “@” เปนชอผใชงาน ทผโพสตอาจจะตองการแทกขอความไปหาบคคลอน และชอบคคลไมมผลตอการจาแนกความคดเหน 3) ลบขอความทข นตนดวย “http” ซงเปนทอยเวบไซต (URL) เชน http://youtube.com/ceve5 เนองจากทอยเวบไซตไมมผลตอการจาแนกความคดเหน 4) ลบสญลกษณพเศษและตวเลขออกจากขอความ ตวอยางอกขระพเศษ เชน “#” , “$” , “&” เปนตน 5) ตรวจสอบตวอกษรทพมพซ า ๆ ซงพบมากบนเครอขายสงคมออนไลน เชน คาวา “love” ผโพสตอาจจะพมพคาวา looove, loooooove, looooooooove ซงหากมตวอกษรทอยตดกนและถกพมพซ ากนมากกวา 2 ตวอกษร จะถกแทนทดวยตวอกษรน นเพยง 2 ตวอกษร เชน ตวอยางขางตน จะถกแปลงเปนคาวา loove 6) ตรวจสอบและแกไขคาทสะกดผด สวนมากใชหลกการตรวจสอบกบพจนานกรมคาผดทพบบอย โดยนาคาทโพสตไปตรวจสอบกบพจนานกรม ถาพบวาเปนคาผดจะทาการตรวจสอบใหถกตองตามพจนานกรม เชน คาวา Like ผโพสตพมพคาวา Lik เมอผานกระบวนการตรวจสอบและแกไขคาทสะกดผด คาวา Lik จะถกแทนดวยคาทถกตอง คอ Like เปนตน

66

รปท 25 ขนตอนการท าความสะอาดขอความ

3.2.2 การกาจดคาหยด (Stop Word Removal)

คาหยดเปนคาทไมสอความหมาย เปนขอความขยะทปรากฏในเอกสารคอนขางสง และหากไมลบออกจะสงผลใหผลการทดลองเกดความผดพลาด คาหยดทพบบอยในขอความภาษาองกฤษ เชน “a” , “an” , “the” “you” , “and” , “I” , “of” , “with” เปนตน งานวจยน ผวจยใชคลงคาหยดของ Standford Stopword List ซงอยในรปแบบเอกสารขอความ (Text File) ประกอบดวยคาทไมมนยสาคญจานวน 257 คา มาตรวจสอบกบเอกสารทผานกระบวนการทาความสะอาด หากพบคา

Lower Case Tokens

Document Data

Has @ or http Tag

Remove the string beginning with @ /

http Tag

Remove Special Symbols

Has Repeat Letter More than 2 times

in a row

Spelling Check

Replaced with two occurrences

Cleaned Text Data

Yes

No

Yes

No

67

หยดในเอกสารขอความจะดาเนนการลบคาน นออกจากเอกสาร ตวอยางการกาจดคาหยด แสดงดงรปท 26

Just going to cry myself to sleep after watching Marley and Me.

Just going Cry sleep watching Marley

รปท 26 ตวอยางการก าจดค าหยด

3.2.3 การหารากคาศพท (Stemming)

ในการสอสารเพอสอความหมายเดยวกน อาจจะใชคาศพทไดหลากหลาย ข นอยกบบรบทและหนาทของคา แตคาตาง ๆ เหลาน สวนมากจะมาจากรากคาศพทเดยวกน เพอเปนการลดจานวนคาทจะนาไปใชเปนตวแทนของคาคณลกษณะในการจาแนกความคดเหนใหมประสทธภาพดข น จงตองมกระบวนการหารากคาศพทเพอจดกลมคาทมความหมายเหมอนกน ใหเปนคาเดยวกน เชน คาวา Stems, Stemmer, Stemming, Stemmed มาจากรากคาศพทเดยวกน คอ คาวา “Stem” งานวจยน ผวจยใชวธการหารากคาศพทของ Porter Stemmer ซงประกอบดวย 5 ข นตอน และ 5 กฎ [26] ไดแก ข นตอนท 1) แกไขคาทลงทายดวยอกษรตามกฎขอท 1 ดงตอไปน sses -> ss; ies -> i; ss -> ss; s -> ; ข นตอนท 2) แกไขคาทลงทายดวยอกษรตามกฎขอท 2 ดงตอไปน ational -> ate; tional -> tion; enci -> ence; anci -> ance ; izer -> ize; abli -> able; entli -> ent;

Remove Stopword

68

eli -> e; ousli -> ous; ization -> ize; ation -> ate; ator -> ate; alism -> al; iveness -> ive; fullness -> ful; ousness -> ous; aliti -> al; iviti -> ive; biliti -> ble; ข นตอนท 3) แกไขคาทลงทายดวยอกษรตามกฎขอท 3 ดงตอไปน Icate -> ic; ative -> ; alize -> al; iciti -> ic; ical -> ic; ful -> ; ness -> ; ข นตอนท 4) แกไขคาทลงทายดวยอกษรตามกฎขอท 4 ดงตอไปน al -> ; ance -> ; ence -> ; er -> ; ic -> ; ing -> ; able -> ; ible -> ; ant -> ; ement -> ;

69

ment -> ; ent -> ; ou -> ; ism -> ; ate -> ; iti -> ; ous -> ; ive -> ; ize -> ; ข นตอนท 5) แกไขคาทลงทายดวยอกษรตามกฎขอท 5 ดงตอไปน e -> ; ตวอยางผลของการหารากคาศพทดวยวธการของ Porter Stemmer แสดงดง รปท 27

Just going cry sleep watching Marley

Just go cry sleep watch Marley

รปท 27 ตวอยางการหารากค าศพทดวยวธการ Porter Stemmer

3.2.4 การตดคา

กระบวนการตดคา เปนการนาเอกสารขอความมาแบงเปนคา ผวจยใชหลกการแบงขอความดวยวธการ Unigrams รวมกบ Bigrams โดยขอความทมคาปฏเสธอยกอนหนา เชน no, not จะใชหลกการแบงขอความดวย Bigrams สวนขอความอน ๆ จะใชหลกการแบงขอความดวย Unigrams เนองจากคาทมคาปฏเสธอยกอนหนาจะทาใหความหมายของคาน นเปลยนไป เชน คาวา Good หมายถง ด เมอมคาวา No อยกอนหนา คอ No Good ความหมายจะเปลยนเปนไมด การตดคาวธน เปนการลดจานวนคณลกษณะเบ องตน และลดขอผดพลาดในการแปลความหมายของคณลกษณะได ซงจากงานวจยของ Go และคณะ [11] แสดงใหเหนวาวธการ Unigrams รวมกบ Bigrams ม

Porter Stemming

70

ประสทธภาพสงทสด ในการจาแนกความคดเหนทอยบนเวบไซตทวตเตอร (Twitter Data) ข นตอนการตดคาแสดงดงรปท 28 และ รปท 29

รปท 28 ขนตอนการตดค า (1)

Stemmed Text

Has Token? ( . or , or Space)

Save to Char

CC = Count Character; i = 1;

N Y

i <= CC

Y

N

END

Save word before Token into

WordCollection

i = i+1

Y

71

รปท 29 ขนตอนการตดค า (2)

Negation Word? ( No or Not)

CW = Count word; i = 1;

N

i <= CW N

Y END

Y

Save to Word Collection

Negation word + Next Word

i = i+1

Y

72

ตวอยางการตดคาดวยวธการ Unigram รวมกบ Bigram แสดงดงรปท 30 .

spencer is not good guy

spencer is not good guy

รปท 30 ตวอยางการตดค าดวยวธการ Unigram รวมกบ Bigram

3.4 การแทนคาในเอกสาร (Document Representation)

เอกสารทไดหลงจากผานกระบวนการเตรยมขอมล จะแสดงในรปแบบของเวกเตอร (Vector Model) โดย 1 เอกสาร จะแทนดวย 1 เวกเตอร แตละเวกเตอรประกอบดวยคณลกษณะ ซงคณลกษณะไดจากการตดคาดวยวธการ Unigrams รวมกบ Bigrams งานวจยน ใชวธการแทนคาในเอกสารโดยใชถงคา (Bag of Word) และแทนคาน าหนกดวยวธการ Boolean Weighting ตวอยางการแทนคาในเอกสารแสดงดงตาราง 10

ตาราง 10 ตวอยางชดขอมลน าเขา

Document id Text Class

1d spencer is not a good guy. 2c

2d It was the best of times. 1c

3d It was the worst of times. 2c

4d She is a good girl. 1c

5d It is a good times. 1c

จากตาราง แสดงตวอยางขอมลนาเขา ซงอยในรปแบบขอความ แตละแถวแทนดวย 1 เอกสาร เมอนามาเขากระบวนการเตรยมขอมลแลวจะไดคณลกษณะ คอ คาทอยในเอกสาร ซงจากตารางขางตน ประกอบดวย 4 เอกสาร และ คณลกษณะแสดงดงตาราง 11

Unigram รวมกบ Bigram

73

ตาราง 11 ตวอยางคณลกษณะทไดจากการคดเลอก

Feature_ID Features (Word in Documents)

1f spencer

2f not good

3f guy

4f best

5f time

6f worst

7f good

8f girl ในข นตอนตอไป เปนการแทนคาการเกดคณลกษณะในเอกสาร โดยหากพบคณลกษณะในเอกสาร จะใหมคา เทากบ 1 หาก ไมพบใหมคา เทากบ 0 ขนาดเวกเตอรจะมขนาดเทากบ ขนาดเอกสาร (Size of Document) x ขนาดของคณลกษณะ (Size of Feature) ซงจากตวอยางขางตน ขนาดของเวกเตอรทได คอ ขนาด 5x8 ดงแสดงในตาราง 12

ตาราง 12 ตวอยางการแทนคาในเอกสาร

Feature_ID Document_ID

1t

2t

3t

4t

5t

6t

7t

8t

1d 1 1 1 0 0 0 0 0

2d 0 0 0 1 1 0 0 0

3d 0 0 0 0 1 1 0 0

4d 0 0 0 0 0 0 1 1

5d 0 0 0 0 1 0 1 0

3.5 การคดเลอกคณลกษณะ (Feature Selection)

เมอผานกระบวนการแทนคาในเอกสาร จะไดเวกเตอรซงเปนรปแบบเวกเตอรแนวนอน (Horizontal Vector) ผวจยไดทาการหาคาน าหนกของแตละคณลกษณะเพอจดลาดบความสาคญของคณลกษณะ โดยนาเวกเตอรทไดจากกระบวนการการแทนคาในเอกสารมาหาคาน าหนกของ

74

คณลกษณะทเกดข นในแตละคลาสและเลอกคาสงสดมาเปนคาน าหนกของคณลกษณะน น โดยกาหนดให เซตของเอกสาร 1 2{ , ,.., }nD d d d เมอ n = จานวนเอกสารท งหมด เซตของคณลกษณะ 1 2{ , ,.., }mT t t t เมอ m = จานวนคณลกษณะท งหมด และเซตของคลาส

1 2{ , ,.., }kC c c c เมอ k = จานวนคลาสท งหมด แตละเอกสาร d D จะนาเสนอในรปแบบ

1 2( , ,.. , }k it t t c เมอ t T และ c C แสดงดงตาราง 13 ตวอยางขอมลทอยในรปแบบเวกเตอรแนวนอน แสดงดงตาราง 14

ตาราง 13 รปแบบเวกเตอรแนวนอน

Document id 1t 2t … mt Class

1d 11w 12w … 1mw 1c

2d 21w 22w … 2mw 1c

3d 31w 32w … 3mw 2c

… … … … … …

nd 1nw 2nw nmw kc

ตาราง 14 ตวอยางขอมลทอยในรปแบบเวกเตอรแนวนอน

Feature (F) Document_ID

1t

2t

3t

4t

5t

6t

Class

1d 1 1 1 1 1 0 1c

2d 0 1 0 1 0 1 1c

3d 1 1 1 1 0 1 1c

4d 0 0 1 0 0 1 2c

5d 1 0 0 1 1 1 2c

75

ตาราง 15 รปแบบขอมลแนวตง (Vertical Data)

Transaction Set of Documents

1t 1 3 5{ , , }d d d

2t 1 2 3{ , , }d d d

3t 1 3 4{ , , }d d d

4t 1 2 3 5{ , , , }d d d d

5t 1 5{ , }d d

6t 2 3 4 5{ , , , }d d d d

1c 1 2 3{ , , }d d d

2c 4 5{ , }d d

นยามท 3.1 กาหนดให ( )iS t คอ เซตของเอกสารทมคณลกษณะ it ตวอยางท 3.1 จากตาราง 15 พบวา คณลกษณะ 3t ปรากฏในเอกสาร 1d , 3d และ 4d ดงน น

3 1 3 4( ) { , , }S t d d d นยามท 3.2 คาสนบสนน (Support) ของคณลกษณะ it หมายถง จานวนเอกสารทมคณลกษณะ it แทนดวย | ( ) |iS t ตวอยางท 3.2 จากตาราง 14 พบวาคณลกษณะ 3t ในเอกสารท งหมด จานวน 3 เอกสาร ซงปรากฏใน 1d , 3d และ 4d ดงน น 3| ( ) |S t มคาเทากบ 3 นยามท 3.3 คาสนบสนน (Support) ของคณลกษณะ it ในคลาส

jc คอ จานวนเอกสารทมคณลกษณะ it และอยในคลาส

jc แทนดวย | ( , ) |i jS t c

โดยท | ( , ) |i jS t c สามารถคานวณไดงายโดยการใชสมการ (3.1) ดงน

| ( , ) | | ( ) ( ) |i j i jS t c S t S c (3.1)

76

ตวอยางท 3.3 จากตาราง 15 ซงเปนรปแบบขอมลแนวต ง พบวา 3 1| ( , ) |S t c = 3 1| ( ) ( ) |S t S c =

1 3 4 1 2 3|{ , , } { , , }|d d d d d d =| 1 3{ , }d d | = 2 ซงเมอดจากตาราง 14 ซงเปนเวกเตอรแนวนอน พบวา จานวนของคณลกษณะ 3t ในคลาส 1c มจานวนเทากบ 2 เอกสาร คอ 1d และ 3d ซงมคาเทากน นยามท 3.4 คาความเชอมน (Confident) ของการเกดคณลกษณะ it ในคลาส

jc คอ คาทแสดงใหเหนถงโอกาสการเกด it ในคลาส

jc คาความเชอมน คานวณไดจากสมการ (3.2)

( , )( , )

( )

i j

i j

i

S t cC t c

S t (3.2)

ตวอยางท 3.4 จากตาราง 14 คาความเชอมนของคณลกษณะ 3t ในคลาส 1c หรอ 3 1( , )C t c สามารถคานวณไดจาก 3 1( , )S t c / 3( )S t = 2/3 = 0.667 ซงแสดงใหเหนวาเมอมคณลกษณะ 3t ปรากฏในเอกสาร หมายถง เอกสารน นมโอกาสทจะอยในคลาส 1c เทากบ 66.70% สวนคาความเชอมนของคณลกษณะ 3t ในคลาส 2c หรอ 3 2( , )C t c สามารถคานวณไดจาก 3 2( , )S t c / 3( )S t = 1/3 = 0.333 ซงแสดงใหเหนวาเมอมคณลกษณะ 3t ปรากฏในเอกสาร หมายถง เอกสารน นมโอกาสทจะอยในคลาส 2c เทากบ 33.30% นยามท 3.5 คาลาดบของคณลกษณะ หมายถง ลาดบของคณลกษณะ it ทอยในคลาส

jc เมอเรยงตามคาสนบสนน (Support) จากมากไปหานอย คณลกษณะ ในคลาส

jc มคาระหวาง 0 ถง 1N เมอ N คอ จานวนคณลกษณะท งหมดทปรากฏในคลาส j แทนดวย ( , )i jR t c ตวอยางท 3.5 จากตาราง 14 คาสนบสนนของคณลกษณะท งหมดทอยในคลาส 1c มคาดงน

Feature (F)

1t

2t

3t

4t

5t

6t

Class

1| ( , ) |iS t c 2 3 2 3 1 2 1c

1( , )iR t c 2 1 2 1 3 2 1c

เมอพจารณาคณลกษณะตามคาสนบสนนจากมากไปนอย ปรากฏวาคณลกษณะ 1t ในคลาส

1c มคาลาดบ เทากบ 2 หรอ 1 1( , )R t c = 2 ซงหมายถง มคาสนบสนนมากทสดเปนอนดบ 2 ใน

77

คลาส 1c กรณทคาสนบสนนเทากน จะใหคาลาดบคณลกษณะทปรากฏกอนไวลาดบแรก เชน 2t กบ 4t มคาสนบสนนเทากน คอ 3 การจดลาดบจะมคาเทากน คอ 1 เนองจากคาสนบสนนของแตละคณลกษณะมคาแตกตางกนมากเกนไป จงตองทาการปรบคาน าหนกของคาสนบสนนใหมคาระหวาง 0 – 1 เพอใหคาสนบสนนมความสาคญเทากบคาความเชอมน ดงนยามท 3.6 นยามท 3.6 คาน าหนกของคาสนบสนน คอ คาทไดจากการจดลาดบของคาสนบสนนของคณลกษณะท งหมดทอยในคลาส

jc มคาอยระหวาง 0 ถง 1 แทนดวย ( , )i jPS t c คาความนาจะเปนของคาสนบสนนคานวณไดจากสมการ (3.3)

( , )( , )

i j

i j

R t cPS t c

N (3.3)

เมอ N คอ จานวนคณลกษณะท งหมดทอยในคลาส j ตวอยางท 3.6 จากตวอยาง 3.4 1 1( , )R t c = 1 สามารถปรบคาน าหนกของคาสนบสนน ไดดงน

1 11 1

( , ) 2( , )

6

R t cPS t c

N = 0.33

นยามท 3.7 คาน าหนกของคณลกษณะ it ในคลาส

jc คอ คาทแสดงใหเหนถงความสาคญของคณลกษณะ it ทมตอคลาส

jc คาน าหนกของคณลกษณะสามารถคานวณไดจากสมการ (3.4)

( , ) ( , ) (1 ) ( , )i j i j i jw t c p PS t c p C t c (3.4) โดยท p คอ คาคงท มคามากกวาหรอเทากบ 0 และนอยกวาหรอเทากบ 1 ( , )i jPS t c คอ คาน าหนกของคาสนบสนน ของคณลกษณะ it ในคลาส

jc ( , )i jC t c คอ คาความเชอมนของคณลกษณะ it ในคลาส

jc ตวอยางท 3.7 จากตาราง 14 สมมต p มคาเทากบ 0.9 คาน าหนกของคณลกษณะ 3t ในคลาส 1c หรอ 3 1( , )w t c คานวณไดดงน

3 1( , )w t c = 3 1 3 1( , ) (1 ) ( , )p PS t c p C t c = 0.9 0.4 (1 0.9) 0.667 = 0.36 + 0.667 = 0.427

78

คาน าหนกของคณลกษณะ it จะพจารณาจากคาน าหนกของคณลกษณะ it ทอยในแตละคลาส แลวเอาคาน าหนกทมคามากทสดมาเปนคาน าหนกของคณลกษณะ it คานวณไดดงสมการ (3.5)

1 2( ) max( ( , ), ( , ),..., ( , ))i i i i jM t w t c w t c w t c (3.5) เมอ ( )iM t คอ คาน าหนกของคณลกษณะ it 1( , )iw t c คอ คาน าหนกของคณลกษณะ it ทอยในคลาส 1c 2( , )iw t c คอ คาน าหนกของคณลกษณะ it ทอยในคลาส 2c

( , )i jw t c คอ คาน าหนกของคณลกษณะ it ทอยในคลาส jc

ตวอยางท 3.8 คาน าหนกของคณลกษณะ 3t ทอยในคลาส 1c เทากบ 0.427 และ สมมตคาน าหนกของคณลกษณะ 3t ทอยในคลาส 2c เทากบ 0.213 จะได 3( )M t เทากบ 0.427 จากแนวคดขางตน สามารถสรปเปนขนตอนการคดเลอกคณลกษณะ ไดดงรปท 31 Algorithm 1: Proposed Method

1. for each class kc C 2. for each features it T do: 3. | ( , ) | | ( ) ( ) |i k i kS t c S t S c

4. | ( , ) |( , )

| ( ) |

i ki k

i

S t cCon t c

S t

5. end for 6. ( )sort T in ascending order of support 7. for each features ( )it sort T do:

8. ( , )( , )

| |

i ki k

R t cPS t c

D

9. ,( ) ( , ) (1 ) ( , )i k i k i kw t c p PS t c p Con t c

10. ( ) max( ( , ))i i kM t w t c 11. end for 12. end for

รปท 31 แสดงขนตอนการคดเลอกคณลกษณะ

79

จากรปท 31 บรรทดท 1 – บรรทดท 5 เปนการหาคาสนบสนน และคาความเชอมนโดย ขอมลน าเขาเปนขอมลรปแบบแนวตง คาสนบสนนค านวณดวยวธการ หาคาจ านวนของผลการอนเตอรเซคชนระหวางเซตของคณลกษณะและเซตของคลาส และคาความเชอมนค านวณจากคาสนบสนนของคณลกษณะ จากนนบรรทดท 6 เปนการจดล าดบคณลกษณะโดยเรยงคาสนบสนนจากมากไปนอย จากนนบรรทดท 7 – 11 เปนการค านวณคาน าหนกของคณลกษณะทท าการจดล าดบแลว โดยท บรรทดท 8 คอ การปรบคาน าหนกของคาสนบสนนใหมคาอยระหวาง บรรทดท 9 เปนการค านวณคาน าหนกของคณลกษณะทอยในคลาส และบรรทดท 10 คอการหาคาน าหนกทมคามากทสดมาเปนคาน าหนกของคณลกษณะ it

3.5 การลดคณลกษณะทซ าซอน

หลงจากทาการหาคาน าหนกของแตละคณลกษณะเรยบรอยแลว ผวจยทาการเรยงลาดบคณลกษณะทมความสาคญสงสดไวลาดบแรก

ตาราง 16 ตวอยางเวกเตอรแนวนอน

Feature (F) Document_ID

1t

2t

3t

4t

5t

6t

Class

1d 1 0 1 0 1 0 1c

2d 0 1 0 1 0 0 1c

3d 0 1 1 1 0 1 1c

4d 0 0 1 0 0 0 2c

5d 1 0 0 0 1 0 2c

ตาราง 17 รปแบบขอมลแนวตง (Vertical Data)

Transaction Set of Documents

1t 1 5{ , }d d

2t 2 3{ , }d d

3t 1 3 4{ , , }d d d

4t 2 3{ , }d d

5t 1 5{ , }d d

6t 3{ }d

80

ผวจยท าการตดคณลกษณะทซ าซอนโดยใชแนวคด ดงตอไปน นยามท 3.8 กาหนดให ,i jt t T ถา ( )is t = ( )js t แสดงวา it และ

jt ปรากฏอยในเอกสารชดเดยวกน ใหตดตวใดตวหนงออกได โดยการจะตดตวใดออกจะพจารณาจากคาน าหนกของคณลกษณะทไดคานวณไวแลว ตวอยางท 3.8 จากตาราง 17 พบวา 1t , 5t เปนคณลกษณะทปรากฏในเอกสารเดยวกน คอ 1d และ 5d และ 2t , 4t ปรากฏในเอกสารเดยวกน คอ 2d และ 3d จากน นผวจยจะทาการตรวจสอบคาน าหนกของคาคณลกษณะเหลาน น เพอเลอกคณลกษณะทมคาน าหนกสงทสดไว แลวตดคณลกษณะทเหลอออก ซงจากตวอยางพบวา คณลกษณะทมคาน าหนกสงสด คอ 1t และ 2t ดงน น 5t และ 4t จะถกตดออก เพราะถอวาเปนคณลกษณะทซ ากบ 1t และ 2t และเมอลบออกแลวจะเหนวาจานวนคณลกษณะลดลง แตเอกสารยงคงปรากฏคณลกษณะอย จงไมทาใหสญเสยขอมลทสงผลตอตวจาแนก เมอผานกระบวนการลดคณลกษณะทซ าแลว จะคงเหลอทรานเซคชนของคณลกษณะ ดงน

1 1 5( ) { , }s t d d 2 2 3( ) { , }s t d d 3 1 3 4( ) { , , }s t d d d 6 3( ) { }s t d

เมอผานการบวนการตดคณลกษณะทซ าออกแลว จะตองท าการแปลงขอมลในแนวตงกลบมาเปนเวกเตอรแนวนอนกอนน าไปเขาสกระบวนการจ าแนก ซงจะเหนวาเมอแปลงขอมลกลบมาอยในรปแบบเวกเตอรแนวนอน มจ านวนคณลกษณะลดลง แตทกเอกสารยงคงปรากฏคณลกษณะ ดงตาราง 18

ตาราง 18 ตวอยางขอมลหลงผานกระบวนการลดคณลกษณะ

Feature (T) Document (D)

1t

2t

3t

6t

Class

1d 1 0 1 0 1c

2d 0 1 0 0 1c

3d 0 1 1 1 1c

4d 0 0 1 0 2c

5d 1 0 0 0 2c

81

จากแนวคดขางตน สามารถสรปเปนขนตอนการลดคณลกษณะ ไดดงรปท 32 Algorithm 2: Reduce Redundant Features Input: A Horizontal Vector HD , HD D T Output: A selected features DT Method: 1. for each it T 2. ( )is t 3. for

jd D 4. if 1j iw 5. ( ) ( )i i js t s t d 6. ( ) ( ) ( )i is T s T s t 7. ( )VD T s T 8. sort distinct feature in descending order according to number of document. 9. for each it VD 10. ( )is t 11. if 1( ) ( )i iW t W t 12. ( ) ( )i i is t s t t 13. else 1( ) ( )i i is t s t t 14. ( ) ( ) ( )i is T s T s t 15. ( )DF T s T

รปท 32 แสดงขนตอนการตดคณลกษณะทซ าออก

3.6 การแบงขอมล

การจาแนกความคดเหนดวยวธการเรยนรแบบมผสอน จะตองแบงขอมลเปน 2 กลม คอ ขอมลชดสอน และขอมลชดทดสอบ งานวจยน แบงขอมลดวยวธการ 10-Fold Cross Validation อลกอรทมทกตวจะใชขอมลชดสอนและขอมลชดทดสอบเดยวกน ทาการแบงขอมลโดยวธการสมแบงขอมลออกเปน 10 ชด เทาๆ กน แตละรอบจะมขอมล 9 ชด ถกใชเปนขอมลชดสอน และอก 1 ชด จะถกใชเปนขอมลชดทดสอบ การเลอกขอมลเพอนามาทดสอบในแตละรอบจะไมเลอกขอมลทเคยใชแลว การวดประสทธภาพใชวธการนาคาประสทธภาพการทดสอบแตละรอบมาหาคาเฉลยเพอใชเปนคาประสทธภาพของตวจาแนกทนามาทดสอบ การแบงชดขอมลดงแสดงในรปท 33

82

Ex1 Ex2 Ex3 Ex4 Ex5 Ex6 Ex7 Ex8 Ex9 Ex10

รปท 33 การแบงขอมลดวยวธ 10-Fold Cross Validation

3.7 กระบวนการจ าแนกความคดเหน (Sentiment Classification)

การจาแนกความคดเหนดวยวธการเรยนรแบบมผสอน จะนาขอมลชดสอนทเตรยมไวมาเรยนรเพอสรางตวจาแนกสาหรบทาการทดสอบกบขอมลชดทดสอบ เรยกวาวธการเรยนรแบบมผลเฉลย (Supervise Learning) ม 2 ข นตอนหลก คอ 1) ข นตอนการเรยนร (Training Step) คอ นาขอมลชดสอนมาเรยนร เพอสรางตวแบบในการจาแนกความคดเหน 2) ข นตอนการทดสอบ (Testing Step) คอ นาแบบจาลองการจาแนกความคดเหนมาจาแนกขอมลชดทดสอบ งานวจยน ใชข นตอนวธการจาแนกความคดเหน 2 วธ ไดแก วธการซพพอรทเวกเตอรแมชชน และวธการนาอฟเบย ซงจากการศกษางานวจยทผานมา พบวา ขางตนเปนวธการทไดรบความนยมและมประสทธภาพสงในการจาแนกความคดเหน

หลงจากทาการทดสอบจาแนกขอมลชดทดสอบแลว ข นตอนตอไปคอการวดประสทธภาพ

ของการจาแนก เพอประเมนความสามารถของการทานายคลาสคาตอบของตวจาแนก งานวจยน ใช

Test Set Training Set

83

วธการวดประสทธภาพของการจาแนกความคดเหน โดยพจารณาระยะเวลาในการประมวลผล คา

ความถกตอง คาความแมนยา คาความระลก และคาประสทธภาพโดยรวม การวดประสทธภาพดาน

เวลาในการประมวลผล ใชวธการวดต งแตกระบวนการคดเลอกคณลกษณะ จนส นสดกระบวนการ

จาแนกความคดเหน การวดประสทธภาพอธบายโดยใชตาราง Confusion Matrix ขนาด 2x2 โดยท

ขอมลดานคอลมน เปนคลาสทอยในขอมลชดสอน (Actual) และขอมลดานแถว เปนคลาสททานาย

ได (Predicted) ดงตาราง 19

ตาราง 19 Confusion Matrix

Predicted

Actual Positive Negative

Positive a b

Negative c d

โดยท a (True Positive) คอ จานวนขอมลททานายถกวาเปนคลาส Positive b (False Negative) คอ จานวนขอมลททานายวาเปนคลาส Negative

แตคาตอบคอ Positive c (False Positive) คอ จานวนขอมลททานายวาเปนคลาส Positive

แตคาตอบคอ Negative d (True Negative) คอ จานวนขอมลททานายถกวาเปนคลาส Negative

1) การวดคาความถกตอง (Accuracy)

การวดคาความถกตอง เปนตรวจสอบความถกตองของการทานาย โดยจะพจารณารวมทกคลาส ดงสมการ (3.6)

a d

Accuracya d b c

(3.6)

84

2) การวดคาความแมนยา (Precision) การวดคาความแมนยาของการจาแนกความคดเหน เปนตรวจสอบความถกตองของการทานายโดยพจารณาแยกทละคลาส เชน คาความแมนยาของการทานายคลาสความคดเหนเชงบวก จะพจารณาจากคาททานายถกตองวาเปนคลาสความคดเหนเชงบวก หารดวยคาททานายวาเปนความคดเหนเชงบวกท งหมด ดงสมการ (3.7) และ คาความแมนยาของการทานายคลาสความคดเหนเชงลบ จะพจารณาจากคาททานายถกตองวาเปนคลาสความคดเหนเชงลบ หารดวยคาททานายวาเปนความคดเหนเชงลบท งหมด ดงสมการ (3.8)

Pr positive

aecision

a c

(3.7)

Pr negative

decision

b d

(3.8)

3) การวดคาความระลก (Recall)

การวดคาความระลกของวธการจาแนกความคดเหนเปนการวดความถกตองของการทานาย โดยแยกพจารณาทละคลาส เชน คาความระลกของการทานายคลาสความคดเหนเชงบวก จะพจารณาจากคาททานายถกตองวาเปนคลาสความคดเหนเชงบวก หารดวยคาทเปนความคดเหนเชงบวกท งหมดในขอมลชดสอน ดงสมการ (3.9) และ คาความระลกของการทานายคลาสความคดเหนเชงลบ จะพจารณาจากคาททานายถกตองวาเปนคลาสความคดเหนเชงลบ หารดวยคาทเปนความคดเหนเชงลบท งหมดในขอมลชดสอน ดงสมการ (3.10)

Re positive

acall

a b

(3.9)

Re negative

dcall

c d

(3.10)

4) คาเฉลยประสทธภาพโดยรวม (F-measure)

คาเฉลยประสทธภาพโดยรวม เปนการพจารณาคาความระลกรวมกบคาความแมนยา ซงจะพจารณาแยกทละคลาส ดงสมการ (3.11) และ สมการ (3.12)

85

Pr Re2

Pr Re

positive positive

positive

positive positive

ecision callF measure

ecision call

(3.11)

Pr Re

2Pr Re

negative negative

negative

negative negative

ecision callF measure

ecision call

(3.12)

หลงจากประเมนประสทธภาพตวจาแนกท งหมด นาผลลพธทไดมาเปรยบเทยบประสทธภาพ

ระหวางการเลอกคณลกษณะดวยวธการทนาเสนอและการเลอกคณลกษณะดวยวธการทวไป ไดแก การใชคาการเพมสารสนเทศ (Information Gain :IG) คาสถตไคสแคว (Chi-Square) และ คา Gini Index ซงจากการศกษาพบวา งานวจยทางดานเหมองขอความสวนใหญใช 3 วธการน ในการคดเลอกคณลกษณะ ซงเปนวธการทงายและมประสทธภาพ [66] งานวจยน ผวจยใชนาอฟเบยเปนตวจาแนก ซงเปนวธการทงายตอการนาไปใช และผลลพธทสามารถนาไปประยกตใชไดด [30] จากน นวดคาประสทธภาพการจาแนก ไดแก คาความถกตอง คาความแมนยา คาความระลก คาประสทธภาพโดยรวม และระยะเวลาทใชในการประมวลผล

บทท 4 ผลการวจยและการอภปราย

การวจยน มวตถประสงคเพอพฒนาข นตอนวธในการลดคณลกษณะและแกไขปญหาคณลกษณะซ าซอนสาหรบการจาแนกความคดเหนทอยบนเครอขายสงคมออนไลน ประกอบดวย การเลอกคณลกษณะ การตรวจสอบคณลกษณะทซ าซอน การจาแนกความคดเหนและทดสอบประสทธภาพ การนาเสนอผลการวจยแบงเปน 3 สวน ไดแก สวนท 1. เครองมอและขอมลตาง ๆ ทใชในการทดลอง สวนท 2. วธการทดลอง สวนท 3. ผลการประเมนประสทธภาพและการอภปรายผลการทดลอง มรายละเอยดดงตอไปน

4.1 เครองมอและขอมลทใชในการทดลอง

4.1.1 เครองมอทใชในการทดลอง

เครองมอและขอมลตาง ๆ ทใชในการทดลองในงานวจย ไดแก ดานฮารดแวร ประกอบดวย เครองคอมพวเตอรแบบพกพา DELL ซพย Intel® Core™ i7-4720HQ CPU @ 2.60GHz แรม 8.00 GB ดานซอฟตแวรและภาษาทใชในการเขยนการทดลอง ไดแก ระบบปฏบตการ Windows 10 Pro 64-bit พฒนาซอฟตแวรโดยใชภาษาไพทอน (Python)

4.1.2 ผลการรวบรวมขอมลในการทดลอง

ผวจยรวบรวมขอมลความคดเหนบนเครอขายสงคมออนไลนจากแหลงขอมลตาง ๆ จานวน 5 ชดขอมล ไดแก 1) Stadford Twitter Sentiment Data (STS) 2) SemEval-2017 Task4A Dataset (SemEval) 3) Sentiment Strength Twitter Dataset (SS-Tweet) 4) Health Care Reform (HCR) และ 5) Sanders Twitter Dataset (Sander) ขอมลทรวบรวมท งหมดประกอบดวยหลากหลายโดเมน ในการทดลองผวจยทาการสมขอความแบบไมเจาะจงโดเมน โดยเลอกขอความคดเหนทเปนขอความคดเหนเชงบวกและขอความคดเหนเชงลบจานวนเทากน ประกอบดวย 1) Stadford Twitter Sentiment Data (STS) จานวน 10,000 ขอความ 2) SemEval-2017 Task4A Dataset (SemEval) จานวน 4,000 ขอความ 3) Sentiment Strength Twitter Dataset (SS-Tweet) จานวน 2,600 ขอความ 4) Health Care Reform (HCR) จานวน 1,000 ขอความ และ 5) Sanders Twitter Dataset (Sander) จานวน 1,000 ขอความ จานวนขอมลท งหมดทใชในการทดลอง แสดงดงตาราง 20

87

ตาราง 20 ชดขอมลทใชในการวจย

ชดขอมล จ ำนวนขอควำมคดเหน

ขอควำมควำมคดเหนเชงบวก

ขอควำมควำมคดเหนเชงลบ

STS 10,000 5,000 5,000 SemEval 4,000 2,000 2,000

SS-Twitter 2,600 1,300 1,300 HCR 1,000 500 500

Sanders 1,000 500 500

4.1.3 ผลการจดเตรยมขอมล

ขอมลทใชในการทดลองเปนขอความซงจดอยในรปแบบไมมโครงสราง จาเปนตองทาการแปลงขอมลใหอยในรปแบบมโครงสราง ซงแสดงในรปแบบของเวกเตอร (Vector Model) เพอนาเขากระบวนการคดเลอกคณลกษณะและจาแนกความคดเหนตอไป งานวจยน สกดคณลกษณะโดยการตดคาทอยในเอกสารดวยวธการ Unigrams และ Bigrams แทนคาในเอกสารโดยวธการใชถงคา (Bag of Word) และแทนคาน าหนกในเวกเตอรดวยวธการ Boolean Weighting หลงจากผานกระบวนการเตรยมขอมล จะไดเวกเตอรทมคณลกษณะ ดงตาราง 21

ตาราง 21 คณลกษณะของแตละชดขอมล

ชดขอมล จ ำนวนคณลกษณะ

STS 12,772 SemEval 9,065

SS-Twitter 6,845 HCR 2,503

Sanders 1,867

4.2 วธการทดลอง

ผวจยแบงวธการทดลองเปน 2 สวน ดงน สวนท 1 การเปรยบเทยบประสทธภาพของวธการเลอกคณลกษณะ ข นตอนน เปนการนา

ขอความคดเหนมาใชทดลองกบวธการตดคาดวยวธการ Unigram + Bigram จากน นแบงขอมลเปนชดสอนและชดทดสอบ จากน นนาขอมลชดสอนไปทาการจดอนดบคณลกษณะโดยการหาคาน าหนกของคณลกษณะดวยวธการทนาเสนอ เปรยบเทยบกบ วธการอน ๆ ไดแก Information Gain (IG)

88

Chi-Square (Chi2) และ Gini Index ซงงานวจยทางดานเหมองขอความสวนใหญใช 3 วธการน ในการคดเลอกคณลกษณะ ซงเปนวธการทงายและมประสทธภาพ [10] แลวทาการเลอกคณลกษณะตามคาน าหนกโดยเรยงลาดบจากคาน าหนกจากมากไปนอย จานวนคณลกษณะทนามาใชในการทดลอง คอ 10% 20% 30% 40% 50% 60% 70% 80% 90% และ 100% โดยจานวนคณลกษณะ 10% หมายถง คณลกษณะทมความสาคญสงสด 10% จากคณลกษณะท งหมด เชน จานวนคณลกษณะมจานวน 1,000 คณลกษณะ จะทาการเรยงคณลกษณะท งหมดตามคาน าหนกจากมากไปนอย จากน นทาการเลอกคณลกษณะ 100 คณลกษณะแรก ซงหมายถง 10% ของคณลกษณะท งหมด จากน นทาการจาแนกความคดเหนดวยวธการ Naïve Bayes

สวนท 2 การเปรยบเทยบประสทธภาพการเลอกคณลกษณะท งหมดกบการลดคณลกษณะทซ าซอน โดยใชการจาแนกความคดเหนดวยวธการ Naïve Bayes

4.3 ผลการทดลอง

ผลการวดประสทธภาพการทดลอง นาเสนอตามลาดบ 5 ชดขอมล ไดแก 1) Stadford Twitter Sentiment Data (STS) 2) SemEval-2017 Task4A Dataset (SemEval) 3) Sentiment Strength Twitter Dataset (SS-Tweet) 4) Health Care Reform (HCR) และ 5) Sanders Twitter Dataset (Sander) รายละเอยดผลการวดประสทธภาพการทดลอง มดงน

4.3.1 ผลการเปรยบเทยบประสทธภาพของวธการเลอกคณลกษณะ

การนาเสนอผลการเปรยบเทยบประสทธภาพของวธการเลอกคณลกษณะ ประกอบดวย คาความถกตอง คาความแมนยาในคลาสเชงบวก คาความแมนยาในคลาสเชงลบ คาความระลกในคลาสเชงบวก คาความระลกในคลาสเชงลบ คาประสทธภาพโดยรวมในการจาแนกความคดเหนคลาสเชงบวก และคาประสทธภาพโดยรวมในคลาสเชงลบ โดยผวจยไดนาเสนอผลการวดประสทธภาพตามจานวนการเลอกคณลกษณะ ในสวนของคณลกษณะทนามาใชในการทดลอง จานวน 100% หมายถง ไมมการเลอกคณลกษณะ ดงน น คาประสทธภาพในแตละวธการจงมคาเทากน รายละเอยดนาเสนอตามชดขอมล ดงน

1) ผลการวดประสทธภาพการทดลองขอมลชด STS ชดขอมล Stanford Twitter Sentiment Data (STS) ประกอบดวยขอความคดเหน จานวน 10,000 ขอความ แบงเปนขอความคดเหนเชงบวก จานวน 5,000 ขอความ และขอความคดเหนเชงลบ จานวน 5,000 ขอความ แสดงผลการทดลองไดดงน

89

ตาราง 22 คาความถกตองของชดขอมล STS

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 71.16 71.77 71.43 71.26 71.21 71.69 71.66 72.15 72.25 71.62 Chi2 71.05 71.77 71.45 71.28 71.25 71.72 71.66 72.10 72.25 71.61 IG 71.06 71.34 71.18 71.08 71.05 71.25 71.54 72.10 72.27 71.43

Proposed 71.91 72.39 72.13 71.89 71.95 71.94 72.27 72.43 72.30 72.13

ตาราง 23 ผลการวเคราะห Paired-Sample t-test คาความถกตองของขอมลชด STS

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

0.514 0.254 0.085 0.319 0.709 6.083 8 0.000

Pair 2 Proposed-Chi2

0.520 0.261 0.087 0.319 0.721 5.967 8 0.000

Pair 3 Proposed-IG

0.704 0.325 0.108 0.454 0.954 6.498 8 0.000

จากตาราง 22 แสดงประสทธภาพความถกตองการจาแนกความคดเหนของขอมลชด STS มรายละเอยดผลการทดลอง ดงน

1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 70% และ 80% พบวา วธการทนาเสนอมคาความถกตองสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และวธการ Chi-Square ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% 30% 40% 50% และ 60% พบวา วธการทนาเสนอมคาความถกตองสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการ Information Gain ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการทนาเสนอมคาความถกตองสงทสด รองลงมาคอ วธการ Information Gain วธการ Chi-Square และ วธการ Gini Index ตามลาดบ

จากตาราง 23 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาความถกตองสงกวาวธการอน อยางมนยสาคญท 0.05

90

ตาราง 24 คาความแมนย าของชดขอมล STS ในคลาสเชงบวก

วธการ

จานวนคณลกษณะทสาคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 69.83 70.50 70.15 69.94 69.81 69.98 69.87 70.46 70.81 70.15 Chi2 69.72 70.50 70.19 69.97 69.86 70.03 69.87 70.41 70.81 70.15 IG 69.69 70.02 69.89 69.81 69.65 69.51 69.62 70.40 70.85 69.94

Proposed 71.01 71.24 71.33 71.93 73.14 73.68 72.64 71.63 70.86 71.94

ตาราง 25 ผลการวเคราะห Paired-Sample t-test คาความแมนย าของขอมลชด STS ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

1.790 1.239 0.413 0.838 2.742 4.335 8 0.002

Pair 2 Proposed-Chi2

1.789 1.214 0.405 0.855 2.722 4.420 8 0.002

Pair 3 Proposed-IG

2.002 1.319 0.440 0.988 3.016 4.553 8 0.002

จากตาราง 24 แสดงประสทธภาพความแมนยาการจาแนกความคดเหนของชดขอมล STS

ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 20% 70% และ 80% พบวา วธการท

นาเสนอมความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการ Information Gain ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% 40% 50% และ 60% พบวา วธการทนาเสนอมความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการ Information Gain ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการทนาเสนอมความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และ วธการ Chi-Square ตามลาดบ

91

จากตาราง 25 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาความแมนยาในคลาสเชงบวก สงกวาวธการอน อยางมนยสาคญท 0.05

ตาราง 26 คาความแมนย าของชดขอมล STS ในคลาสเชงลบ

วธการ จานวนคณลกษณะทสาคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย

GINI 73.17 73.41 73.48 73.86 74.10 74.43 74.14 74.21 73.94 73.86 Chi2 73.06 73.41 73.47 73.85 74.12 74.42 74.14 74.17 73.94 73.84 IG 73.31 73.21 73.45 73.83 73.97 74.02 74.23 74.18 73.94 73.79

Proposed 73.01 73.73 73.07 71.92 70.95 70.49 71.98 73.36 73.99 72.50

ตาราง 27 ผลการวเคราะห Paired-Sample t-test คาความแมนย าของขอมลชด STS ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-1.360 1.510 0.503 -2.521 -0.199 -2.701 8 0.027

Pair 2 Proposed-Chi2

-1.342 1.525 0.508 -2.514 -0.170 -2.641 8 0.030

Pair 3 Proposed-IG

-1.293 1.433 0.478 -2.394 -0.192 -2.708 8 0.027

จากตาราง 26 แสดงประสทธภาพความแมนยาการจาแนกความคดเหนของชดขอมล STS

ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 20% และ 70% พบวา วธการ

Information Gain มความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% 40% และ 60% พบวา วธการ Gini Index มความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

92

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% พบวา วธการ Chi-Square มความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% 50% 60% และ 70% พบวา วธการ Gini Index มความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Chi-Square และวธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการทนาเสนอ มความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการ Information Gain ตามลาดบ

จากตาราง 27 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาความแมนยาในคลาสเชงลบ นอยกวาวธการอน อยางมนยสาคญท 0.05

ตาราง 28 คาความระลกของชดขอมล STS ในคลาสเชงบวก

วธการ จานวนคณลกษณะทสาคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 75.31 75.22 75.47 76.02 76.42 76.93 76.68 76.39 75.76 76.02 Chi2 75.22 75.22 75.43 75.98 76.42 76.89 76.68 76.37 75.76 76.00 IG 75.65 75.26 75.58 76.05 76.42 76.76 76.98 76.39 75.74 76.09

Proposed 74.31 75.23 74.15 71.95 69.52 68.38 71.58 74.39 75.80 72.81

ตาราง 29 ผลการวเคราะห Paired-Sample t-test คาความระลกของขอมลชด STS ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-3.210 3.108 1.036 -5.599 -0.821 -3.098 8 0.015

Pair 2 Proposed-Chi2

-3.184 3.111 1.037 -5.575 -0.793 -3.071 8 0.015

Pair 3 Proposed-IG

-3.280 3.058 1.019 -5.631 -0.929 -3.218 8 0.012

93

จากตาราง 28 แสดงประสทธภาพคาระลกการจาแนกความคดเหนของชดขอมล STS ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน

1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 30% และ 40% พบวา วธการ Information Gain มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการทนาเสนอ ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการ Information Gain มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการทนาเสนอ วธการ Gini Index และวธการ Chi-Square ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% 60% และ 70% พบวา วธการ Gini Index มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการ Gini Index มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Information Gain วธการ Chi-Square และวธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการทนาเสนอ มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการ Information Gain ตามลาดบ

จากตาราง 29 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาระลกนอยกวาวธการอน อยางมนยสาคญท 0.05

ตาราง 30 คาความระลกของชดขอมล STS ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 67.23 68.45 67.64 66.85 66.37 66.72 66.82 67.97 68.78 67.43 Chi2 67.09 68.45 67.72 66.93 66.45 66.82 66.82 67.89 68.78 67.44 IG 66.73 67.60 67.07 66.49 66.06 66.01 66.28 67.87 68.84 66.99

Proposed 69.61 69.62 70.17 71.90 74.44 75.56 73.03 70.53 68.84 71.52

94

ตาราง 31 ผลการวเคราะห Paired-Sample t-test คาความระลกของขอมลชด STS ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

4.097 3.088 1.029 1.723 6.470 3.980 8 0.004

Pair 2 Proposed-Chi2

4.083 3.044 1.015 1.744 6.423 4.024 8 0.004

Pair 3 Proposed-IG

4.528 3.178 1.059 2.085 6.971 4.274 8 0.003

จากตาราง 30 แสดงประสทธภาพคาระลกการจาแนกความคดเหนของชดขอมล STS ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน

1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 20% 70% และ 80% พบวา วธการทนาเสนอ มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการ Information Gain ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% 40% 50% และ 60% พบวา วธการทนาเสนอ มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการ Information Gain ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการทนาเสนอ มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และวธการ Chi-Square ตามลาดบ

จากตาราง 31 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาระลกในคลาสเชงลบสงกวาวธการอน อยางมนยสาคญท 0.05

ตาราง 32 คาประสทธภาพโดยรวมของชดขอมล STS ในคลาสเชงบวก

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 72.47 72.78 72.71 72.85 72.97 73.29 73.11 73.30 73.20 72.97 Chi2 72.37 72.78 72.72 72.85 72.99 73.30 73.11 73.27 73.20 72.95 IG 72.55 72.55 72.62 72.80 72.88 72.96 73.12 73.27 73.21 72.88

Proposed 72.63 73.18 72.71 71.94 71.28 70.93 72.11 72.99 73.25 72.34

95

ตาราง 33 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของขอมลชด STS ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-0.629 0.934 0.311 -1.347 0.089 -2.020 8 0.078

Pair 2 Proposed-Chi2

-0.619 0.951 0.317 -1.350 0.112 -1.953 8 0.087

Pair 3 Proposed-IG

-0.549 0.882 0.294 -1.227 0.129 -1.867 8 0.099

จากตาราง 32 แสดงประสทธภาพความโดยรวมของการจาแนกความคดเหนของชดขอมล STS ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน

1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% และ 90% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และ วธการ Chi-Square ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการ Information Gain ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการ Chi-Square มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการทนาเสนอ และวธการ Information Gain ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% และ 80% พบวา วธการ Gini Index มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการทนาเสนอตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% และ 60% พบวา วธการ Chi-Square มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการทนาเสนอ ตามลาดบ

96

จากตาราง 33 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพโดยรวมในคลาสเชงบวกไมแตกตางจากวธการอน

ตาราง 34 คาประสทธภาพโดยรวมของชดขอมล STS ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 70.07 70.85 70.44 70.18 70.02 70.36 70.29 70.95 71.27 70.49 Chi2 69.95 70.84 70.48 70.22 70.07 70.42 70.29 70.89 71.27 70.49 IG 69.86 70.29 70.11 69.97 69.79 69.79 70.03 70.89 71.30 70.23

Proposed 71.27 71.62 71.59 71.91 72.65 72.94 72.50 71.92 71.32 71.97

ตาราง 35 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของขอมลชด STS ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

1.477 0.875 0.292 0.804 2.149 5.063 8 0.001

Pair 2 Proposed-Chi2

1.477 0.849 0.283 0.824 2.129 5.217 8 0.001

Pair 3 Proposed-IG

1.743 0.976 0.325 0.993 2.494 5.358 8 0.001

จากตาราง 34 แสดงประสทธภาพความโดยรวมของการจาแนกความคดเหนของชดขอมล STS ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน

1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 20% 30% 70% และ 80% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการ Information Gain ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% 50% และ 60% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการ Information Gain ตามลาดบ

97

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และ วธการ Chi-Square ตามลาดบ

จากตาราง 35 แสดงใหเหนวา ข นตอนวธการทนาเสนอมประสทธภาพโดยรวมในคลาสเชงลบ สงกวาวธการอน อยางมนยสาคญท 0.05

2) ผลการวดประสทธภาพการทดลองขอมลชด SemEval ขอมลชด SemEval เปนขอมลทรวบรวมจากเวบไซตทวตเตอร ซงถกรวบรวมไวในขอมลชด SemEval-2017 Task4A ในการทดลองผวจยไดทาการสมขอความคดเหน จานวน 4,000 ขอความ แบงเปนขอความคดเหนเชงบวก จานวน 2,000 ขอความ และขอความคดเหนเชงลบ จานวน 2,000 ขอความ รายละเอยดผลประสทธภาพแสดงตามลาดบ ดงน

ตาราง 36 คาความถกตองของชดขอมล SemEval

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 86.68 87.38 86.95 87.23 87.00 87.38 87.48 87.55 87.68 87.26 Chi2 86.68 87.38 86.95 87.23 87.00 87.38 87.50 87.55 87.68 87.26 IG 86.68 87.40 87.38 86.98 86.95 87.18 87.23 87.55 87.68 87.22

Proposed 87.18 87.10 87.38 87.33 87.50 87.33 87.63 87.50 87.68 87.40

ตาราง 37 ผลการวเคราะห Paired-Sample t-test คาความถกตองของขอมลชด SemEval

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

0.144 0.277 0.092 -0.068 0.357 1.565 8 0.156

Pair 2 Proposed-Chi2

0.142 0.277 0.092 -0.071 0.355 1.541 8 0.162

Pair 3 Proposed-IG

0.178 0.288 0.096 -0.044 0.399 1.849 8 0.102

จากตาราง 36 แสดงประสทธภาพความถกตองของการจาแนกความคดเหนของชดขอมล

SemEval มรายละเอยดผลการทดลอง ดงน

98

1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 40% และ 50% พบวา วธการทนาเสนอ มคาความถกตองสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการ Gini Index มคาความถกตองเทากน

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการ Information Gain มคาความถกตองสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% และ 80% พบวา วธการ Gini Index มคาความถกตองสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการ Gini Index มคาความถกตองสงทสด รองลงมาคอ วธการ Chi-Square วธการทนาเสนอ และวธการ Information Gain ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการทนาเสนอ มคาความถกตองสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการ Information Gain ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา ทกวธการมคาความถกตองเทากน จากตาราง 37 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพความถกตองไม

แตกตางจากวธการอน

ตาราง 38 คาความแมนย าของชดขอมล SemEval ในคลาสเชงบวก

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 87.17 88.24 87.65 88.34 88.41 88.58 88.90 88.70 88.47 88.27 Chi2 87.17 88.24 87.65 88.34 88.41 88.58 88.95 88.70 88.47 88.28 IG 87.62 88.29 88.05 88.10 88.41 88.60 88.58 88.70 88.47 88.31

Proposed 87.34 87.27 87.47 88.08 89.44 89.72 89.43 88.64 88.47 88.43

99

ตาราง 39 ผลการวเคราะห Paired-Sample t-test คาความแมนย าของชดขอมล SemEval ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

0.156 0.661 0.220 -0.353 0.664 0.706 8 0.500

Pair 2 Proposed-Chi2

0.150 0.658 0.219 -0.356 0.656 0.684 8 0.513

Pair 3 Proposed-IG

0.116 0.740 0.247 -0.453 0.684 0.469 8 0.652

จากตาราง 38 แสดงประสทธภาพความแมนยาของการจาแนกความคดเหนของชดขอมล

SemEval ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% และ 20% พบวา วธการ Information

Gain มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการทนาเสนอ วธการ Gini Index และวธการ Chi-Square ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการ Information Gain มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% พบวา วธการ Gini Index มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการ Information Gain ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และวธการ Chi-Square ซงมคาความแมนยาในคลาสเชงบวกเทากน

100

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการ Information Gain ซงมคาความแมนยาในคลาสเชงบวกเทากน

จากตาราง 39 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพแมนยาในคลาสเชงบวก ไมแตกตางจากวธการอน

ตาราง 40 คาความแมนย าของชดขอมล SemEval ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 86.14 86.52 86.24 86.16 85.70 86.23 86.14 86.48 86.94 86.28 Chi2 86.14 86.52 86.24 86.16 85.70 86.23 86.14 86.48 86.94 86.28 IG 85.76 86.54 86.71 85.92 85.61 85.87 85.97 86.48 86.94 86.20

Proposed 86.97 86.90 87.32 86.64 85.79 85.23 86.02 86.46 86.94 86.47

ตาราง 41 ผลการวเคราะห Paired-Sample t-test คาความแมนย าของชดขอมล SemEval ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

0.191 0.605 0.202 -0.274 0.656 0.948 8 0.371

Pair 2 Proposed-Chi2

0.191 0.605 0.202 -0.274 0.656 0.948 8 0.371

Pair 3 Proposed-IG

0.274 0.530 0.177 -0.133 0.682 1.552 8 0.159

จากตาราง 40 แสดงประสทธภาพความแมนยาของการจาแนกความคดเหนของชดขอมล

SemEval ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 40% และ 50% พบวา วธการทนาเสนอ

มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการ Information Gain ตามลาดบ

101

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% และ 30% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และวธการ Chi-Square ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการ Gini Index มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Gini Index มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการทนาเสนอ และวธการ Information Gain ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการ Gini Index วธการ Chi-Square และวธการ Information Gain มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการทนาเสนอ

จากตาราง 41 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพความแมนยาในคลาสเชงลบ ไมแตกตางจากวธการอน

ตาราง 42 คาความระลกของชดขอมล SemEval ในคลาสเชงบวก

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 85.94 86.23 86.00 85.79 85.22 85.82 85.64 86.06 86.67 85.93

Chi2 85.94 86.23 86.00 85.79 85.22 85.82 85.64 86.06 86.67 85.93

IG 85.43 86.22 86.50 85.55 85.12 85.37 85.48 86.06 86.67 85.82

Proposed 86.91 86.82 87.25 86.37 85.05 84.29 85.35 86.07 86.67 86.09

ตาราง 43 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล SemEval ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

0.157 0.823 0.274 -0.476 0.789 0.571 8 0.584

Pair 2 Proposed-Chi2

0.157 0.823 0.274 -0.476 0.789 0.571 8 0.584

Pair 3 Proposed-IG

0.264 0.737 0.246 -0.302 0.831 1.077 8 0.313

102

จากตาราง 42 แสดงประสทธภาพคาระลกของการจาแนกความคดเหนของชดขอมล

SemEval ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 20% และ 40% พบวา วธการทนาเสนอ

มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการ Information Gain ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการทนาเสนอ มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และวธการ Chi-Square ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% 60% และ 70% พบวา วธการ Gini Index มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการ Gini Index วธการ Chi-Square และวธการ Information Gain มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการทนาเสนอ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา ทกวธการมคาระลกในคลาสเชงบวกสงเทากน

จากตาราง 43 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพความระลกในคลาสเชงบวก ไมแตกตางจากวธการอน

ตาราง 44 คาความระลกของชดขอมล SemEval ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 87.41 88.45 87.89 88.74 88.91 88.98 89.27 88.94 88.60 88.58

Chi2 87.41 88.45 87.89 88.74 88.91 88.98 89.32 88.94 88.60 88.58

IG 87.97 88.50 88.24 88.48 88.90 89.00 88.91 88.94 88.60 88.61

Proposed 87.39 87.33 87.39 88.19 89.83 90.23 89.79 88.84 88.60 88.62

103

ตาราง 45 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล SemEval ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

0.044 0.748 0.249 -0.531 0.620 0.178 8 0.863

Pair 2 Proposed-Chi2

0.039 0.744 0.248 -0.533 0.611 0.157 8 0.879

Pair 3 Proposed-IG

0.006 0.842 0.281 -0.642 0.653 0.020 8 0.985

จากตาราง 44 แสดงประสทธภาพคาระลกของการจาแนกความคดเหนของชดขอมล

SemEval ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% และ 20% พบวา วธการ Information

Gain มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% และ 40% พบวา วธการ Gini Index และวธการ Chi-Square มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% พบวา วธการทนาเสนอ มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการ Information Gain ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการทนาเสนอ มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และวธการ Chi-Square ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการทนาเสนอ มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการ Information Gain ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวาวธการ Gini Index วธการ Chi-Square และวธการ Information Gain มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการทนาเสนอ

104

7. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา ท ง 4 วธการมคาระลกในคลาสเชงลบเทากน

จากตาราง 45 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาระลกในคลาสเชงลบไมแตกตางจากวธการอน

ตาราง 46 คาประสทธภาพโดยรวมของชดขอมล SemEval ในคลาสเชงบวก

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 86.55 87.22 86.82 87.04 86.78 87.18 87.24 87.36 87.56 87.08

Chi2 86.55 87.22 86.82 87.04 86.78 87.18 87.26 87.36 87.56 87.09

IG 86.51 87.24 87.27 86.81 86.73 86.95 87.00 87.36 87.56 87.05

Proposed 87.12 87.05 87.36 87.21 87.19 86.92 87.34 87.33 87.56 87.23

ตาราง 47 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของชดขอมล SemEval ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

0.148 0.301 0.100 -0.084 0.379 1.473 8 0.179

Pair 2 Proposed-Chi2

0.146 0.301 0.100 -0.086 0.377 1.449 8 0.185

Pair 3 Proposed-IG

0.183 0.274 0.091 -0.028 0.394 2.004 8 0.080

จากตาราง 46 แสดงประสทธภาพโดยรวมของการจาแนกความคดเหนของชดขอมล

SemEval ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 40% และ 50% พบวา วธการทนาเสนอ

มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการ Information Gain ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอตามลาดบ

105

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และวธการ Chi-Square ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการ Chi-Square และวธการ Gini Index มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการ Information Gain ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการ Chi-Square วธการ Gini Index และ วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการทนาเสนอ

7. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา ทกวธการมคาประสทธภาพโดยรวมในคลาสเชงบวกเทากน

จากตาราง 47 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพโดยรวมในคลาสเชงบวก ไมแตกตางจากวธการอน

ตาราง 48 คาประสทธภาพโดยรวมของชดขอมล SemEval ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 86.77 87.47 87.06 87.43 87.27 87.58 87.67 87.69 87.76 87.41

Chi2 86.77 87.47 87.06 87.43 87.27 87.58 87.70 87.69 87.76 87.42

IG 86.85 87.51 87.47 87.18 87.23 87.40 87.42 87.69 87.76 87.39

Proposed 87.18 87.12 87.35 87.41 87.76 87.66 87.86 87.64 87.76 87.53

106

ตาราง 49 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของชดขอมล SemEval ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

0.116 0.260 0.087 -0.084 0.315 1.334 8 0.219

Pair 2 Proposed-Chi2

0.112 0.259 0.086 -0.087 0.311 1.300 8 0.230

Pair 3 Proposed-IG

0.137 0.297 0.099 -0.091 0.365 1.381 8 0.205

จากตาราง 48 แสดงประสทธภาพโดยรวมของการจาแนกความคดเหนของชดขอมล

SemEval ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการทนาเสนอ มคา

ประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และวธการ Chi-Square ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการทนาเสนอ วธการ Gini Index และวธการ Chi-Square ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% พบวา วธการ Chi-Square และวธการ Gini Index มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการทนาเสนอ และวธการ Information Gain ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% และ 60% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการ Information Gain ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการ Information Gain ตามลาดบ

107

7. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการ Gini Index วธการ Chi-Square และวธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการทนาเสนอ

8. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา ทกวธการมคาประสทธภาพโดยรวมในคลาสเชงลบเทากน

จากตาราง 49 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพโดยรวมในคลาสเชงลบ ไมแตกตางจากวธการอน

3) ผลการวดประสทธภาพการทดลองขอมลชด SS-Twitter

ผลการวดประสทธภาพการทดลองขอมลชด SS-Twitter ประกอบดวย คาความถกตอง คาความแมนยาในคลาสเชงบวก คาความแมนยาในคลาสเชงลบ คาความระลกในคลาสเชงบวก คาความระลกในคลาสเชงลบ คาประสทธภาพโดยรวมในการจาแนกความคดเหนคลาสเชงบวก และคาประสทธภาพโดยรวมในคลาสเชงลบ แสดงผลประสทธภาพตามลาดบ ดงน

ตาราง 50 คาความถกตองของชดขอมล SS-Twitter

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 59.31 60.54 60.19 60.69 61.12 60.35 60.73 60.54 60.12 60.40

Chi2 59.23 60.23 60.23 60.42 61.08 60.38 60.58 60.58 60.12 60.32

IG 58.35 60.19 60.38 60.00 60.65 60.04 59.88 60.58 60.12 60.02

Proposed 60.92 62.00 61.77 61.62 61.27 61.35 60.85 60.96 60.12 61.21

ตาราง 51 ผลการวเคราะห Paired-Sample t-test คาความถกตองของชดขอมล SS-Twitter

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

0.808 0.654 0.218 0.305 1.311 3.703 8 0.006

Pair 2 Proposed-Chi2

0.890 0.695 0.232 0.356 1.424 3.841 8 0.005

Pair 3 Proposed-IG

1.186 0.788 0.263 0.579 1.792 4.511 8 0.002

108

จากตาราง 50 แสดงประสทธภาพความถกตองของการจาแนกความคดเหนของชดขอมล SS-Twitter มรายละเอยดผลการทดลอง ดงน

1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการทนาเสนอ มคาความถกตองสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และวธการ Chi-Square ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% 40% 50% และ 70% พบวา วธการทนาเสนอ มคาความถกตองสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการ Information Gain ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการทนาเสนอ มคาความถกตองสงทสด รองลงมาคอ วธการ Information Gain วธการ Chi-Square และ วธการ Gini Index ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการทนาเสนอ มคาความถกตองสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการ Information Gain ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการทนาเสนอ มคาความถกตองสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการ Gini Index ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา ทกวธการมคาความถกตองเทากน จากตาราง 51 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพความถกตองสงกวา

วธการอน อยางมนยสาคญท 0.05

ตาราง 52 คาความแมนย าของชดขอมล SS-Twitter ในคลาสเชงบวก

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 58.51 59.71 59.42 59.83 59.96 59.12 59.40 59.31 58.95 59.36

Chi2 58.45 59.35 59.43 59.53 59.89 59.14 59.31 59.35 58.95 59.27

IG 57.93 59.30 59.57 59.17 59.32 58.75 58.52 59.35 58.95 58.98

Proposed 60.49 61.41 61.66 63.14 63.90 63.16 61.16 60.19 58.95 61.56

109

ตาราง 53 ผลการวเคราะห Paired-Sample t-test คาความแมนย าของชดขอมล SS-Twitter ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

2.206 1.357 0.452 1.163 3.248 4.878 8 0.001

Pair 2 Proposed-Chi2

2.296 1.385 0.462 1.231 3.360 4.971 8 0.001

Pair 3 Proposed-IG

2.578 1.558 0.519 1.380 3.776 4.962 8 0.001

จากตาราง 52 แสดงประสทธภาพความแมนยาของการจาแนกความคดเหนของชดขอมล

SS-Twitter ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 20% 40% 50% และ 70% พบวา

วธการทนาเสนอ มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการ Information Gain ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Information Gain วธการ Chi-Square และ วธการ Gini Index ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการ Information Gain ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และ วธการ Gini Index ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา ทกวธการมคาความแมนยาในคลาสเชงบวกสงทสด

จากตาราง 53 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาความแมนยาในคลาสเชงบวกสงกวาวธการอน อยางมนยสาคญท 0.05

110

ตาราง 54 คาความแมนย าของชดขอมล SS-Twitter ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 62.13 62.60 62.88 64.20 64.61 63.09 63.16 62.67 62.05 63.04

Chi2 62.06 62.39 62.95 63.92 64.58 63.14 62.88 62.72 62.05 62.96

IG 61.62 62.94 64.06 64.04 64.90 63.25 62.72 62.72 62.05 63.14

Proposed 61.65 62.99 62.11 60.65 59.66 60.14 60.73 62.24 62.05 61.36

ตาราง 55 ผลการวเคราะห Paired-Sample t-test คาความแมนย าของชดขอมล SS-Twitter ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-1.686 1.847 0.616 -3.106 -0.266 -2.737 8 0.026

Pair 2 Proposed-Chi2

-1.608 1.828 0.609 -3.013 -0.203 -2.639 8 0.030

Pair 3 Proposed-IG

-1.787 1.867 0.622 -3.222 -0.351 -2.871 8 0.021

จากตาราง 54 แสดงประสทธภาพความแมนยาของการจาแนกความคดเหนของชดขอมล

SS-Twitter ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการ Gini Index มคาความ

แมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการทนาเสนอ และวธการ Information Gain ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และวธการ Chi-Square ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% และ 60% พบวา วธการ Information Gain มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการทนาเสนอ ตามลาดบ

111

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% พบวา วธการ Gini Index มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Chi-Square และวธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% พบวา วธการ Information Gain มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Gini Index มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

7. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการ Chi-Square และวธการ Information Gain มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index และวธการทนาเสนอ ตามลาดบ

8. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา ทกวธการมคาความแมนยาในคลาสเชงบวกเทากน

จากตาราง 55 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาความแมนยาในคลาสเชงบวกนอยกวาวธการอน อยางมนยสาคญท 0.05

ตาราง 56 คาความระลกของชดขอมล SS-Twitter ในคลาสเชงบวก

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 69.87 68.13 68.77 70.21 71.30 70.42 69.97 69.10 68.17 69.55

Chi2 69.80 68.21 68.92 70.13 71.22 70.41 69.58 69.10 68.17 69.50

IG 70.41 69.64 70.82 71.30 72.70 71.14 70.33 69.10 68.17 70.40

Proposed 64.21 65.84 63.36 57.17 53.13 55.66 60.72 66.23 68.17 61.61

112

ตาราง 57 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล SS-Twitter ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-7.939 6.237 2.079 -12.733 -3.145 -3.819 8 0.005

Pair 2 Proposed-Chi2

-7.894 6.189 2.063 -12.651 -3.137 -3.827 8 0.005

Pair 3 Proposed-IG

-8.791 6.479 2.160 -13.771 -3.811 -4.070 8 0.004

จากตาราง 56 แสดงประสทธภาพคาระลกของการจาแนกความคดเหนของชดขอมล SS-

Twitter ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 40% 50% 60% 70% และ 80% พบวา

วธการ Information Gain มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการทนาเสนอ ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% และ 30% พบวา วธการ Information Gain มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการ Chi-Square วธการ Gini Index และวธการ Information Gain มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา ทกวธการมคาระลกในคลาสเชงบวกเทากน

จากตาราง 57 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาระลกในคลาสเชงบวกนอยกวาวธการอน อยางมนยสาคญท 0.05

113

ตาราง 58 คาความระลกของชดขอมล SS-Twitter ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 49.36 53.38 52.23 51.89 51.55 50.71 51.77 52.22 52.25 51.71

Chi2 49.28 52.70 52.15 51.43 51.54 50.78 51.85 52.30 52.25 51.59

IG 47.08 51.32 50.71 49.50 49.27 49.43 49.81 52.30 52.25 50.19

Proposed 57.76 58.33 60.30 66.25 69.56 67.17 61.08 55.88 52.25 60.95

ตาราง 59 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล SS-Twitter ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

9.247 6.044 2.015 4.601 13.893 4.590 8 0.002

Pair 2 Proposed-Chi2

9.367 6.035 2.012 4.727 14.006 4.656 8 0.002

Pair 3 Proposed-IG

10.768 6.694 2.231 5.623 15.913 4.826 8 0.001

จากตาราง 58 แสดงประสทธภาพคาระลกของการจาแนกความคดเหนของชดขอมล SS-

Twitter ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการ Gini Index มคาระลกใน

คลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการ Information Gain มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการ Information Gain มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

114

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% 50% และ 60% พบวา วธการ Information Gain มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Gini Index มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการ Chi-Square และ วธการ Information Gain มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

7. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา ทกวธการมคาระลกในคลาสเชงลบเทากน

จากตาราง 59 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาระลกในคลาสเชงลบสงกวาวธการอน อยางมนยสาคญท 0.05

ตาราง 60 คาประสทธภาพโดยรวมของชดขอมล SS-Twitter ในคลาสเชงบวก

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 63.69 63.64 63.75 64.60 65.14 64.28 64.25 63.83 63.23 64.05

Chi2 63.62 63.47 63.82 64.39 65.07 64.28 64.03 63.85 63.23 63.97

IG 63.57 64.06 64.71 64.67 65.33 64.36 63.88 63.85 63.23 64.18

Proposed 62.29 63.55 62.50 60.01 58.02 59.17 60.94 63.07 63.23 61.42

ตาราง 61 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวม ของชดขอมล SS-Twitter ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-2.626 2.522 0.841 -4.564 -0.687 -3.123 8 0.014

Pair 2 Proposed-Chi2

-2.553 2.500 0.833 -4.475 -0.632 -3.064 8 0.015

Pair 3 Proposed-IG

-2.764 2.484 0.828 -4.673 -0.855 -3.339 8 0.010

115

จากตาราง 60 แสดงประสทธภาพโดยรวมของการจาแนกความคดเหนของชดขอมล SS-Twitter ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน

1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการ Gini Index มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% 50% และ 60% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Gini Index มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการ Chi-Square และวธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

7. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา ทกวธการมคาประสทธภาพโดยรวมในคลาสเชงบวกเทากน

จากตาราง 61 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพโดยรวมในคลาสเชงบวกนอยกวาวธการอน อยางมนยสาคญท 0.05

116

ตาราง 62 คาประสทธภาพโดยรวมของชดขอมล SS-Twitter ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 55.01 57.63 57.06 57.40 57.35 56.23 56.90 56.97 56.73 56.81

Chi2 54.94 57.14 57.04 57.00 57.33 56.29 56.83 57.04 56.73 56.70

IG 53.38 56.54 56.61 55.84 56.02 55.49 55.52 57.04 56.73 55.91

Proposed 59.64 60.57 61.19 63.33 64.23 63.46 60.91 58.89 56.73 60.99

ตาราง 63 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวม ของชดขอมล SS-Twitter ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

4.186 2.345 0.782 2.383 5.988 5.354 8 0.001

Pair 2 Proposed-Chi2

4.290 2.361 0.787 2.475 6.105 5.451 8 0.001

Pair 3 Proposed-IG

5.087 2.807 0.936 2.929 7.244 5.436 8 0.001

จากตาราง 62 แสดงประสทธภาพโดยรวมของการจาแนกความคดเหนของชดขอมล SS-

Twitter ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 20% 30% 40 50% และ 70% พบวา

วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการ Information Gain ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการ Information Gain ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการ Gini Index ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา ทกวธการมคาประสทธภาพโดยรวมในคลาสเชงลบเทากน

117

จากตาราง 63 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพโดยรวมในคลาสเชงลบ สงกวาวธการอน อยางมนยสาคญท 0.05

4) ผลการวดประสทธภาพการทดลองขอมลชด HCR ขอมลชด Health Care Reform (HCR) เปนขอมลทรวบรวมจากเวบไซตทวตเตอร เมอเดอนมนาคม ป ค.ศ. 2010 ในการทดลอง ผวจยทาการสมขอความคดเหน จานวน 1,000 ขอความ แบงเปนขอความคดเหนเชงบวก จานวน 500 ขอความ และ ขอความคดเหนเชงลบ จานวน 500 ขอความ แสดงผลประสทธภาพตามลาดบ ดงน

ตาราง 64 คาความถกตองของชดขอมล HCR

วธการ จานวนคณลกษณะทสาคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 75.80 78.40 80.10 80.40 81.20 81.70 82.90 81.60 81.90 80.44 Chi2 76.00 78.50 80.30 80.50 81.20 81.60 82.70 81.70 81.90 80.49 IG 76.50 77.90 79.50 81.20 81.10 81.80 82.20 81.50 81.90 80.40

Proposed 77.50 78.10 79.00 80.10 80.80 82.80 82.20 82.90 82.20 80.62

ตาราง 65 ผลการวเคราะห Paired-Sample t-test คาความถกตองของชดขอมล HCR

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

0.178 0.977 0.326 -0.573 0.929 0.546 8 0.600

Pair 2 Proposed-Chi2

0.133 0.967 0.322 -0.610 0.877 0.414 8 0.690

Pair 3 Proposed-IG

0.222 0.806 0.269 -0.397 0.842 0.827 8 0.432

จากตาราง 64 แสดงประสทธภาพความถกตองของการจาแนกความคดเหนของชดขอมล

HCR มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการทนาเสนอ มคาความถกตอง

สงทสด รองลงมาคอ วธการ Information Gain วธการ Chi-Square และวธการ Gini Index ตามลาดบ

118

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการ Chi-Square มคาความถกตองสงทสด รองลงมาคอ วธการ Gini Index วธการทนาเสนอ และ วธการ Information Gain ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการ Chi-Square มคาความถกตองสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% พบวา วธการ Information Gain มคาความถกตองสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% พบวา วธการ Gini Index และ วธการ Chi-Square มคาความถกตองสงทสด รองลงมาคอ วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการทนาเสนอ มคาความถกตองสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และ วธการ Chi-Square ตามลาดบ

7. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Gini Index มคาความถกตองสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

8. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการทนาเสนอ มคาความถกตองสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการ Information Gain ตามลาดบ

9. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการทนาเสนอ มคาความถกตองสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการ Information Gain ซงมคาเทากน

จากตาราง 65 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพความถกตอง ไมแตกตางกบวธการอน

119

ตาราง 66 คาความแมนย าของชดขอมล HCR ในคลาสเชงบวก

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 77.09 79.60 80.54 79.88 80.24 80.22 81.65 79.85 80.06 79.90

Chi2 77.55 79.83 80.80 79.90 80.30 80.18 81.68 79.98 80.06 80.03

IG 78.55 79.20 80.47 80.63 79.67 80.16 80.62 79.71 80.06 79.90

Proposed 77.17 77.74 79.24 79.62 80.45 83.47 81.99 82.23 80.78 80.30

ตาราง 67 ผลการวเคราะห Paired-Sample t-test คาความแมนย าของชดขอมล HCR ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

0.396 1.609 0.536 -0.842 1.633 0.737 8 0.482

Pair 2 Proposed-Chi2

0.268 1.692 0.564 -1.033 1.568 0.475 8 0.648

Pair 3 Proposed-IG

0.402 1.783 0.594 -0.968 1.772 0.677 8 0.518

จากตาราง 66 แสดงประสทธภาพความแมนยาของการจาแนกความคดเหนของชดขอมล

HCR ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการ Information Gain มคา

ความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการทนาเสนอ และวธการ Gini Index ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% และ 30% พบวา วธการ Chi-Square มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% พบวา วธการ Information Gain มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

120

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% 70% และ 80% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการ Information Gain ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการ Information Gain ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการ Information Gain ซงมคาเทากน

จากตาราง 68 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาความแมนยาในคลาสเชงบวก ไมแตกตางกบวธการอน

ตาราง 68 คาความแมนย าของชดขอมล HCR ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 76.41 78.24 80.67 81.51 82.89 84.00 84.62 83.66 84.04 81.78

Chi2 76.45 78.21 80.71 81.64 82.58 83.84 84.05 83.69 84.04 81.69

IG 76.58 77.91 79.47 82.53 83.42 84.27 84.40 83.65 84.04 81.81

Proposed 78.28 79.17 79.16 80.79 81.25 82.31 82.51 83.61 83.84 81.21

ตาราง 69 ผลการวเคราะห Paired-Sample t-test คาความแมนย าของชดขอมล HCR ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-0.569 1.336 0.445 -1.596 0.458 -1.277 8 0.237

Pair 2 Proposed-Chi2

-0.477 1.219 0.406 -1.413 0.460 -1.174 8 0.274

Pair 3 Proposed-IG

-0.594 1.440 0.480 -1.701 0.512 -1.239 8 0.251

121

จากตาราง 68 แสดงประสทธภาพความแมนยาของการจาแนกความคดเหนของชดขอมล HCR ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน

1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Chi-Square และวธการ Gini Index ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการ Information Gain ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการ Chi-Square มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% พบวา วธการ Information Gain มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% และ 60% พบวา วธการ Information Gain มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Gini Index มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

8. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการ Chi-Square มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

9. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการ Gini Index วธการ Chi-Square และวธการ Information Gain มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการทนาเสนอ

จากตาราง 69 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาความแมนยาในคลาสเชงลบ ไมแตกตางกบวธการอน

122

ตาราง 70 คาความระลกของชดขอมล HCR ในคลาสเชงบวก

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 75.62 77.52 80.68 82.28 83.89 85.06 85.52 85.20 85.63 82.38

Chi2 75.45 77.34 80.68 82.46 83.65 84.88 84.94 85.20 85.63 82.25

IG 75.44 77.16 79.18 82.96 84.40 85.12 85.56 85.20 85.63 82.29

Proposed 78.60 79.93 79.26 81.52 82.05 82.41 83.25 84.43 85.23 81.85

ตาราง 71 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล HCR ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-0.524 1.972 0.657 -2.041 0.992 -0.798 8 0.448

Pair 2 Proposed-Chi2

-0.394 1.949 0.650 -1.893 1.104 -0.607 8 0.561

Pair 3 Proposed-IG

-0.441 2.149 0.716 -2.093 1.211 -0.616 8 0.555

จากตาราง 70 แสดงประสทธภาพคาระลกของการจาแนกความคดเหนของชดขอมล HCR

ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% และ 20% พบวา วธการทนาเสนอ มคา

ระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการ Information Gain ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการ Gini Index และ วธการ Chi-Square มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการทนาเสนอ และ วธการ Information Gain ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% พบวา วธการ Information Gain มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการทนาเสนอ ตามลาดบ

123

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% 60% และ 70% พบวา วธการ Information Gain มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% และ 90% พบวา วธการ Chi-Square วธการ Gini Index และวธการ Information Gain มคาระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการทนาเสนอ

จากตาราง 71 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาระลกในคลาสเชงบวก ไมแตกตางกบวธการอน

ตาราง 72 คาความระลกของชดขอมล HCR ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 77.20 79.75 79.68 78.73 78.74 78.61 80.37 77.91 78.01 78.78

Chi2 77.91 80.22 80.06 78.73 78.93 78.61 80.56 78.10 78.01 79.01

IG 78.85 79.21 80.15 79.54 78.06 78.63 78.94 77.72 78.01 78.79

Proposed 76.80 76.88 79.29 78.87 79.53 83.16 81.17 81.51 79.04 79.58

ตาราง 73 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล HCR ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

0.806 2.200 0.733 -0.885 2.497 1.099 8 0.304

Pair 2 Proposed-Chi2

0.569 2.351 0.784 -1.238 2.376 0.726 8 0.489

Pair 3 Proposed-IG

0.793 2.455 0.818 -1.094 2.681 0.969 8 0.361

จากตาราง 72 แสดงประสทธภาพคาระลกของการจาแนกความคดเหนของชดขอมล HCR

ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน

124

1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% และ 30% พบวา วธการ Information Gain มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการ Chi-Square มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% พบวา วธการ Information Gain มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการทนาเสนอ วธการ Gini Index และ วธการ Chi-Square ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% 70% และ 80% พบวา วธการทนาเสนอ มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการ Information Gain ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการทนาเสนอ มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และ วธการ Chi-Square ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการทนาเสนอ มคาระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการ Information Gain ตามลาดบ

จากตาราง 73 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาระลกในคลาสเชงลบ ไมแตกตางกบวธการอน

ตาราง 74 คาประสทธภาพโดยรวมของชดขอมล HCR ในคลาสเชงบวก

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 76.35 78.55 80.61 81.06 82.02 82.57 83.54 82.44 82.75 81.10

Chi2 76.48 78.56 80.74 81.16 81.94 82.46 83.28 82.51 82.75 81.10

IG 76.96 78.17 79.82 81.78 81.97 82.57 83.02 82.36 82.75 81.04

Proposed 77.88 78.82 79.25 80.56 81.24 82.94 82.62 83.32 82.95 81.06

125

ตาราง 75 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของชดขอมล HCR ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-0.034 0.929 0.310 -0.749 0.680 -

0.111 8 0.914

Pair 2 Proposed-Chi2

-0.033 0.898 0.299 -0.724 0.657 -

0.111 8 0.914

Pair 3 Proposed-IG

0.020 0.780 0.260 -0.580 0.620 0.077 8 0.941

จากตาราง 74 แสดงประสทธภาพโดยรวมของการจาแนกความคดเหนของชดขอมล HCR

ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการทนาเสนอ มคา

ประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Information Gain วธการ Chi-Square และวธการ Gini Index ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการ Information Gain ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% และ 80% พบวา วธการ Chi-Square มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% พบวา วธการ Gini Index มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

126

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และ วธการ Chi-Square ตามลาดบ

7. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Gini Index มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และ วธการทนาเสนอตามลาดบ

8. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการ Information Gain ซงมคาเทากน

จากตาราง 75 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพโดยรวมในคลาสเชงบวก ไมแตกตางกบวธการอน

ตาราง 76 คาประสทธภาพโดยรวมของชดขอมล HCR ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 76.80 78.99 80.17 80.10 80.76 81.22 82.44 80.68 80.91 80.23

Chi2 77.17 79.20 80.38 80.16 80.71 81.14 82.27 80.80 80.91 80.31

IG 77.70 78.55 79.80 81.01 80.65 81.35 81.58 80.58 80.91 80.24

Proposed 77.54 78.01 79.22 79.82 80.38 82.73 81.83 82.55 81.37 80.38

ตาราง 77 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของชดขอมล HCR ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

0.153 1.048 0.349 -0.652 0.959 0.439 8 0.672

Pair 2 Proposed-Chi2

0.079 1.064 0.355 -0.739 0.897 0.222 8 0.830

Pair 3 Proposed-IG

0.147 1.001 0.334 -0.622 0.916 0.440 8 0.672

127

จากตาราง 76 แสดงประสทธภาพโดยรวมของการจาแนกความคดเหนของชดขอมล HCR ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน

1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการทนาเสนอ วธการ Chi-Square และวธการ Gini Index ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% และ 30% พบวา วธการ Chi-Square มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% พบวา วธการ Gini Index มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และวธการ Chi-Square ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Gini Index มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการทนาเสนอ และ วธการ Information Gain ตามลาดบ

7. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการ Information Gain ตามลาดบ

8. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการ Information Gain ซงมคาเทากน

จากตาราง 77 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพโดยรวมในคลาสเชงลบ ไมแตกตางกบวธการอน

128

5) ผลการวดประสทธภาพการทดลองขอมลชด Sanders ขอมลชด Sander Twitter Dataset (Sander) เปนขอมลทรวบรวมจากเวบไซตทวตเตอร ในการทดลองผวจยทาการสมขอความคดเหน จานวน 1,000 ขอความ แบงเปนขอความคดเหนเชงบวก จานวน 500 ขอความ ขอความคดเหนเชงลบ จานวน 500 ขอความ แสดงผลประสทธภาพตามลาดบ ดงน

ตาราง 78 คาความถกตองของชดขอมล Sanders

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 79.20 83.80 85.20 86.50 88.30 87.60 89.30 90.40 89.80 86.68

Chi2 79.30 83.80 85.20 86.90 88.30 87.80 89.60 90.50 89.80 86.80

IG 79.30 83.70 85.50 87.00 88.40 88.70 89.40 90.40 89.80 86.91

Proposed 79.80 82.20 84.20 86.40 87.00 87.10 87.60 88.50 89.80 85.84

ตาราง 79 ผลการวเคราะห Paired-Sample t-test คาความถกตองของชดขอมล Sanders

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-0.833 0.875 0.292 -1.506 -0.161 -2.858 8 0.021

Pair 2 Proposed-Chi2

-0.956 0.868 0.289 -1.622 -0.289 -3.304 8 0.011

Pair 3 Proposed-IG

-1.067 0.843 0.281 -1.714 -0.419 -3.798 8 0.005

จากตาราง 78 แสดงประสทธภาพความถกตองของการจาแนกความคดเหนของชดขอมล

Sander มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการทนาเสนอ มคาความถกตอง

สงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และวธการ Gini Index ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการ Gini Index มคาความถกตองสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

129

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% และ 50% พบวา วธการ Information Gain มคาความถกตองสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40 และ 60% พบวา วธการ Information Gain มคาความถกตองสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Chi-Square มคาความถกตองสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการ Chi-Square วธการ Gini Index มคาความถกตองสงทสด รองลงมาคอ วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

7. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา ทกวธการมคาความถกตองเทากน จากตาราง 79 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาความถกตองนอยกวาวธการอน

อยางมนยสาคญท 0.05

ตาราง 80 คาความแมนย าของชดขอมล Sanders ในคลาสเชงบวก

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 79.12 83.71 85.81 86.40 87.81 86.94 87.92 89.68 88.93 86.26

Chi2 79.30 83.86 85.81 86.77 87.81 86.98 87.99 89.87 88.93 86.37

IG 79.63 83.49 85.88 86.94 88.03 87.82 87.90 90.18 88.93 86.53

Proposed 79.53 82.43 83.58 86.01 86.26 85.65 87.01 87.64 88.83 85.22

130

ตาราง 81 ผลการวเคราะห Paired-Sample t-test คาความแมนย าของชดขอมล Sanders ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-1.042 0.882 0.294 -1.720 -0.364 -3.545 8 0.008

Pair 2 Proposed-Chi2

-1.153 0.851 0.284 -1.807 -0.499 -4.067 8 0.004

Pair 3 Proposed-IG

-1.318 0.919 0.306 -2.024 -0.611 -4.302 8 0.003

จากตาราง 80 แสดงประสทธภาพความแมนยาของการจาแนกความคดเหนของชดขอมล

Sander ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการ Information Gain มคา

ความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการทนาเสนอ วธการ Chi-Square และวธการ Gini Index ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% และ 70% พบวา วธการ Chi-Square มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% และ 50% พบวา วธการ Information Gain มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการทนาเสนอ ตามลาดบ 4. เมอเลอกคณลกษณะทสาคญทสดจานวน 400% 60% และ 80% พบวา วธการ Information Gain มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Squareวธการ Gini Index และวธการทนาเสนอตามลาดบ 5. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการ Gini Index วธการ Information Gain และวธการ Chi-Square มคาความแมนยาในคลาสเชงบวกสงทสด รองลงมาคอ วธการทนาเสนอ

จากตาราง 81 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาความแมนยาในคลาสเชงบวกนอยกวาวธการอน อยางมนยสาคญท 0.05

131

ตาราง 82 คาความแมนย าของชดขอมล Sanders ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 80.50 84.20 84.62 86.92 88.86 88.43 90.82 91.37 90.88 87.40 Chi2 80.55 84.08 84.62 87.28 88.86 88.78 91.43 91.40 90.88 87.54 IG 80.40 84.38 85.26 87.43 88.71 89.58 91.08 90.90 90.88 87.62

Proposed 80.36 82.10 84.65 86.72 87.80 88.61 88.26 89.43 90.90 86.54

ตาราง 83 ผลการวเคราะห Paired-Sample t-test คาความแมนย าของชดขอมล Sanders ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-0.863 1.074 0.358 -1.689 -0.037 -2.410 8 0.042

Pair 2 Proposed-Chi2

-1.006 1.132 0.377 -1.876 -0.135 -2.665 8 0.029

Pair 3 Proposed-IG

-1.088 0.956 0.319 -1.823 -0.353 -3.414 8 0.009

จากตาราง 82 แสดงประสทธภาพความแมนยาของการจาแนกความคดเหนของชดขอมล

Sander ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% และ 80% พบวา วธการ Chi-Square ม

คาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการ Information Gain มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการ Information Gain มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการทนาเสนอ วธการ Gini Index และ วธการ Chi-Square ตามลาดบ

132

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% พบวา วธการ Information Gain มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% พบวา วธการ Gini Index และ วธการ Chi-Square มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 60% พบวา วธการ Information Gain มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการทนาเสนอ และ วธการ Gini Index ตามลาดบ

7. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Chi-Square มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

8. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการทนาเสนอ มคาความแมนยาในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และ วธการ Chi-Square ซงมคาเทากน

จากตาราง 83 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาความแมนยาในคลาสเชงลบ นอยกวาวธการอน อยางมนยสาคญท 0.05

ตาราง 84 คาความระลกของชดขอมล Sanders ในคลาสเชงบวก

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 80.89 84.24 84.25 86.64 89.15 88.80 91.47 91.84 91.46 87.64

Chi2 80.89 84.05 84.25 87.06 89.15 89.18 92.04 91.84 91.46 87.77

IG 80.60 84.52 85.16 87.31 88.94 89.97 91.59 91.12 91.46 87.85

Proposed 80.54 81.77 84.78 86.90 88.10 89.14 88.46 89.62 91.38 86.74

133

ตาราง 85 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล Sanders ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-0.894 1.350 0.450 -1.932 0.143 -1.987 8 0.082

Pair 2 Proposed-Chi2

-1.026 1.370 0.457 -2.079 0.028 -2.246 8 0.055

Pair 3 Proposed-IG

-1.109 1.132 0.377 -1.979 -0.238 -2.938 8 0.019

จากตาราง 84 แสดงประสทธภาพคาความระลกของการจาแนกความคดเหนของชดขอมล

Sander ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% 50% และ 80% พบวา วธการ Chi-

Square และวธการ Gini Index มคาความระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการ Information Gain มคาความระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการ Information Gain มคาความระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการทนาเสนอ วธการ Gini Index และวธการ Chi-Square ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% และ 60% พบวา วธการ Information Gain มคาความระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการทนาเสนอ และวธการ Gini Index ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Chi-Square มคาความระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

134

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Information Gain วธการ Gini Index และ วธการ Chi-Square มคาความระลกในคลาสเชงบวกสงทสด รองลงมาคอ วธการทนาเสนอ

จากตาราง 85 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาความระลกในคลาสเชงบวก นอยกวาวธการอน อยางมนยสาคญท 0.05

ตาราง 86 คาความระลกของชดขอมล Sanders ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 78.60 83.87 86.23 86.49 87.54 86.68 87.43 89.06 88.26 86.02

Chi2 78.84 84.08 86.23 86.89 87.54 86.68 87.43 89.26 88.26 86.13

IG 79.33 83.54 86.06 86.93 88.00 87.68 87.47 89.65 88.26 86.32

Proposed 79.31 82.62 83.62 85.99 86.04 85.32 86.80 87.36 88.31 85.04

ตาราง 87 ผลการวเคราะห Paired-Sample t-test คาความระลกของชดขอมล Sanders ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-0.977 0.996 0.332 -1.742 -0.211 -2.942 8 0.019

Pair 2 Proposed-Chi2

-1.093 0.957 0.319 -1.829 -0.358 -3.428 8 0.009

Pair 3 Proposed-IG

-1.283 0.998 0.333 -2.050 -0.516 -3.858 8 0.005

จากตาราง 86 แสดงประสทธภาพคาความระลกของการจาแนกความคดเหนของชดขอมล

Sander ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการ Information Gain มคา

ความระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการทนาเสนอ วธการ Chi-Square และวธการ Gini Index ตามลาดบ

135

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% และ 30% พบวา วธการ Chi-Square มคาความระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% พบวา วธการ Gini Index และ วธการ Chi-Square มคาความระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% และ 90% พบวา วธการ Information Gain มคาความระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 50% 60% และ 70% พบวา วธการ Information Gain มคาความระลกในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

จากตาราง 87 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาความระลกในคลาสเชงลบ นอยกวาวธการอน อยางมนยสาคญท 0.05

ตาราง 88 คาประสทธภาพโดยรวมของชดขอมล Sanders ในคลาสเชงบวก

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 80.00 83.97 85.02 86.52 88.47 87.86 89.66 90.74 90.18 86.94

Chi2 80.09 83.95 85.02 86.92 88.47 88.07 89.97 90.84 90.18 87.06

IG 80.11 84.00 85.52 87.12 88.48 88.88 89.71 90.65 90.18 87.18

Proposed 80.03 82.10 84.18 86.46 87.17 87.36 87.73 88.62 90.09 85.97

ตาราง 89 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของชดขอมล Sanders ในคลาสเชงบวก

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-0.964 0.866 0.289 -1.630 -0.299 -3.340 8 0.010

Pair 2 Proposed-Chi2

-1.086 0.858 0.286 -1.745 -0.426 -3.797 8 0.005

Pair 3 Proposed-IG

-1.212 0.766 0.255 -1.801 -0.623 -4.746 8 0.001

136

จากตาราง 88 แสดงประสทธภาพโดยรวมของการจาแนกความคดเหนของชดขอมล Sander

ในคลาสเชงบวก มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการ Information Gain มคา

ประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการทนาเสนอ และวธการ Gini Index ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% 30% และ 50% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และ วธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% และ 60% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% พบวา วธการ Chi-Square มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 80% พบวา วธการ Chi-Square มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการ Gini Index มคาประสทธภาพโดยรวมในคลาสเชงบวกสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และ วธการทนาเสนอ ตามลาดบ

จากตาราง 89 แสดงใหเหนวา ข นตอนวธการทนาเสนอมคาประสทธภาพโดยรวมนอยกวาวธการอน อยางมนยสาคญท 0.05

ตาราง 90 คาประสทธภาพโดยรวมของชดขอมล Sanders ในคลาสเชงลบ

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 79.54 84.03 85.42 86.70 88.19 87.55 89.10 90.20 89.55 86.70

Chi2 79.69 84.08 85.42 87.08 88.19 87.72 89.39 90.31 89.55 86.83

IG 79.86 83.96 85.66 87.18 88.35 88.62 89.24 90.27 89.55 86.97

Proposed 79.83 82.36 84.13 86.35 86.91 86.93 87.52 88.39 89.59 85.78

137

ตาราง 91 ผลการวเคราะห Paired-Sample t-test คาประสทธภาพโดยรวมของชดขอมล Sanders ในคลาสเชงลบ

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI

-0.919 0.779 0.260 -1.518 -0.320 -3.538 8 0.008

Pair 2 Proposed-Chi2

-1.047 0.772 0.257 -1.640 -0.454 -4.070 8 0.004

Pair 3 Proposed-IG

-1.187 0.737 0.246 -1.753 -0.620 -4.833 8 0.001

จากตาราง 90 แสดงประสทธภาพโดยรวมของการจาแนกความคดเหนของชดขอมล Sander

ในคลาสเชงลบ มรายละเอยดผลการทดลอง ดงน 1. เมอเลอกคณลกษณะทสาคญทสดจานวน 10% พบวา วธการ Information Gain มคา

ประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการทนาเสนอ วธการ Chi-Square และวธการ Gini Index ตามลาดบ

2. เมอเลอกคณลกษณะทสาคญทสดจานวน 20% พบวา วธการ Chi-Square มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Information Gain และวธการทนาเสนอ ตามลาดบ

3. เมอเลอกคณลกษณะทสาคญทสดจานวน 30% และ 50% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Gini Index วธการ Chi-Square และวธการทนาเสนอ ตามลาดบ

4. เมอเลอกคณลกษณะทสาคญทสดจานวน 40% และ 60% พบวา วธการ Information Gain มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Gini Index และวธการทนาเสนอ ตามลาดบ

5. เมอเลอกคณลกษณะทสาคญทสดจานวน 70% และ 80% พบวา วธการ Chi-Square มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Information Gain วธการ Gini Index และ วธการทนาเสนอ ตามลาดบ

6. เมอเลอกคณลกษณะทสาคญทสดจานวน 90% พบวา วธการทนาเสนอ มคาประสทธภาพโดยรวมในคลาสเชงลบสงทสด รองลงมาคอ วธการ Chi-Square วธการ Information Gain และ วธการ Gini Index ซงมคาเทากน

138

สรปผลประสทธภาพของการจาแนกความคดเหนโดยภาพรวม พบวา วธการทนาเสนอม

ประสทธภาพสงกวาวธการอน เมอทดลองกบขอมลขนาดใหญทมคณลกษณะเปนจานวนมาก ซงจากการทดลองกบขอมลท ง 5 ชด พบวา วธการทนาเสนอมประสทธภาพดทสดเมอทดลองกบขอมลชด Stadford Twitter Sentiment Data (STS) ขนาด 10,000 ขอความ ขอมลชด SemEval-2017 Task4A Dataset (SemEval) ขนาด 4,000 ขอความ ขอมลชด Sentiment Strength Twitter Dataset (SS-Tweet) ขนาด 2,600 ขอความ สวนการทดสอบกบขอมลขนาดเลก พบวา วธการทนาเสนอมประสทธภาพการจาแนกสงทสด เมอเลอกคณลกษณะทสาคญทสดจานวน 10% ท งน จากการทดสอบการจดลาดบของคณลกษณะพบวา วธการทนาเสนอมความคลายคลงกบการจดลาดบคณลกษณะดวยวธการ Information Gain และ วธการ Chi Square มขอแตกตางกน คอ วธการทนาเสนอจะใหความสาคญกบคณลกษณะทมคาความถสงมากกวา จากการพจารณาขอมลเวกเตอร พบวา มคณลกษณะทเกดข นในเอกสารเปนจานวนมากกวา 20 คร ง คดเปนรอยละ 3 การจดลาดบคณลกษณะเหลาน ดวยวธการทนาเสนอความแตกตางจากวธการอน เนองจากวธการทนาเสนอพจารณาคาสนบสนนหรอความถของการปรากฏคณลกษณะรวมกบคาความเชอมนของคณลกษณะ

4.3.2 ผลการวดประสทธภาพดานเวลา

ผวจยใชหนวยวดระยะเวลาเปนวนาท การวดเรมต งแตกระบวนการคานวณคาน าหนกของคณลกษณะ ระยะเวลาในการจดลาดบคณลกษณะ จนถงระยะเวลาในการเลอกคณลกษณะ ผลการวดประสทธภาพดานเวลาแสดงการเปรยบเทยบระยะเวลาทใชแตละวธการของแตละชดขอมล ดงตาราง 92

ตาราง 92 ประสทธภาพดานเวลาทใชในการคดเลอกคณลกษณะ ขอมลชด STS

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 2.475 2.752 2.986 3.232 3.479 3.697 3.939 4.187 4.423 3.149

Chi2 1.948 2.233 2.600 2.893 3.219 3.573 3.826 4.152 4.461 2.923

IG 2.691 2.929 3.257 3.531 3.868 4.148 4.472 4.769 5.131 3.512

Proposed 1.834 2.158 2.504 2.811 3.149 3.438 3.771 4.069 4.379 2.844

139

ตาราง 93 ผลการวเคราะห Paired-Sample t-test ประสทธภาพดานเวลาของชดขอมล STS

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI -0.340 0.211 0.070 -0.501 -0.178 -4.837 8 0.001

Pair 2 Proposed-Chi2 -0.088 0.024 0.008 -0.107 -0.069 -10.873 8 0.000

Pair 3 Proposed-IG -0.743 0.050 0.017 -0.781 -0.704 -44.860 8 0.000

จากตาราง 92 แสดงประสทธภาพดานเวลา เมอทดสอบกบชดขอมล Stadford Twitter Sentiment Data (STS) พบวา วธการทนาเสนอใชระยะเวลาในการคดเลอกคณลกษณะนอยทสด และเมอพจารณาผลการวเคราะห Paired-Sample t-test ในตาราง 93 แสดงใหเหนวา วธการทนาเสนอมประสทธภาพดานเวลาสงกวาวธการอน อยางมนยสาคญท 0.05

ตาราง 94 ประสทธภาพดานเวลาทใชในการคดเลอกคณลกษณะ ขอมลชด SemEval

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 0.733 0.785 0.834 0.874 0.914 0.953 0.992 1.028 1.088 0.911

Chi2 0.681 0.703 0.750 0.785 0.831 0.863 0.904 0.948 0.988 0.828

IG 0.781 0.788 0.831 0.875 0.912 0.951 0.988 1.028 1.080 0.915

Proposed 0.558 0.558 0.606 0.645 0.684 0.723 0.763 0.804 0.845 0.687

ตาราง 95 ผลการวเคราะห Paired-Sample t-test ประสทธภาพดานเวลาของชดขอมล SemEval

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval

Of the Difference

Lower Upper

Pair 1 Proposed-GINI -0.224 0.019 0.006 -0.239 -0.209 -35.528 8 0.000

Pair 2 Proposed-Chi2 -0.141 0.007 0.002 -0.146 -0.135 -60.308 8 0.000

Pair 3 Proposed-IG -0.227 0.004 0.001 -0.231 -0.224 -170.890 8 0.000

140

จากตาราง 94 แสดงประสทธภาพดานเวลา เมอทดสอบกบชดขอมล SemEval พบวา วธการทนาเสนอใชระยะเวลาในการคดเลอกคณลกษณะนอยทสด และเมอพจารณาผลการวเคราะห Paired-Sample t-test ในตาราง 95 แสดงใหเหนวา วธการทนาเสนอมประสทธภาพดานเวลาสงกวาวธการอน อยางมนยสาคญท 0.05

ตาราง 96 ประสทธภาพดานเวลาทใชในการคดเลอกคณลกษณะ ขอมลชด SS-Tweet

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 0.386 0.412 0.431 0.456 0.471 0.483 0.504 0.528 0.543 0.468

Chi2 0.386 0.411 0.430 0.453 0.470 0.490 0.505 0.519 0.541 0.467

IG 0.395 0.419 0.445 0.462 0.484 0.496 0.516 0.532 0.552 0.478

Proposed 0.317 0.301 0.322 0.340 0.354 0.372 0.389 0.410 0.426 0.359

ตาราง 97 ผลการวเคราะห Paired-Sample t-test ประสทธภาพดานเวลาของชดขอมล SS-Tweet

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval

Of the Difference

Lower Upper

Pair 1 Proposed-GINI -0.109 0.015 0.005 -0.121 -0.098 -21.688 8 0.000

Pair 2 Proposed-Chi2 -0.108 0.015 0.005 -0.120 -0.097 -21.641 8 0.000

Pair 3 Proposed-IG -0.119 0.016 0.005 -0.131 -0.107 -22.956 8 0.000

จากตาราง 96 แสดงประสทธภาพดานเวลา เมอทดสอบกบชดขอมล SS-Tweet พบวา วธการทน าเสนอใชระยะเวลาในการคดเลอกคณลกษณะนอยทสด และเมอพจารณาผลการวเคราะห Paired-Sample t-test ในตาราง 97 แสดงใหเหนวา วธการทน าเสนอมประสทธภาพดานเวลาสงกวาวธการอน อยางมนยส าคญท 0.05

141

ตาราง 98 ประสทธภาพดานเวลาทใชในการคดเลอกคณลกษณะ ขอมลชด HCR

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 0.089 0.060 0.063 0.066 0.069 0.065 0.066 0.067 0.095 0.071

Chi2 0.096 0.088 0.092 0.099 0.097 0.098 0.099 0.099 0.101 0.097

IG 0.076 0.078 0.075 0.066 0.066 0.068 0.069 0.068 0.067 0.070

Proposed 0.044 0.044 0.049 0.052 0.055 0.055 0.060 0.061 0.060 0.053

ตาราง 99 ผลการวเคราะห Paired-Sample t-test ประสทธภาพดานเวลาของชดขอมล HCR

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval Of the Difference

Lower Upper

Pair 1 Proposed-GINI -0.018 0.013 0.004 -0.028 -0.007 -3.969 8 0.004

Pair 2 Proposed-Chi2 -0.043 0.004 0.001 -0.047 -0.040 -31.595 8 0.000

Pair 3 Proposed-IG -0.017 0.011 0.004 -0.025 -0.009 -4.761 8 0.001

จากตาราง 98 แสดงประสทธภาพดานเวลา เมอทดสอบกบชดขอมล HCR พบวา วธการทน าเสนอใชระยะเวลาในการคดเลอกคณลกษณะนอยทสด และเมอพจารณาผลการวเคราะห Paired-Sample t-test ในตาราง 99 แสดงใหเหนวา วธการทน าเสนอมประสทธภาพดานเวลาสงกวาวธการอน อยางมนยส าคญท 0.05

ตาราง 100 ประสทธภาพดานเวลาทใชในการคดเลอกคณลกษณะ ขอมลชด Sander

วธการ จ านวนคณลกษณะทส าคญทสด

10% 20% 30% 40% 50% 60% 70% 80% 90% คาเฉลย GINI 0.047 0.049 0.049 0.050 0.051 0.057 0.054 0.055 0.058 0.052

Chi2 0.061 0.058 0.071 0.068 0.068 0.069 0.070 0.071 0.072 0.068

IG 0.047 0.048 0.048 0.050 0.072 0.052 0.049 0.052 0.052 0.052

Proposed 0.038 0.040 0.042 0.048 0.042 0.043 0.045 0.044 0.047 0.043

142

ตาราง 101 ผลการวเคราะห Paired-Sample t-test ประสทธภาพดานเวลาของชดขอมล Sanders

Paired Differences

t df Sig

(2-tailed) Mean Std.

Deviation

Std. Error Mean

95% Confidence Interval

Of the Difference

Lower Upper

Pair 1 Proposed-GINI -0.009 0.003 0.001 -0.012 -0.007 -8.458 8 0.000

Pair 2 Proposed-Chi2 -0.024 0.004 0.001 -0.027 -0.022 -20.773 8 0.000

Pair 3 Proposed-IG -0.009 0.008 0.003 -0.015 -0.003 -3.297 8 0.011

จากตาราง 100 แสดงประสทธภาพดานเวลา เมอทดสอบกบชดขอมล Sander พบวา วธการทน าเสนอใชระยะเวลาในการคดเลอกคณลกษณะนอยทสด และเมอพจารณาผลการวเคราะห Paired-Sample t-test ในตาราง 101 แสดงใหเหนวา วธการทน าเสนอมประสทธภาพดานเวลาสงกวาวธการอน อยางมนยส าคญท 0.05 สรปผลประสทธภาพดานเวลาทใชในการคดเลอกคณลกษณะ โดยภาพรวม พบวา วธการทน าเสนอมประสทธภาพดานเวลาสงกวาวธการอน อยางมนยส าคญท 0.05

4.3.3 ผลการประเมน Big-O

การวดประสทธภาพของอลกอรทมในรปแบบของเวลา อาจจะมปญหากรณทรนโปรแกรมในเครองคอมพวเตอรทมคณสมบตไมเทากน ผวจยจงทาการคานวณหา Big-O เพอวดประสทธภาพของอลกอรทม ผลการประเมน Big-O ของแตละวธการ มผลดงน

143

1) การประเมน Big-O ของวธการ GINI Algorithm 3: Gini Index Feature Ranking

1. for each class kc C do: 2. for document

jd D do:

3. if jd in kc do:

4. 1kn ; 5. for each term it T do: 6. if it in kc do: 7. ( , ) 1i kn t c ; 8. end for 9. end for

10. /k kp n N

11. 2( ) 1 kGini D p ;

12. ( , ) 1 [ ( , ) / ( , )]i j i k kiGini t D n t c n t c

13. end for

รปท 34 Gini Index Algorithm

จากรปท 34 พบวา บรรทดท 2 – 9 เปนการหาคาความถของแตละคณลกษณะทอยในคลาส ซง Big-O = O(|D|.|T|) โดยท |D| คอ จ านวนเอกสาร และ |T| คอ จ านวนคณลกษณะ ซงตองหาคณลกษณะในแตละคลาส ถาจ านวนคลาส คอ |C| จะได Big-O = O(|C|.|D|.|T|) บรรทดท 10 ค านวณคาความนาจะเปน ซงใช Big-O = O(1) แตตองค านวณทกคลาส ดงนน Big-O = O(1.|C|) บรรทดท 11 ค านวณคา Gini ของเอกสาร ซงใช Big-O = O(1) แตตองค านวณทกคลาส ดงนน Big-O = O(1.|C|) บรรทดท 12 ค านวณคา Gini Split ซงใช Big-O = O(1) แตตองค านวณทกคลาส ดงนน Big-O = O(1.|C|) เมอพจารณาภาพรวมทงหมด จะไดวา Big-O ของวธการ Gini Index เทากบ O(|C|.|D|.|T|) + O(1.|C|) + O(1.|C|) + O(1.|C|) ดงนน จงสรปไดวา Big-O = O(|C|.|D|.|T|)

144

2) ผลการประเมน Big-O ของวธการ Chi2

Algorithm 2: Chi-Square Feature Ranking

1. for each class kc C do: 2. for document

jd D do:

3. if jd in kc do:

4. 1kn ; 5. for each term it T do: 6. if it in kc do: 7. ( , ) 1i kObserved t c ; 8. end for 9. end for 10. 2 2( , ) (( ( , ) ( , )) ) / ( , )i k i k i k i kChi t c Observed t c Expected t c Expected t c ; 11. 2 1 2( ) / ( )kprob c n n n ; 12. end for 13. for each class it T do: 14. for each term kc C do: 15. ( , ) Pr ( ) ( , )i k k i kExpected t c ob c Observed t c ; 16. 2 2( , ) (( ( , ) ( , )) ) / ( , )i k i k i k i kChi t c Observed t c Expected t c Expected t c ; 17. end for

18. 2 2 2

1 2( ) ( , ) ( , )i i iChi t Chi t c Chi t c ; 19. end for

รปท 35 Chi-Square Algorithm

จากรปท 35 พบวา บรรทดท 1 – 9 เปนการหาคาความถของแตละคณลกษณะทอยในคลาส ซง Big-O = O(|D|.|T|) โดยท |D| คอ จ านวนเอกสาร และ |T| คอ จ านวนคณลกษณะ ซงตองหาคณลกษณะในแตละคลาส ถาจ านวนคลาส คอ |C| จะได Big-O = O(|C|.|D|.|T|) บรรทดท 10 ค านวณคาไคสแควของคณลกษณะ ซงใช Big-O = O(|T|) แตตองค านวณทกคลาส ดงนน Big-O = O(|T|.|C|) บรรทดท 11 ค านวณคาความนาจะเปน ซงใช Big-O = O(1) แตตองค านวณทกคลาส ดงนน Big-O = O(1.|C|) บรรทดท 13 – 19 เปนการ Expected ของคณลกษณะ ซงใช Big-O = O(|T|) แตตองค านวณทกคลาส ดงนน Big-O = O(|T|.|C|) เมอพจารณาภาพรวมทงหมด จะไดวา Big-O ของวธการ Chi-Square เทากบ O(|C|.|D|.|T|) + O(|T|.|C|) + O(1.|C|) + O(|T|.|C|) ดงนน จงสรปไดวา Big-O = O(|C|.|D|.|T|)

145

3) ผลการประเมน Big-O ของวธการ Information Gain Algorithm 1: Information Gain Feature Ranking

1. S = 0 2. For each kc C do: 3. calculate ( )kp c ; 4. ( ) log 2( ( )c k kH S p c p c 5. cS H 6. End For 7. For each ie E 8. Calculate ( )ip e ; 9. ( ) log 2( ( ))i iSum S P e p e ; 10. S Sum ; 11. End For 12. For each class kc C do: 13. For each term ie E do: 14. Calculate ( | )k ip c e ; 15. 2( | ) log ( | )k i k iM S p c e p c e ; 16. S M ; 17. End For 18. End For 19. ( | ) ( 1) ( 1)H C E Sum M ;

20. ( | )cIG H H C E

รปท 36 Information Gain Algorithm

จากบรรทดท 1 ถง 6 ใช Big-O = O(|C|) ซง |C| คอ จ านวนคลาส จากบรรทดท 7 ถง 11

ใช Big-O = O(|E|) ซง |E| คอ คาทเปนไปไดทงหมดของคณลกษณะ ซงงานวจยนมคาน าหนกของคณลกษณะ 2 คา คอ 0 และ 1 จากบรรทดท 12 ถง 18 ใช Big-O = O(|E|.|C|) จากอลกอรทมขางตน จะไดคา Information Gain ของคณลกษณะ จ านวน 1 คณลกษณะ เมอตองการหาคา Information Gain ของคณลกษณะทงหมด จะใช Big-O = O(|E|.|C|.|T|)

146

4) ผลการประเมน Big-O ของวธการทน าเสนอ Algorithm 1: Proposed Method

1. for each class kc C 2. for each features it T do: 3. | ( , ) | | ( ) ( ) |i k i kS t c S t S c

4. | ( , ) |( , )

| ( ) |

i ki k

i

S t cCon t c

S t

5. end for 6. ( )sort T in ascending order of support 7. for each features ( )it sort T do:

8. ( , )( , )

| |

i ki k

R t cPS t c

D

9. ,( ) ( , ) (1 ) ( , )i k i k i kw t c p PS t c p Con t c

10. ( ) max( ( , ))i i kM t w t c 11. end for 12. end for

รปท 37 Proposed Algorithm

จากรปท 37 บรรทดท 1 – บรรทดท 5 เปนการหาคาสนบสนน และคาความเชอมนโดย ขอมลน าเขาเปนขอมลรปแบบแนวตง คาสนบสนนค านวณดวยวธการ หาคาจ านวนของผลการอนเตอรเซคชนระหวางเซตของคณลกษณะและเซตของคลาส และคาความเชอมนค านวณจากคาสนบสนนของคณลกษณะ ใช Big-O = O(|C|.|T|) จากนนบรรทดท 6 เปนการจดล าดบคณลกษณะโดยเรยงคาสนบสนนจากมากไปนอย ใช Big-O = O(|T|log|T|) และจะตองท าการจดล าดบทกคลาส ดงนน Big-O = O(|C|.|T|.log|T|) จากนนบรรทดท 7 – 11 เปนการค านวณคาน าหนกของคณลกษณะทท าการจดล าดบแลว ใช Big-O = O(|T|) เมอพจารณาภาพรวมทงหมด จะไดวา Big-O ของวธการทน าเสนอ เทากบ O(|C|.|T|) + O(|C|.|T|.log|T|) + O(|T|) ดงนน จงสรปไดวา Big-O = O(|C|.|T|.log|T|)

สรปโดยภาพรวม พบวา วธการทน าเสนอมประสทธภาพ Big-O ดกวาวธการอน

147

4.3.3 ผลการวดประสทธภาพการลดคณลกษณะทซ าซอน

การทดลองน เพอเปรยบเทยบการใชคณลกษณะท งหมดกบการลดคณลกษณะทซ าซอนดวยวธการทนาเสนอ การทดลองน ทดสอบกบขอมล จานวน 5 ชดขอมล ไดแก 1) Stadford Twitter Sentiment Data (STS) 2) SemEval-2017 Task4A Dataset (SemEval) 3) Sentiment Strength Twitter Dataset (SS-Tweet) 4) 2) Health Care Reform (HCR) 5) Sanders Twitter Dataset (Sander) โดยใชตวจาแนก คอ นาอฟเบย รายละเอยดผลการวดประสทธภาพการทดลอง มดงน

ตาราง 102 ผลการทดสอบจ านวนคณลกษณะทซ าซอน

ชดขอมล จานวนคณลกษณะ

ท งหมด จานวนคณลกษณะท

ซ าซอน รอยละคณลกษณะท

ซ าซอน STS 12,772 3,540 27.72

SemEval 9,065 3,375 37.23 SS-Tweet 6,845 2,932 42.83

HCR 2,503 1,087 43.43 Sander 1,867 763 40.87

จากตาราง 57 แสดงผลการทดสอบจ านวนคณลกษณะทซ าซอน พบวา ขอมลชด Health

Care Reform (HCR) มจ านวนคณลกษณะมากทสด รองลงมาคอ ขอมลชด Sentiment Strength Twitter Dataset (SS-Tweet) ขอมลชด Sanders Twitter Dataset (Sander) ขอมลชด SemEval-2017 Task4A Dataset (SemEval) และ ขอมลชด Stadford Twitter Sentiment Data (STS) ตามล าดบ

ตาราง 103 ผลการวดประสทธภาพความถกตอง กอนและหลงการลดคณลกษณะซ าซอน

ชดขอมล ความถกตองกอนลดคณลกษณะซ าซอน

ความถกตองหลงลดคณลกษณะซ าซอน

คาการเปลยนแปลง (+/-)

STS 72.25 72.31 +0.06

SemEval 87.52 87.53 +0.01 SS-Tweet 60.69 61.85 +1.16

HCR 81.40 81.30 -0.10 Sander 89.20 88.20 -1.00

148

จากตาราง 58 แสดงผลการวดประสทธภาพความถกตองของการจาแนกความคดเหน กอน และหลงคณลกษณะทซ าซอน พบวา ขอมลชด Stadford Twitter Sentiment Data (STS) ขอมลชด SemEval-2017 Task4A Dataset (SemEval) และ ขอมลชด Sentiment Strength Twitter Dataset (SS-Tweet) มประสทธภาพเพมข น เมอทาการลดคณลกษณะทซ าซอน สขอมลชด Health Care Reform (HCR) และ ขอมลชด Sanders Twitter Dataset (Sander) พบวามประสทธภาพลดลงเลกนอย เมอลดคณลกษณะทซ าซอน

ตาราง 104 ผลการวดประสทธภาพความแมนย า กอนและหลงการลดคณลกษณะซ าซอน

ชดขอมล ความแมนยาในคลาส

เชงบวก คาการ

เปลยนแปลง (+/-)

ความแมนยาในคลาสเชงลบ

คาการเปลยนแปลง

(+/-) กอน หลง กอน หลง

STS 71.09 71.07 -0.02 73.56 73.75 +0.18

SemEval 87.88 88.15 +0.26 87.22 86.98 -0.24 SS-Tweet 61.41 60.75 -0.66 63.08 63.56 +0.48

HCR 79.30 79.37 +0.08 84.05 83.59 -0.46 Sander 87.98 88.03 +0.04 90.75 88.41 -2.34

จากตาราง 59 แสดงผลการวดประสทธภาพความแมนย าของการจ าแนกความคดเหน กอน และหลงคณลกษณะทซ าซอน พบวา หลงการลดคณลกษณะซ าซอน ขอมลชด SemEval-2017 Task4A Dataset (SemEval) ขอมลชด Health Care Reform (HCR) และ ขอมลชด Sanders Twitter Dataset (Sander) มประสทธภาพความแมนย าของการจ าแนกความคดเหนในเชงบวกเพมขน ขอมลชด Stadford Twitter Sentiment Data (STS) และ ขอมลชด Sentiment Strength Twitter Dataset (SS-Tweet) มประสทธภาพความแมนย าของการจ าแนกความคดเหนในคลาสเชงลบเพมขน

ตาราง 105 ผลการวดประสทธภาพคาระลก กอนและหลงการลดคณลกษณะซ าซอน

ชดขอมล คาระลก

ในคลาสเชงบวก คาการ

เปลยนแปลง (+/-)

คาระลก ในคลาสเชงลบ

คาการเปลยนแปลง

(+/-) กอน หลง กอน หลง

STS 75.04 75.33 +0.29 69.49 69.35 -0.15 SemEval 87.06 86.70 -0.37 87.90 88.26 +0.36 SS-Tweet 65.84 68.31 +2.46 58.40 55.57 -2.82

HCR 85.82 85.27 -0.55 76.79 77.42 +0.63 Sander 91.38 88.40 -2.98 86.94 87.93 +0.98

149

จากตาราง 60 แสดงผลการวดประสทธภาพคาระลกของการจาแนกความคดเหน กอนและ

หลงคณลกษณะทซ าซอน พบวา ขอมลชด Stadford Twitter Sentiment Data (STS) และ ขอมลชด Sentiment Strength Twitter Dataset (SS-Tweet) มคาระลกของการจาแนกความคดเหนในคลาสเชงบวกเพมข น ขอมลชด SemEval-2017 Task4A Dataset (SemEval) ขอมลชด Health Care Reform (HCR) และ ขอมลชด Sanders Twitter Dataset (Sander) มคาระลกของการจาแนกความคดเหนในคลาสเชงลบเพมข น

ตาราง 106 ผลการวดประสทธภาพโดยรวม กอนและหลงการลดคณลกษณะซ าซอน

ชดขอมล ประสทธภาพโดยรวม

ในคลาสเชงบวก คาการ

เปลยนแปลง (+/-)

ประสทธภาพโดยรวม ในคลาสเชงลบ

คาการเปลยนแปลง

(+/-) กอน หลง กอน หลง

STS 72.98 73.11 +0.13 71.44 71.45 +0.01 SemEval 87.43 87.38 -0.05 87.52 87.58 +0.06

SS-Tweet 63.28 64.17 +0.89 57.59 59.11 +1.52 HCR 82.22 81.99 -0.23 79.99 80.15 +0.16

Sander 89.52 88.10 -1.42 88.65 88.06 -0.59

จากตาราง 61 แสดงผลการวดประสทธภาพประสทธภาพโดยรวมของการจ าแนกความ

คดเหน กอนและหลงคณลกษณะทซ าซอน พบวา หลงจากท าการลดคณลกษณะทซ าซอน ขอมลชด Stadford Twitter Sentiment Data (STS) และ ขอมลชด Sentiment Strength Twitter Dataset (SS-Tweet) มประสทธภาพโดยรวมของการจ าแนกความคดเหนในคลาสเชงบวกและคลาสเชงลบเพมขน ขอมลชด SemEval-2017 Task4A Dataset (SemEval) และขอมลชด Health Care Reform (HCR) มประสทธภาพโดยรวมของการจ าแนกความคดเหนในคลาสเชงลบเพมขน

ตาราง 107 ประสทธภาพดานเวลา (วนาท) ในการการสรางโมเดลและการทดสอบโมเดลกอนและหลงลดคณลกษณะซ าซอน

ชดขอมล ระยะเวลากอน

ลดคณลกษณะซ าซอน ระยะเวลาหลง

ลดคณลกษณะซ าซอน คาการเปลยนแปลง

(+/-)

STS 0.662 0.459 -0.203 SemEval 0.202 0.116 -0.087

SS-Tweet 0.105 0.053 -0.052 HCR 0.018 0.010 -0.008

Sander 0.014 0.008 -0.007

150

จากตาราง 62 แสดงประสทธภาพดานเวลาในการสรางโมเดลและการทดสอบโมเดล กอน

และหลงการลดคณลกษณะทซ าซอน พบวา การลดคณลกษณะทซ าซอนชวยใหเวลาในการสรางโมเดลและทดสอบโมเดลลดลง

ตาราง 108 ระยะเวลา (วนาท) ทใชในการลดคณลกษณะซ าซอน

ชดขอมล จานวนขอมล จานวนคณลกษณะ ระยะเวลาทใช STS 10,000 12,772 30.274

SemEval 4,000 9,065 7.968 SS-Tweet 2,600 6,845 3.830

HCR 1,000 2,503 0.448 Sander 1,000 1,867 0.315

จากตาราง 63 แสดงประสทธภาพดานเวลาทใชในการสรางลดคณลกษณะทซ าซอน พบวา

การลดคณลกษณะทซ าซอนใชระยะเวลาเพมข นตามขนาดของขอมล ขอมลขนาดใหญ มคณลกษณะจานวนมาก จะใชเวลาในการตรวจสอบและลดคณลกษณะซ าซอนเพมข น

บทท 5 สรปผลการวจย

งานวจยน ประกอบดวย 2 สวนหลก คอ 1) การพฒนาข นตอนวธในการคดเลอกคณลกษณะและ 2) การขจดคณลกษณะทซ าซอนสาหรบการจาแนกความคดเหนทอยบนเครอขายสงคมออนไลน ซงการในการคดเลอกคณลกษณะอาศยหลกการผสมผสานแนวคดวธฟลเตอรโมเดลรวมกบแนวคดวธการกฎความสมพนธ โดยนาคาสนบสนนและคาความเชอมนมาพจารณารวมกนเพอใหคาน าหนกของคณลกษณะ โดยสามารถปรบคาพารามเตอรทเรยกวา p เพอถวงน าหนกระหวางคาสนบสนนและคาความเชอมน โดยทาการทดลองกบชดขอมลทเปนขอความบนเครอขายสงคมออนไลนท งหมด 5 ชดขอมล และพจารณาประสทธภาพในการจาแนกและเวลาทใชในการคดเลอกคณลกษณะ ในสวนของการขจดคณลกษณะทซ าซอน พจารณาจากคณลกษณะทเกดรวมกนในเอกสารเดยวกน แลวทาการเลอกคณลกษณะทมคาน าหนกสงสดและตดคณลกษณะทเหลอออก โดยทาการทดลองกบชดขอมลทเปนขอความบนเครอขายสงคมออนไลนท งหมด 5 ชดขอมล และพจารณาประสทธภาพในการจาแนกกอนและหลงจากขจดคณลกษณะทซ าซอน จานวนคณลกษณะกอนและหลงจากขจดคณลกษณะทซ าซอน เวลาทใชในการสรางตวจาแนกกอนและหลกจากขจดคณลกษณะทซ าซอน และเวลาทใชในการขจดคณลกษณะทซ าซอน ผลการวจยสามารถสรปผล อภปรายผล และขอเสนอแนะดงน

5.1 สรปผลและอภปราย

1. วธการทนาเสนอใหประสทธภาพในการจาแนกสงเมอขอมลมขนาดใหญ และใหคาความถกตองสงกวาวธการอน อยางมนยสาคญท 0.05 เมอเปรยบเทยบกบข นตอนวธการคดเลอกคณลกษณะแบบฟลเตอรโมเดล 3 วธ ไดแก วธการ Information Gain วธการ Chi-Square วธการ Gini Index เนองจากวธการทนาเสนอใชการปรบคาอตราสวนของน าหนกของคาสนบสนนกบคาความเชอมนใหเทากน จากน นจงทาการปรบคาถวงน าหนกใหกบคาสนบสนนและคาความเชอมน โดยการปรบคาถวงน าหนกจะทดสอบกบขอมลในแตละชด ซงจากการทดลองพบวาการถวงน าหนกใหคาสนบสนนมากกวาคาความเชอมนชวยใหการจาแนกความคดเหนประสทธภาพมากข น 2. วธการทนาเสนอใชเวลาในการคดเลอกคณลกษณะนอยทสด เมอเปรยบเทยบกบข นตอนวธการคดเลอกคณลกษณะ 3 วธการขางตน เนองจากวธการทนาเสนอเปนวธการทงาย โดยใชหลกการคานวณคาน าหนกโดยพจารณาจากคาสนบสนนรวมกบคาความเชอมน 3. จากการทดลองปรบพารามเตอร (p) กบขอมลท ง 5 ชด พบวา คาทเหมาะสมททาใหประสทธภาพการจาแนกความคดเหนสงสด คอ คา p = 0.8 ซงเปนการถวงน าหนกไปทคาสนบสนน

152

มากกวาคาความเชอมน แสดงใหเหนวา เมอขอมลมขนาดใหญคาสนบสนนมความสาคญมากกวาคาความเชอมน 4. การขจดคณลกษณะทซ าซอนดวยวธการทนาเสนอ ทาใหจานวนคณลกษณะลดลง แตไมไดลดประสทธภาพในการจาแนกลง เนองจากมบางขอความบนเครอขายสงคมออนไลนนยมใชคาคกน ซงผวจยไดวเคราะหแลววาขอความทใชคกนน น สามารถใชเปนคณลกษณะสาหรบการจาแนกความคดเหนแทนกนได

5.2 ขอเสนอแนะ

1. ข นตอนวธการคดเลอกคณลกษณะทไดนาเสนอ เปนข นตอนวธการทมประสทธภาพเมอทดสอบกบขอมลบนเครอขายสงคมออนไลนขนาดใหญ ดงน น ผวจยเสนอแนะวาควรนาแนวคดวธการทนาเสนอไปทดสอบกบขอมลทหลากหลาย เชน การจาแนกบทความวจย การวเคราะหขอความคดเหนทเปนบทวจารณ เปนตน ซงขอความดงกลาวเปนขอความทมความยาวมากกวาขอความบนเครอขายสงคมออนไลน 2. ประสทธภาพของการจาแนกความคดเหน ข นอยกบการปรบคาพารามเตอร (p) ในสมการหาคาน าหนกของคณลกษณะทนาเสนอ ซงในงานวจยน ไดเลอกคาพารามเตอรททดสอบกบขอมลแตละชด โดยทดลองปรบคาพารามเตอรไปเรอย ๆ ต งแต 0.1 ถง 0.9 แลวเลอกพารามเตอรทใหคาประสทธภาพสงสด ดงน น ถามแนวคดการปรบคาพารามเตอรอตโนมตตามชดขอมล จะชวยใหลดข นตอนการทดลองทใชเลอกพารามเตอรได 3. ขอความทใชทดสอบในงานวจยน เปนขอความภาษาองกฤษ ควรนาแนวคดข นตอนวธการทนาเสนอไปปรบใชกบขอมลทเปนขอความภาษาไทย 4. ควรนาหลกการโครงสรางขอมล เชน โครงสรางตนไม (Decision Tree) การหาเซตผลตาง (Diff Set) มาพฒนาข นตอนการขจดคณลกษณะทซ าซอน เพอลดเวลาในการขจดคณลกษณะทซ าซอน

บรรณานกรม

บรรณานกรม

บรรณานกรม

[1] Troussas C, Virvou M, Junshean Espinosa K, Llaguno K, Caro J. Sentiment analysis of Facebook statuses using Naive Bayes classifier for language learning. Information, Intelligence, Systems and Applications (IISA), 2013 Fourth International Conference on; 10-12 July 2013; 1-6. [2] Akaichi J, Dhouioui Z, Lopez-Huertas Perez MJ. Text mining facebook status updates for sentiment classification. System Theory, Control and Computing (ICSTCC), 2013 17th International Conference; 11-13 Oct. 2013; 640-645. [3] Anjaria M, Guddeti RMR. Influence factor based opinion mining of Twitter data using supervised learning. Communication Systems and Networks (COMSNETS), 2014 Sixth International Conference on; 6-10 Jan. 2014; 1-8. [4] Ortigosa A, Martín JM, Carro RM. Sentiment analysis in Facebook and its application to e-learning. Computers in Human Behavior 2014; 31[0]: 527-541. [5] Mostafa Karamibekr AAG. Sentiment Analysis of Social Issues. 2012 International Conference on Social Informatics; Canada. IEEE; 215-221. [6] Yang J, Liu Y, Zhu X, Liu Z, Zhang X. A new feature selection based on comprehensive measurement both in inter-category and intra-category for text categorization. Inf Process Manage 2012; 48741-754. [7] Song Q, Ni J, Wang G. A Fast Clustering-Based Feature Subset Selection Algorithm for High-Dimensional Data. IEEE Trans on Knowl and Data Eng 2013; 25[1]: 1-14. [8] Yang J, Liu Y, Zhu X, Liu Z, Zhang X. A new feature selection based on comprehensive measurement both in inter-category and intra-category for text categorization. Inf Process Manage 2012; 48[4]: 741-754. [9] Das S. Filters, Wrappers and a Boosting-Based Hybrid for Feature Selection. Morgan Kaufmann Publishers Inc., 2001. [10] Deng X, Li Y, Weng J, Zhang J. Feature selection for text classification: A review. Multimedia Tools and Applications [journal article] 2019; 78[3]: 3797-3816. https://doi.org/10.1007/s11042-018-6083-5

155

[11] Go A, Bhayani R, Huang L. Twitter sentiment classification using distant supervision. 2009; [12] Rosenthal S, Farra N, Nakov P. SemEval-2017 Task 4: Sentiment Analysis in Twitter. Association for Computational Linguistics; 502-518. [13] Thelwall M, Buckley K, Paltoglou G. Sentiment strength detection for the social web. J Am Soc Inf Sci Technol 2012; 63[1]: 163-173. [14] Speriosu M, Sudan N, Upadhyay S, Baldridge J. Twitter polarity classification with label propagation over lexical links and the follower graph. Association for Computational Linguistics, 2011. [15] Saif H, Fernández M, He Y, Alani H. Evaluation datasets for Twitter sentiment analysis: a survey and a new dataset, the STS-Gold. 2013. [16] Hall JC. A Linguistic Model for Improving Sentiment Analysis Systems. Master of ScienceThesis. Fargo, North Dakota: North Dakota State University; 2014. [17] Liu B. Sentiment Analysis and Opinion Mining. Morgan \& Claypool Publishers; 2012. [18] Kumar AA, S.Chandrasekhar. Text Data Pre-processing and Dimensionality Reduction Techniques for Document Clustering. International Journal of Engineering Research & Technology July 2012; 1[5]: 1-6.

[19] C.Ramasubramanian, R.Ramya. Effective Pre-Processing Activities in Text

Mining using Improved Porter's Stemming Algorithm. International Journal of Advanced Research in Computer and Communication Engineering December 2013; 2[12]: 4536-4537.

[20] Blessy Selvam SA. A Survey on Opinion Mining Framework. International

Journal of Advanced Research in Computer and Communication Engineering

September 2013; 2[9]: 3544-3549. [21] Mumu T. Social Network Opinion and Posts Mining for Community Preference Discovery. Master's Thesis: University of Windsor; 2013. [22] Tripathy A, Agrawal A, Rath S. Classification of Sentiment Reviews using N-gram Machine Learning Approach. 2016.

156

[23] Louwerse M, Lewis G, Wu J. Unigrams, bigrams and LSA. Corpus linguistic explorations of genres in Shakespeare's plays. 2008:108-129. [24] Read J. Using emoticons to reduce dependency in machine learning techniques for sentiment classification. Proceedings of the ACL Student Research Workshop; Association for Computational Linguistics; 43-48. [25] Zhang Z. Urcf: an approach to integrating user reviews into memory-based collaborative filtering. Ph.D. Dissertation: University of Maryland at Baltimore County; 2013. [26] ต งวงศศานต ศ. ระบบการจดเกบและการสบคนสารสนเทศดวยคอมพวเตอร. พมพคร งท 1. กรงเทพฯ: โรงพมพพทกษการพมพ; 2551. [27] กานดา แผวฒนากล. การวเคราะหเหมองขอเสนอแนะจากบทวจารณรายการโทรทศน. วทยานพนธปรญญาวทยาศาสตรมหาบณฑต. กรงเทพฯ: สถาบนบณฑตพฒนบรหารศาสตร; 2555. [28] Liu B. Sentiment analysis and opinion mining. Synthesis Lectures on Human Language Technologies 2012; 5[1]: 1-167. [29] เอกสทธ พชรวงศศกดา. การวเคราะหขอมลดวยเทคนคดาตา ไมนนง เบ องตน. พมพคร งท 1. กรงเทพฯ: เอเชย ดจตอลการพมพ; 2557. [30] Phua YL. Social Media Sentiment Analysis and Topic Detection for Singapore English. Master's Thesis: Naval Postgraduate School; 2013. [31] Singh PK, Husain MS. Methodological Study of Opinion Mining and Sentiment Analysis Techniques. International Journal on Soft Computing 2014; 5[1]: 11-21. [32] Basari ASH, Hussin B, Ananta IGP, Zeniarja J. Opinion Mining of Movie Review using Hybrid Method of Support Vector Machine and Particle Swarm Optimization. Procedia Engineering 2013; 53[0]: 453-462. [33] ผสด บญรอด. การศกษาปจจยทมผลตอการยอความภาษาไทย และการพฒนาเทคนคการยอความภาษาไทยโดยใชการประมวลผลธรรมชาตรวมกบฐานความรออนโทโลย. วทยานพนธปรชญาดษฎบณฑต. กรงเทพฯ: มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ; 2552. [34] Chairawichitchai N. Automatic Thai Document Classification Model. The Journal of Industrial Technology January -- April 2013; 9[1]: [35] Zheng Z, Wu X, Srihari R. Feature selection for text categorization on imbalanced data. SIGKDD Explor Newsl 2004; 6[1]: 80-89.

157

[36] Lee C, Lee GG. Information gain and divergence-based feature selection for machine learning-based text categorization. Information Processing & Management

2006; 42[1]: 155-165. [37] Alhaj TA, Siraj MM, Zainal A, Elshoush HT, Elhaj F. Feature Selection Using Information Gain for Improved Structural-Based Alert Correlation. PloS one 2016; 11[11]: e0166017-e0166017. https://www.ncbi.nlm.nih.gov/pubmed/27893821 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5125592/ [38] Abdul-Rahman S, Mutalib S, Khanafi NA, Ali AM. Exploring Feature Selection and Support Vector Machine in Text Categorization. Computational Science and Engineering (CSE), 2013 IEEE 16th International Conference on; 3-5 Dec. 2013; 1101-1104. [39] Mowafy M, Rezk A, Hm E-b. An Efficient Classification Model for Unstructured Text Document. [40] Gini C. Variabilit‡ e mutabilita. Memorie di metodologia statistica 1912; [41] Zhu W, Feng J, Lin Y. Using Gini-Index for Feature Selection in Text Categorization. 2014/02; Atlantis Press; [42] Hossain MR, Oo AMT, Ali ABMS. The Combined Effect of Applying Feature Selection and Parameter Optimization on Machine Learning Techniques for Solar Power Prediction. American Journal of Energy Research 2013; 1[1]: 7-16. http://pubs.sciepub.com/ajer/1/1/2 [43] Mladeni D, #263, Brank J, Grobelnik M, Milic-Frayling N. Feature selection using linear classifier weights: interaction with classification models. ACM, 2004. [44] Hadi We, Aburub F, Alhawari S. A new fast associative classification algorithm for detecting phishing websites. Applied Soft Computing 2016; 48[Supplement C]: 729-734. http://www.sciencedirect.com/science/article/pii/S1568494616303970 [45] Saif H, He Y, Alani H. Semantic smoothing for Twitter sentiment analysis. 2011. [46] Mohsin M, Rayhan Ahmed M, Ahmed T. IJSRSET162366 | Closed Frequent Pattern Mining Using Vertical Data Format: Depth First Approach. 2016. [47] Mostafa MM. More than words: Social networks’ text mining for consumer brand sentiments. Expert Systems with Applications 2013; 40[10]: 4241-4251.

158

[48] Marrese-Taylor E, Velásquez JD, Bravo-Marquez F. A novel deterministic approach for aspect-based opinion mining in tourism products reviews. Expert Systems with Applications 2014; 41[17]: 7764-7775. [49] Swapna Somasundaran JW. Recognizing Stances in Ideological On-Line Debates. NAACL HLT 2010; June 2010; Califonia. Association for Computational Linguistics; 116-124. [50] Cruz FL, Troyano JA, Pontes B, Ortega FJ. Building layered, multilingual sentiment lexicons at synset and lemma levels. Expert Systems with Applications

2014; 41[13]: 5984-5994. [51] Terrana D, Augello A, Pilato G. Facebook Users Relationships Analysis Based on Sentiment Classification. Semantic Computing (ICSC), 2014 IEEE International Conference on; 16-18 June 2014; 290-296. [52] Pak A, Paroubek P. Twitter as a Corpus for Sentiment Analysis and Opinion Mining. LREC; 1320-1326. [53] Yang C, Lin KH, Chen H-H. Emotion classification using web blog corpora. Web Intelligence, IEEE/WIC/ACM International Conference on; IEEE; 275-278. [54] Mudinas A, Zhang D, Levene M. Combining lexicon and learning based approaches for concept-level sentiment analysis. ACM, 2012. [55] Fang J, Chen B. Incorporating lexicon knowledge into svm learning to improve sentiment classification. Google Patents, 2012. [56] Lei Zhang RG, Mohamed Dekhil, Meichun Hsu, Bing Liu, ed. Combining Lexicon-based and Learning-based Methods for Twitter Sentiment Analysis: Hewlett-Packard Development Company, L.P. 2011. [57] Hamouda A, Marei M, Rohaim M. Building machine learning based senti-word lexicon for sentiment analysis. Journal of Advances in Information Technology 2011; 2[4]: 199-203. [58] Lu B, Tsou BK. Combining a large sentiment lexicon and machine learning for subjectivity classification. Machine Learning and Cybernetics (ICMLC), 2010 International Conference on; IEEE; 3311-3316.

159

[59] วาทน นยเพยร, พยง มสจ. การเปรยบเทยบเทคนคการคดเลอกคณลกษณะแบบการกรองและการควบรวมของการทาเหมองขอความเพอการจาแนกขอความ. วารสารวชาการเทคโนโลยอตสาหกรรม [บทความวจย] กนยายน - ธนวาคม 2556; 9[3]: [60] ฐตมา เกษมศรธนาวฒน, ธนสน เพยรตระกล. การจาแนกความคดเหนโดยใชตวจาแนกแบบเบยรวมกบการเลอกคณลกษณะดวยอลกอรทมรลฟ. CIT 2011&UniNOMS 2011; 2-Aug-2011; Bangkok, Thailand. ThaiLIS: สานกงานคณะกรรมการการอมศกษา; 1-6. [61] Sayfullina L. Reducing Sparsity in Sentiment Analysis Data using Novel Dimentionality Reduction Approaches. Aalto University; 2014. [62] Saif H, He Y, Alani H. Alleviating data sparsity for Twitter sentiment analysis. CEUR Workshop Proceedings (CEUR-WS.org), 2012. [63] Ong BY, Goh SW, Xu C. Sparsity adjusted information gain for feature selection in sentiment analysis. 2015 IEEE International Conference on Big Data (Big Data); Oct. 29 2015-Nov. 1 2015; 2122-2128. [64] Parlar T, Ozel SA, Song F. QER: a new feature selection method for sentiment analysis. Human-Centric Computing and Information Sciences [Article] 2018; 819. <Go to ISI>://WOS:000431867100001 [65] Pratiwi AI, Adiwijaya. On the Feature Selection and Classification Based on Information Gain for Document Sentiment Analysis. Applied Computational Intelligence and Soft Computing [Article] 2018; 5. <Go to ISI>://WOS:000426701800001 [66] Ghosh M, Sanyal G. Performance Assessment of Multiple Classifiers Based on Ensemble Feature Selection Scheme for Sentiment Analysis. Applied Computational Intelligence and Soft Computing [Article] 2018; 12. <Go to ISI>://WOS:000447518700001

ประวตผเขยน

ประวตผเขยน

ชอ นางอจฉรา ชมพล วนเกด วนท 15 กรกฎาคม พ.ศ. 2522 สถานทเกด อาเภอ ยางตลาด จงหวด กาฬสนธ สถานทอยปจจบน บานเลขท 4 ซอยเทศบาลอาชา 1 ถนนเทศบาลอาชา ตาบลตลาด อาเภอ

เมองมหาสารคาม จงหวดมหาสารคาม รหสไปรษณย 44000 ต าแหนงหนาทการงาน พนกงานในสถาบนอดมศกษา สายวชาการ สถานทท างานปจจบน คณะวศวกรรมศาสตรและเทคโนโลยอตสาหกรรม มหาวทยาลยกาฬสนธ

ถนนเกษตรสมบรณ ตาบลกาฬสนธ อาเภอเมอง จงหวดกาฬสนธ รหสไปรษณย 46000

ประวตการศกษา พ.ศ. 2537 มธยมศกษาตอนตน โรงเรยนยางตลาดวทยาคาร อาเภอยางตลาด จงหวดกาฬสนธ พ.ศ. 2540 มธยมศกษาตอนปลาย โรงเรยนกาฬสนธพทยาสรรพ อาเภอเมอง จงหวดกาฬสนธ พ.ศ. 2543 ปรญญาวทยาศาสตรบณฑต (วท.บ.) สาขาวทยาการคอมพวเตอร มหาวทยาลยมหาสารคาม พ.ศ. 2549 ปรญญาวทยาศาสตรมหาบณฑต (วท.ม.) สาขาเทคโนโลยสารสนเทศ สถาบนเทคโนโลย พระจอมเกลา พระนครเหนอ พ.ศ. 2562 ปรญญาปรชญาดษฎบณฑต (ปร.ด.) สาขาวทยาการคอมพวเตอร มหาวทยาลยมหาสารคาม