แบบจ ำลองแบบผสมเพื่อสร้ำงกฎส...

12
Walailak Procedia 2019; 2019(7): NCIs20 http://wjst.wu.ac.th/index.php/wuresearch การประชุมวิชาการระดับชาติ สารสนเทศศาสตร์วิชาการ 2019วันที ่ 25-26 มิถุนายน 2562 แบบจำลองแบบผสมเพื่อสร้ำงกฎสำหรับคำถำม-คำตอบ โดยใช้เทคนิคกำรทำเหมืองข้อควำม A Hybrid Model for Rule-Based Generating of Question-Answering Using Text Mining ธนัญชัย เพ็งพรหม * และ วรำรัตน์ สงฆ์แป้ น สาขาวิชาเทคโนโลยีสารสนเทศ คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น อาเภอเมือง จังหวัดขอนแก่น 40002 * thananchai.pengprom@kkumail.com บทคัดย่อ งานวิจัยนี ้นาเสนอแบบจาลองแบบผสมเพื ่อสร้างกฎสาหรับคาถามคาตอบโดยใช้เทคนิคเหมืองข้อความ แบบจาลองถูก นามาใช้กับกรณีศึกษาของคาถามคาตอบในด้านกิจกรรมนักศึกษาของมหาวิทยาลัย เทคนิคการทาเหมืองข้อมูลนี ้เริ่มจากการเตรียม ข้อมูลของข้อความซึ ่งอยู ่ในรูปแบบที ่ไม่มีโครงสร้างมาตัดคาภาษาไทยเป็นคาสาคัญและได้นาคาสาคัญที ่เป็นตัวแทนของประโยค คาถามมาให้ค่าน ้าหนักด้วยเทคนิค TF-IDF เพื ่อแปลงข้อมูลให้อยู ่ในรูปแบบที ่มีโครงสร้าง จากนั ้นได้นาคาถามมาจาแนกกลุ่มโดยนา แบบจาลองแบบผสมระหว่างเทคนิคการหาเพื ่อนบ้านที ่ใกล้เคียงที ่สุดและใช้อัลกอริทึมแอพริออริเพื ่อหากฎความสัมพันธ์เชื ่อมโยง ระหว่างคาถามที ่ถูกจาแนกกลุ่มดังกล่าวหาคาตอบที ่เหมาะสมกับคาถามนั้น ผลลัพธ์ที ่ได้จากการทดสอบได้วัดประสิทธิภาพโดยรวม ของความถูกต้องโดยเฉลี ่ยของกลุ่มตัวอย่างได้เท่ากับร้อยละ 91.43 คำสำคัญ: เหมืองข้อความ ข้อมูลแบบไม่มีโครงสร้าง เพื ่อนบ้านที ่ใกล้เคียงที ่สุด กฎความสัมพันธ์ แอพริออริ Abstract This paper proposes a hybrid model for rule-based generating of question-answering using text mining technique. The models are used with case study of Question Answering (QA) in the student activity of the university. Text mining technique starts from pre-processing of unstructured data to Thai word segmentation as keywords, which are represented from question sentence and given weight values using TF-IDF technique to convert data into structured data. The hybrid models are used two techniques as k-nearest neighbor algorithm to classify the question and generate the relationship between questions and answers that are analyzed association rules by Apriori algorithm.The experimental results given to 91.43% is average of overall accuracy. Keyword: Data mining, Unstructured data, K-nearest neighbor, Association rules, Apriori บทนำ ในป จจุบันเทคโนโลยีสารสนเทศทางด้านอินเทอร์เน็ตมีการพัฒนาไปอย่างรวดเร็ว และเป็นช่องทางในการติดต่อสอบถามที สาคัญ เนื ่องจากการเข้าถึงที ่ง่าย สะดวก รวดเร็ว ในแต่ละวันจะพบว่ามีคาถามสอบถามเข้ามาในกล่องข้อความเป็นปริมาณมาก แต่ ยังคงจาเป็นต้องใช้มนุษย์ในการตอบคาถาม อย่างไรก็ตามยังต้องพบป ญหาตามมาไม่ว่าจะเป็นการต้องตอบคาถามเดิมซ ้ากัน ซึ ่ง เจ้าหน้าที ่ผู้ตอบคาถามไม่ได้รับผิดชอบในเรื ่องนั้นโดยตรงทาให้ไม่สามารถตอบคาถามได้ ภาระงานด้านอื ่น ทาให้ไม่สามารถตอบ คาถามได้ทันที และไม่สามารถที ่จะตอบคาถามนอกช่วงเวลางานหรือในช่วงวันหยุด หากทาให้สามารถตอบคาถามแบบอัตโนมัติได้ จะ เป็นช่องทางในการลดป ญหาที ่กล่าวมาได้

Transcript of แบบจ ำลองแบบผสมเพื่อสร้ำงกฎส...

Walailak Procedia 2019; 2019(7): NCIs20 http://wjst.wu.ac.th/index.php/wuresearch

การประชมวชาการระดบชาต “สารสนเทศศาสตรวชาการ 2019” วนท 25-26 มถนายน 2562

แบบจ ำลองแบบผสมเพอสรำงกฎส ำหรบค ำถำม-ค ำตอบ โดยใชเทคนคกำรท ำเหมองขอควำม A Hybrid Model for Rule-Based Generating of Question-Answering Using Text Mining

ธนญชย เพงพรหม* และ วรำรตน สงฆแปน

สาขาวชาเทคโนโลยสารสนเทศ คณะวทยาศาสตร มหาวทยาลยขอนแกน อ าเภอเมอง จงหวดขอนแกน 40002

*[email protected]

บทคดยอ งานวจยนน าเสนอแบบจ าลองแบบผสมเพอสรางกฎส าหรบค าถามค าตอบโดยใชเทคนคเหมองขอความ แบบจ าลองถกน ามาใชกบกรณศกษาของค าถามค าตอบในดานกจกรรมนกศกษาของมหาวทยาลย เทคนคการท าเหมองขอมลนเรมจากการเตรยมขอมลของขอความซงอยในรปแบบทไมมโครงสรางมาตดค าภาษาไทยเปนค าส าคญและไดน าค าส าคญทเปนตวแทนของประโยคค าถามมาใหคาน าหนกดวยเทคนค TF-IDF เพอแปลงขอมลใหอยในรปแบบทมโครงสราง จากนนไดน าค าถามมาจ าแนกกลมโดยน าแบบจ าลองแบบผสมระหวางเทคนคการหาเพอนบานทใกลเคยงทสดและใชอลกอรทมแอพรออรเพอหากฎความสมพนธเชอมโยงระหวางค าถามทถกจ าแนกกลมดงกลาวหาค าตอบทเหมาะสมกบค าถามนน ผลลพธทไดจากการทดสอบไดวดประสทธภาพโดยรวมของความถกตองโดยเฉลยของกลมตวอยางไดเทากบรอยละ 91.43 ค ำส ำคญ: เหมองขอความ ขอมลแบบไมมโครงสราง เพอนบานทใกลเคยงทสด กฎความสมพนธ แอพรออร Abstract

This paper proposes a hybrid model for rule-based generating of question-answering using text mining technique. The models are used with case study of Question Answering (QA) in the student activity of the university. Text mining technique starts from pre-processing of unstructured data to Thai word segmentation as keywords, which are represented from question sentence and given weight values using TF-IDF technique to convert data into structured data. The hybrid models are used two techniques as k-nearest neighbor algorithm to classify the question and generate the relationship between questions and answers that are analyzed association rules by Apriori algorithm.The experimental results given to 91.43% is average of overall accuracy.

Keyword: Data mining, Unstructured data, K-nearest neighbor, Association rules, Apriori บทน ำ ในปจจบนเทคโนโลยสารสนเทศทางดานอนเทอรเนตมการพฒนาไปอยางรวดเรว และเปนชองทางในการตดตอสอบถามทส าคญ เนองจากการเขาถงทงาย สะดวก รวดเรว ในแตละวนจะพบวามค าถามสอบถามเขามาในกลองขอความเปนปรมาณมาก แตยงคงจ าเปนตองใชมนษยในการตอบค าถาม อยางไรกตามยงตองพบปญหาตามมาไมวาจะเปนการตองตอบค าถามเดมซ ากน ซงเจาหนาทผตอบค าถามไมไดรบผดชอบในเรองนนโดยตรงท าใหไมสามารถตอบค าถามได ภาระงานดานอน ท าใหไมสามารถตอบค าถามไดทนท และไมสามารถทจะตอบค าถามนอกชวงเวลางานหรอในชวงวนหยด หากท าใหสามารถตอบค าถามแบบอตโนมตได จะเปนชองทางในการลดปญหาทกลาวมาได

แบบจ าลองแบบผสมเพอสรางกฎส าหรบค าถาม-ค าตอบ โดยใชเทคนคการท าเหมองขอความ http://wjst.wu.ac.th/index.php/wuresearch

การประชมวชาการระดบชาต “สารสนเทศศาสตรวชาการ 2019” วนท 25-26 มถนายน 2562

2

จากปญหาทกลาวมาขางตนผวจยไดเหนถงปญหาและความส าคญในการตอบค าถามทมผสอบถามมา ดงนนงานวจยนจงน าเสนอสถาปตยกรรมแบบจ าลองแบบผสมเพอสรางกฎส าหรบค าถาม-ค าตอบ โดยใชเทคนคการท าเหมองขอความ โดยท าการจ าแนกกลมค าถามและหาความสมพนธระหวางค าถามและค าตอบท าใหลดภาระการท างานและแกไขปญหาทมใหลดลงได ทฤษฎและงำนวจยทเกยวของ

เหมองขอมล เหมองขอมล (Han et al., 2011) เปนการสกดและคนหาความร (Knowledge) จากกลมขอมลหรอฐานขอมลปรมาณมหาศาล มาจากค าวา Knowledge Discovery in Database (KDD) เพอใชคนหารปแบบ (Patterns) และความสมพนธ (Associations) ทซอนอยในกลมขอมลชดนน โดยการใชกระบวนการ หรอเทคนค หรอวธการอน เชน หลกสถต การรจ า การเรยนรของเครอง และหลกคณตศาสตร ซงปจจบนไดมการท าเหมองขอความ (Eakasit, 2015) ซงสามารถการคนหาความรในฐานขอมลเอกสาร (Knowledge Discovery in Document Databases) เปนการท าเหมองขอมลประเภทหนง ซงเปนเทคนคการคนหาความรใหม จากขอมลประเภทขอความทมปรมาณมาก โดยการสกดค า คนหารปแบบและความสมพนธทซอนอยในชดขอความเอกสาร โดยอาศยหลกสถต การรจ า การเรยนรของเครอง หลกคณตศาสตร การประมวลผลเอกสาร (Document processing) หลกการประมวลผลขอความ (Text processing) การประมวลผลภาษาธรรมชาต (Natural language processing)

K-Nearest Neighbor Algorithm K-Nearest Neighbor (Inokuchi et al., 2000) หรอ เทคนคการหาเพอนบานใกลทสด เปนการหาประเภทของขอมลโดยให

การวดระยะหางทเรยกวา Euclidean distance เปนวธทใชในการจดแบงคลาส โดยเทคนคนจะตดสนใจวา คลาสใดทจะแทนเงอนไขหรอกรณใหมไดบาง โดยการตรวจสอบจ านวนบางจ านวน ของกรณหรอเงอนไขทเหมอนกนหรอใกลเคยงกนมากทสด โดยจะหาผลรวม ของจ านวนเงอนไข หรอกรณอนส าหรบแตละคลาส และก าหนดเงอนไขใหมใหคลาสทเหมอนกนกบคลาสทใกลเคยงกนมากทสด

สตรการวดระยะหาง Euclidean distance จากสมการ

(1)

โดยท xi คอ ชดขอมลใหม xj คอ ชดขอมลสอนท j ar(xi) คอ คาของแอตทรบวตของขอมล xi ตวท r ar(xj) คอ คาของแอตทรบวตของขอมล xj ตวท r

อลกอรทมแอพพรออร (Apriori Algorithm) กฎความสมพนธ (Association Rules) (Fayyad et al., 1996) เปนกระบวนการหนงในการท าเหมองขอมลโดยใช กฎความสมพนธ เพอหาความสมพนธของขอมลสองชดหรอมากกวาสองชดขนไปภายในขอมลขนาดใหญ การหากฎความสมพนธนนมข นตอนและวธการหาหลายวธดวยกน แตวธทเปนทรจกและใชอยางแพรหลายคอ อลกอรทมแอพรออรและหากตองการทราบความสมพนธของกฎตองค านวณหาคาสนบสนน คาความเชอมน และหาคาหาสมพนธระหวางขอมล วาขอมลมความสมพนธกนมากนอยเพยงใด การจะไดมาซงกฎความสมพนธ จะตองผานคา 2 คา ดงน การค านวณหาคาสนบสนน Support จากสมการ

Support X Y P X Y (2) ความนาจะเปนของจ านวน Transaction ทปรากฏ X และ Y รวมกน

แบบจ าลองแบบผสมเพอสรางกฎส าหรบค าถาม-ค าตอบ โดยใชเทคนคการท าเหมองขอความ http://wjst.wu.ac.th/index.php/wuresearch

การประชมวชาการระดบชาต “สารสนเทศศาสตรวชาการ 2019” วนท 25-26 มถนายน 2562

3

การค านวณหาคาความเชอมน Confidence จากสมการ Confidence X Y P X Y P X (3)

ความนาจะเปนของจ านวน Transaction ทปรากฏ X และ Y หารดวยความนาจะเปนของ Transaction ปรากฏ X เพยงอยางเดยว

TF-IDF Weighting Term Frequency–Inverse Document Frequency (TF-IDF) (Rajaraman & Ullman, 2011) การใหน าหนกหรอการก าหนด

น าหนกของค า โดยค าทส าคญจะใชเปนตวแทนของเอกสาร ควรมปรมาณมากในเนอหาของเอกสารนน แตค าทปรากฏในเอกสารนนทกเอกสาร แสดงวาค านนไมสามารถเปนตวแทนของเอกสารได การใหคาน าหนกในของค าในเอกสารฉบบหนง จงพจารณาจากความถของค า ทปรากฏในเอกสารนน และจ านวนของเอกสารทงหมดทมมค าปรากฏอย วธการใหคาน าหนกทนยมใชกนมากคอ TF-IDF (Term Frequency- Inverted Document Frequency) ซงสามารถแสดงไดดงสมการ wt d D tdt d idft d (4)

โดยท W คอ คาน าหนกทได t คอ ค าหลกทสนใจ d คอ จ านวนประโยคทพบในเอกสาร

D คอ จ านวนเอกสารทงหมด TD คอ ความถของค าหลกทพบในเอกสาร IDF คอ จ านวนเอกสารทงหมดตอความถของค าหลก งำนวจยทเกยวของ การจดกลมค าถามอตโนมตบนกระดานสนทนาโดยใชเทคนคเหมองขอความ (ราชวทย ทพยเสนา และคณะ, 2556) ลกษณะ

ของกระดานสนทนาจะอยในรปแบบของการถามตอบประเดนปญหาหรอค าถามขอสงสยเกยวกบเรองการบรการของหนวยงาน พบวา กระดานสนทนายงไมมการจ าแนกหมวดของค าถามซงมทงสวนทเกยวของและไมเกยวของกบหนวยงาน ท าใหเกดปญหาในการตอบค าถามทไมสามารถตอบค าถามใหตรงประเดนและชดเจนได ซงงานวจยนท าการศกษาและเปรยบเทยบประสทธภาพ วธการสรางดชนเอกสารทเหมาะสมดวยวธ TF-IDF-Weighting และเทคนคในการจ าแนกขอความของ 3 เทคนควธ คอ เทคนคการหาเพอนบานใกลทสด เทคนคตนไมตดสนใจและเทคนคการเรยนรเบยอยางงาย ผลการวดประสทธภาพแสดงใหเหนวา เทคนคการหาเพอนบานใกลทสดใหประสทธภาพในการจ าแนกดทสด โดยคาความถกตองเทากบ 0.89 คาความเทยง เทากบ 0.9 คาความระลก เทากบ 0.89 และคา F-Measure เทากบ 0.892

การสรางระบบถาม-ตอบภาษาไทยเพอใชตดสนใจของนกศกษามหาวทยาลยรามค าแหง (สงหทย สขสวางโรจน และ ระพพรรณ พรยะกล, 2557) ในเรองทเกยวของกบมหาวทยาลย ซงไดน าค าถามจาก ระบบถามตอบในเวบไซตของมหาวทยาลย มาท าการการวเคราะหค าถาม (Question analysis) และสรางฐานขอมลค าตอบ การสรางระบบใชเทคนคการท าเหมองขอความ ซงประกอบดวย การตดค า การแจงประโยคดวยกฎ และการแบงกลมดวยวธ K-Mean เพอหารปแบบค าถามและความร ผลการทดสอบ ระบบไดคาความถกตอง 0.88 คาความแมนย า 0.88 และ F-measure เทากบ 0.936

การพฒนาหาตนแบบการคนหาค าตอบทเกยวของกบค าถามแบบอตโนมต (สพจน บวเลง และ วรารตน สงฆแปน, 2557) ซงมกระบวนการคอไดน าค าหลกทเปนตวแทนของประโยคของค าถามและค าตอบมาท าการวดความคลายคลงของค าเชงความหมาย (Semantic similarity) โดยอาศยฐานขอมลค าศพทเชงความหมายในเวรดเนต (Wordnet) จากนนไดท าการแยกกลมของค าหลกโดยใชหลกการของเลซคอลเชน (Lexical Chain) เพอน าไปหากฎความสมพนธ เพอเชอมโยงค าหลกของค าถามและค าตอบโดยใชอลกอรทมแอพรออรโดยค าถามและค าตอบทน ามาทดสอบมจ านวน 200 เรคอรด วดประสทธภาพโดยรวมของความถกตอง (F-measure) เทากบรอยละ 84.36

แบบจ าลองแบบผสมเพอสรางกฎส าหรบค าถาม-ค าตอบ โดยใชเทคนคการท าเหมองขอความ http://wjst.wu.ac.th/index.php/wuresearch

การประชมวชาการระดบชาต “สารสนเทศศาสตรวชาการ 2019” วนท 25-26 มถนายน 2562

4

ระบบถามตอบเพอการดแลตนเองของผปวยเบาหวาน (สวสา คงวดใหม และคณะ, 2560) ซงมวตถประสงคคอเพอชวยใหผปวยหรอผดแลสามารถชวยเหลอตนเองแทนการไปพบแพทย โดยใชวธการ การท าเหมองขอความและการท าเหมองขอมล ดวยวธหาคาความคลายคลงแบบโคซายน ในการใหค าแนะน าผปวยจากค าถามของผใช ระบบจะแนะน าการปฏบตตนทเหมสมทตรงกบอาการของผปวย ระบบพฒนาในรปแบบของเวบแอปพลเคชน ผลการวจยพบวา ระบบสามารถตอบค าถามไดถกตองรอยละ 76.67 ระบบถามตอบดานการบรการนกศกษาดวยการวเคราะหความหมายแฝง (เรอนทพย ทองใบ และ กาญจนา วรยะพนธ, 2556) มวตถประสงคเพอพฒนาระบบในการหาค าตอบซงเปนระบบทใหความสะดวกแกผใชดวยการรบค าขอจากผใชและไดรบผลลพธทเปนค าตอบตามทตองการ โดยขนตอนการหาค าตอบไดใชอลกอรทมแบบจ าลองเวกเตอรสเปซ (Vector Space Model) และ Latent Semantic Indexing (LSI) มาเปรยบเทยบกน วาอลกอรทมใดใหประสทธภาพมากทสด ผลการประเมนประสทธภาพ แบบจ าลองเวกเตอรสเปซ ไดคาความแมนย า (Precision) เทากบรอยละ 89.1 คาความครบถวน (Recall) เทากบรอยละ 72 และคา F-measure เทากบรอยละ 77 อลกอรทมแบบ LSI ไดคาความแมนย า (Precision) เทากบรอยละ 90 ไดคาความครบถวน (Recall) เทากบรอยละ 100 และไดคา F-measure เทากบรอยละ 95 จงสรปไดวา อลกอรทมแบบLSI สามารถคนคนเอกสารไดดกวาแบบจ าลองเวกเตอรสเปซ วธด ำเนนกำรวจย

วธด าเนนการวจยประกอบดวย 4 สวน ไดแก การเตรยมขอมลเพอประมวลผลขอความ การจ าแนกกลมค าถาม การหาความสมพนธระหวางค าถามและค าตอบ และทดสอบความถกตองของกฎทได แสดงดงรปท 1

Conceptual Freamework

Text Preprocessing

Raw Question

Group KeywordAnswer

Text Cleaning

Word Segmentation

Stop Word Remove

Stemming

Text Transformation

Rule

AssociationApriori algorithm

ClassificationK-Nearest Neighbour algorithm

Keyword Selection

Questioni-Answering Testing

Expert

รปท 1 สถาปตยกรรมของแบบจ าลอง

แบบจ าลองแบบผสมเพอสรางกฎส าหรบค าถาม-ค าตอบ โดยใชเทคนคการท าเหมองขอความ http://wjst.wu.ac.th/index.php/wuresearch

การประชมวชาการระดบชาต “สารสนเทศศาสตรวชาการ 2019” วนท 25-26 มถนายน 2562

5

กำรเตรยมขอมลและกำรแปลงขอมล งานวจยไดรวบรวมขอมลค าถามจากกลมขอความโซเชยลเนตเวรกผานแพจ Facebook ชอ กองพฒนานกศกษา มหาวทยาลย

ราชภฏอดรธาน ตงแตป พ.ศ. 2555-2561 จ านวน 443 เรคอรด ไดท าการแบงกลมค าถามออกเปน 7 กลม ไดแก งานพระราชทานปรญญาบตร งานหอพก งานนกศกษาวชาทหาร งานทนกการศกษางานกจกรรมนกศกษา งานกฬา และงานตดตอทวไป โดยแยกประเภทของกลมค าถามโดยผเชยวชาญ จากนนเขาสการเตรยมขอมลดงน

กำรกรองขอมล (Text cleaning) ท าการกรองเฉพาะสวนทเกยวของกบงานของกองพฒนานกศกษา และท าการแกไขค าถกผด กระบวนกำรตดค ำ (Word segmentation) น าค าถามเขาสกระบวนการตดค าดวยโปรแกรม THSpliLib (สวชา เผอกอม,

2558) แสดงดงรปท 2

รปท 2 การใชงานโปรแกรมตดค าภาษาไทย THSpliLib

งานวจยนไดท าการแกไขโปรแกรม THSpliLib ในสวนการแสดงผล เพอใหไดค าทแยกออกจากกนโดยขนดวยเครองหมายจลภาค ดงตารางท 1 ตำรำงท 1 ตวอยางรปแบบการตดค า

ตวอยำงประโยค ประโยคหลงจำกผำนกระบวนกำรตดค ำ ขอโทษนะคะ ขออนญาตสอบถามคะ ถาไมประสงคจะรบพระราชทานปรญญาบตรตองท าอยางไรคะ

ขอโทษ , นะคะ , ขออนญาต , สอบถาม , คะ , ถา , ไมประสงค , จะ , รบพระราชทาน , ปรญญาบตร , ตอง , ท า , อยางไร , คะ

ก ำจดค ำหยด (Stop word remove) เปนการก าจดค าทไมจ าเปนหรอไมเกยวของออก ซงมปรมาณมากและซ าซอนกน ไดแก

ค าบพบท และค าสนธาน ขอโทษ , นะคะ , ขออนญาต , สอบถาม , คะ , ถา , ไมประสงค , จะ , รบพระราชทาน , ปรญญาบตร , ตอง , ท าอยางไร , คะ กำรหำรำกศพท (Stemming) เปนการหาค าทยงไมเปลยนรป หรอยงไมเตมค าอปสรรค เปนการหารปแบบเดมของค าทม

ความหมายคลายกนมารวมเปนค าเดยวกน แตไวยากรณของภาษาไทยมความซบซอน ท าใหในปจจบนยงไมมอลกอรทมในการหารากศพท จงตองท าโดยผเชยวชาญดานภาษาไทยเพอจดท าคลงค าส าหรบใชเปรยบเทยบค า ดงตวอยางตารางท 2 ตำรำงท 2 ตวอยางคลงค ารากศพท

รำกศพท ค ำศพท ปรญญา ปรญญาบตร,ปรญญาตร,พระราชทานปรญญาบตร,ปรญ หอ หอพกใน,หอพกมอใน,หอใน,หอสามพราว,หอพกสามพราว,หอนอก

แปลงขอมล (Text transformation) การแปลงขอมลจากรปแบบทไมมโครงสรางใหอยในรปแบบทมโครงสราง โดยเลอกค า

ส าคญโดยผเชยวชาญคอหวหนาฝายกจกรรมนกศกษา โดยมค าส าคญทใชส าหรบจ าแนกประเภทค าถาม ดงน

แบบจ าลองแบบผสมเพอสรางกฎส าหรบค าถาม-ค าตอบ โดยใชเทคนคการท าเหมองขอความ http://wjst.wu.ac.th/index.php/wuresearch

การประชมวชาการระดบชาต “สารสนเทศศาสตรวชาการ 2019” วนท 25-26 มถนายน 2562

6

ค าส าคญในกลมพระราชทานปรญญาบตร มทงหมด 8 ค า ดงตารางท 3 ตำรำงท 3 ค าส าคญงานพระราชทานปรญญาบตร

ลงทะเบยนซอม ปรญญา ครย ไมมชอ บณฑต

ไมไดรป ซอมใหญ รปรวม

ค าส าคญในกลมงานหอพก มทงหมด 2 ค า ดงตารางท 4 ตำรำงท 4 ค าส าคญงานหอพก

หอ อยดวยกน ค าส าคญในกลมส าคญงานวชาทหารมทงหมด 4 ค า ดงตารางท 5 ตำรำงท 5 ค าส าคญงานวชาทหาร

ผอนผน ทหาร นกศกษาวชาทหาร รด ค าส าคญในกลมงานทนการศกษา มทงหมด 5 ค า ดงตารางท 6 ตำรำงท 6 ค าส าคญงานทนการศกษา

กยศ สวสดการและสวสดภาพ ก ทน แบบค าขอ ค าส าคญในกลมงานกจกรรม มทงหมด 8 ค า ดงตารางท 7 ตำรำงท 7 ค าส าคญงานกจกรรม

กจกรรม ประดบตรา ป ม ปฐมนเทศ ไหวคร

องคการ ชมรม ชมนม ค าส าคญในกลมงานกฬา มทงหมด 5 ค า ดงตารางท 8 ตำรำงท 8 ค าส าคญงานกฬา

กฬา เรยนฟร ฟตซอล บาส เหรยญ ค าส าคญในกลมงานตดตอทวไป มทงหมด 9 ค า ดงตารางท 9 ตำรำงท 9 ค าส าคญงานตดตอทวไป

เบอรตดตอ ลมรหสผาน ท าการ ประกน ไซส

อบตเหต เปดปด บตรนกศกษา เสอเฟรชช เมอไดค าหลกซงเลอกโดยผเชยวชาญท าการแทนรหสค าใหค าส าคญ เพอใหสามารถน าไปใชประมวลผล ดงตารางท 10

แบบจ าลองแบบผสมเพอสรางกฎส าหรบค าถาม-ค าตอบ โดยใชเทคนคการท าเหมองขอความ http://wjst.wu.ac.th/index.php/wuresearch

การประชมวชาการระดบชาต “สารสนเทศศาสตรวชาการ 2019” วนท 25-26 มถนายน 2562

7

ตำรำงท 10 ก าหนดรหสใหกบค าหลกใสสวนของค าถาม รหสค ำ ค ำส ำคญ รหสค ำ ค ำส ำคญ KW1 ลงทะเบยนซอม KW22 ประดบตรา KW2 ปรญญา KW23 ป ม KW3 ครย KW24 ปฐมนเทศ KW4 ไมมชอ KW25 ไหวคร KW5 บณฑต KW26 องคการ KW6 ไมไดรป KW27 ชมรม KW7 ซอมใหญ KW28 ชมนม KW8 รปรวม KW29 กฬา KW9 หอ KW30 เรยนฟร KW10 อยดวยกน KW31 ฟตซอล KW11 ผอนผน KW32 บาส KW12 ทหาร KW33 เหรยญ KW13 นกศกษาวชาทหาร KW34 เบอรตดตอ KW14 รด KW35 ลมรหสผาน KW15 กยศ KW36 ท าการ KW16 สวสดการและสวสดภาพ KW37 ประกน KW17 ก KW38 ไซส KW18 ทน KW39 อบตเหต KW19 แบบค าขอ KW40 เปดปด KW20 กจกรรม KW41 บตรนกศกษา KW21 กฬาวงแดง KW42 เสอเฟรชช

หลงจากนนผเชยวชาญไดเลอกค าส าคญโดยเลอกค าทเปนค าทบงบอกและสามารถสอไปสค าตอบได ซงจ าเปนตองแยกออกจากค าส าคญจากตารางท 10 เนองจากหากรวมเขากบค าส าคญทเลอกไวแลวนน มโอกาสทจะท าใหการจ าแนกกลมค าถามผดพลาดไดสง เพราะ ค าบางค าอาจปรากฏอยในกลมค าถามอนจงตองแยกออกจากกนและใชเฉพาะขนตอนการหากฎความสมพนธเทานน โดยค าส าคญเฉพาะกลมค าถามมตวอยาง ดงตารางท 11 ตำรำงท 11 ตวอยางค าส าคญเฉพาะภายในกลมค าถาม

กลมค ำถำม รหสค ำของกลมค ำถำม ค ำส ำคญของกลมค ำถำม งานรบปรญญา GraduationAsso1 ก าหนดการ งานกจกรรม ActivityAsso4 ไมขน ทนการศกษา ScholarshipAsso1 สมภาษณ งานหอพก DormitoryAsso1 วน

แบบจ าลองแบบผสมเพอสรางกฎส าหรบค าถาม-ค าตอบ โดยใชเทคนคการท าเหมองขอความ http://wjst.wu.ac.th/index.php/wuresearch

การประชมวชาการระดบชาต “สารสนเทศศาสตรวชาการ 2019” วนท 25-26 มถนายน 2562

8

เตรยมขอมลส ำหรบกำรจ ำแนกหมวดค ำถำม น าค าส าคญทไดจากตารางท 11 มาแปลงขอมลใหอยในรปแบบทมโครงสรางเพอประมวลผล โดยการใหคาน าหนกของค าแตละค าดวยเทคนค TF-IDF Weighting โดยคาน าหนกของค าหาไดจากการเปรยบเทยบค าถามกบค าส าคญ และนบจ านวนค าส าคญทพบในค าถาม เพอน าความถมาค านวณหาคาน าหนก ดงตารางท 12 ตำรำงท 12 ตวอยาง TF-IDF Weighting for Classification

Q KW1 KW2 ... KW 42 Class Q1 0.00 3.10 ... 0.00 Graduation Q2 0.00 0.00 ... 0.00 Dormitory Q3 3.97 0.00 ... 0.00 Activity … … … … … …

Q443 0.00 3.25 … 0.00 Dormitory กำรวเครำะหขอมล กำรจ ำแนกกลมค ำถำม

กระบวนการวเคราะหขอมลเรมจากการน าเขาขอมลจากขนตอนการเตรยมขอมลส าหรบการจ าแนกกลม ดวยโปรแกรม Weka โดยใช K-Nearest Neighbor Algorithm เพอวดความถกตองของการจ าแนกกลม โดยแยกออกเปนสวนเรยนร (Train) จ านวน 443 เรคอรด แลวสวนทดสอบ (Test) จ านวน 70 เรคอรด ไดผลการจ าแนกกลมค าถาม ดงรปท 3

รปท 3 ผลการทดลองในขนตอนการจ าแนกประเภทหมวดค าถาม

กระบวนกำรหำกฎควำมสมพนธ เมอขนตอนการจ าแนกกลมเรยบรอย จะน าค าหลกของแตละกลมทไดเตรยมไว มารวมกบค าส าคญทใชจ าแนกกลมค าถาม มาหา

ความสมพนธระหวางค าถามและค าตอบ เพอวเคราะหหากฎความสมพนธโดยใชอลกอรทมแอพลออรในขนตอนถดไป ดงตารางท 13

แบบจ าลองแบบผสมเพอสรางกฎส าหรบค าถาม-ค าตอบ โดยใชเทคนคการท าเหมองขอความ http://wjst.wu.ac.th/index.php/wuresearch

การประชมวชาการระดบชาต “สารสนเทศศาสตรวชาการ 2019” วนท 25-26 มถนายน 2562

9

ตำรำงท 13 ตวอยางการเตรยมขอมลเพอวเคราะหหากฎความสมพนธ KW1 KW2 ... GraduationAsso1 GraduationAsso2 ... GraduationAssoN Class

T ... T ... Graduation1 ... T ... Graduation2 T ... ... Graduation1 … … …

กระบวนการวเคราะหขอมลเรมจากการน าเขาขอมลจากขนตอนการเตรยมขอมลส าหรบการหากฎความสมพนธ ดวยโปรแกรม

Weka โดยใชอลกอรทมแอพรออร เพอสรางกฎ โดยไดตวอยางกฎออกมา ดงรปท 4

รปท 4 ตวอยางผลลพธของวเคราะหขอมลเพอหากฎความสมพนธของค าถามและค าตอบ

ผลและอภปรำยผล จากการวเคราะหโดยการจ าแนกประเภทค าถามดวย k-NN ไดผลการทดสอบการจ าแนกกลมค าถามเมอปรบคา k ดงตารางท 14 ตำรำงท 14 ผลการวเคราะหในขนการจ าแนกประเภทค าถาม Test Options 3NN 5NN 7NN 9NN Supplied test set 98.57% 97.14% 88.57% 78.57%

จากตารางวดความถกตองพบวา เทคนคการหาเพอนบานใกลทสด โดยจ านวน k-NN เทากบ 3 ใหประสทธภาพในการจ าแนกด

ทสด โดยไดคาความถกตองเทากบรอยละ 98.57 หลงจากนนไดน าขอมลมาท าการวเคราะหตอในขนตอนใชกฎความสมพนธ ไดกฎทนาสนใจในแตละกลมค าถามออกมา ดงตารางท 15

แบบจ าลองแบบผสมเพอสรางกฎส าหรบค าถาม-ค าตอบ โดยใชเทคนคการท าเหมองขอความ http://wjst.wu.ac.th/index.php/wuresearch

การประชมวชาการระดบชาต “สารสนเทศศาสตรวชาการ 2019” วนท 25-26 มถนายน 2562

10

ตำรำงท 15 ตวอยางกฎทไดจากการหาความสมพนธในแตละกลมค าถามโดยใชอลกอรทมแอพรออร ตวอยำงกฎ กฎทได คำ Conf งานรบปรญญา KW2(ปรญญา) KW4(ไมมชอ)Answer=Graduation7(ไมมรายชอรบปรญญา)

ถาสบคนจากค าวา “ปรญญา” แลว จะไดค าตอบ “ไมมรายชอรบปรญญา” โดยมคาความเชอมนเทากบ 89%

0.89

งานกจกรรม KW20 (กจกรรม) ActivityAss4 (ไมขน) Answer=Activity4 (กจกรรมไมแสดงผลในระบบ) ถาสบคนจากค าวา “กจกรรม” และ “ไมขน” แลว จะไดค าตอบ “กจกรรมไมแสดงผลในระบบ” โดยมคาความเชอมนเทากบ 100%

1

งานวชาทหาร KW11 (ผอนผน) KW12 (ทหาร) Answer=Militarywork1 (ก าหนดการผอนผนทหาร) ถาสบคนจากค าวา “ผอนผน” และ “ทหาร” แลว จะไดค าตอบ “ก าหนดการผอนผนทหาร” โดยมคาความเชอมนเทากบ 52%

0.52

ทนการศกษา KW15 (กยศ) ScholarshipAsso (เอกสาร) Answer=Scholarship2 (ก าหนดการสงเอกสาร) ถาสบคนจากค าวา “กยศ” และ “เอกสาร” แลว จะไดค าตอบ “ก าหนดการสงเอกสาร” โดยมคาความเชอมนเทากบ 100%

1

งานหอพก KW9 (หอ) DormitoryAsso2 (จอง) Answer=Dormitory2 (รายละเอยดการจองหอพก) ถาสบคนจากค าวา “หอ” และ “จอง” แลว จะไดค าตอบ “รายละเอยดการจองหอพก” โดยมคาความเชอมนเทากบ 100%

1

งานกฬา KW29 (กฬา) KW33 (เหรยญ) Answer=Sport2 (เกณฑรางวลเมอไดรบเหรยญ) ถาสบคนจากค าวา “กฬา” และ “เหรยญ” แลว จะไดค าตอบ “เกณฑรางวลเมอไดรบเหรยญ” โดยมคาความเชอมนเทากบ 100%

1

งานตดตอ KW35 (ลมรหสผาน) Answer=Contact2 (ชองทางตดตอศนยคอมพวเตอร) ถาสบคนจากค าวา “ลมรหสผาน” แลว จะไดค าตอบ “ชองทางตดตอศนยคอมพวเตอร” โดยมคาความเชอมนเทากบ 100%

1

เมอไดกฎออกมาและท าการเลอกเฉพาะกฎทเขาเกณฑ คอ ประกอบไปดวย สวนของ ค าส าคญส าหรบจ าแนกกลม ค าส าคญส าหรบหาค าตอบ และสวนของค าตอบ ส าหรบใชประมวลผลตอไป ซงขอมลส าหรบการไปพฒนาตอเปนระบบตอบค าถาม มขอมลดงตารางท 16

แบบจ าลองแบบผสมเพอสรางกฎส าหรบค าถาม-ค าตอบ โดยใชเทคนคการท าเหมองขอความ http://wjst.wu.ac.th/index.php/wuresearch

การประชมวชาการระดบชาต “สารสนเทศศาสตรวชาการ 2019” วนท 25-26 มถนายน 2562

11

ตำรำงท 16 ตวอยางค าตอบในแตละกลมค าถาม ค ำตอบจำกกฎ ค ำตอบทใชแสดงผล

ไมมรายชอรบปรญญา หากตรวจสอบแลวไมพบรายชอ จะตองรอรบพระราชทานปรญญาบตรในรอบตอไปครบผม เนองจากรายชอทปรากฏจะมขอมลเฉพาะผทไดรบการอนมตส าเรจการศกษากอนเดอนมถนายนนเทานนครบ

กจกรรมไมแสดงผลในระบบ หากไมพบรายชอในกจกรรม สามารถน าหลกฐานวาไดมการเขารวมกจกรรมจรง ยนไดทกองพฒนานกศกษา อาคารกจกรรมนกศกษา เพอตรวจสอบครบ

ก าหนดการผอนผนทหาร ในขณะนยงไมมก าหนดการจากทางสสดครบ เมอมก าหนดการทชดเจนทางกองพฒนานกศกษาจะแจงใหทราบอกครงทางเวบไซต http://std.udru.ac.th

รายละเอยดการจองหอพก สามารถดรายละเอยดการจองหอพกไดท http://std.udru.ac.th/ ก าหนดการสงเอกสาร กยศ 5 สงหาคม 2562 คณะมนษยศาสตรและสงคมศาสตร

7 สงหาคม 2562 คณะครศาสตร 8 สงหาคม 2562 คณะวทยาการจดการ 9 สงหาคม 2562 คณะวทยาศาสตร และ คณะเทคโนโลย

เกณฑรางวลเมอไดรบเหรยญรางวล รางวลระดบภมภาค เหรยญทอง เรยนฟร 1 ปการศกษา รางวลระดบประเทศ - เหรยญทอง เรยนฟร ตลอดหลกสตร - เหรยญเงน เรยนฟร 2 ป - เหรยญทองแดง เรยนฟร 1 ป

เมอน ากฎทไดมาเทยบกบค าถามทใชส าหรบทดสอบจ านวน 70 ค าถาม โดยแบงออกเปนกลมค าถามละ 10 ขอ ไดวดคาความ

ถกตองของกฎได ดงตารางท 17

ตำรำงท 17 วดประสทธภาพของกฎโดยแยกตามหมวดหม หมวดค ำถำม ค ำถำมทงหมด ตอบถก Accuracy

กจกรรม 10 9 90.00% รบปรญญา 10 9 90.00% วชาทหาร 10 10 100.00% หอพก 10 9 90.00% กฬา 10 10 100.00%

ทนกยม 10 8 80.00% ตดตอ 10 9 90.00%

คำเฉลย 70 64 91.43% จากตารางท 17 จะเหนไดวา ในกลมงานวชาทหาร และงานกฬา สามารถตอบค าถามไดดทสด เนองจาก ความซบซอนของค าถามและค าตอบนอยกวากลมค าถามกลมอน และการเลอกค าส าคญของผเชยวชาญ ซงสามารถเลอกค าส าคญทสามารถจ าแนกประเภทกลมค าถาม และสามารถใชหาค าตอบไดเทยงตรง

แบบจ าลองแบบผสมเพอสรางกฎส าหรบค าถาม-ค าตอบ โดยใชเทคนคการท าเหมองขอความ http://wjst.wu.ac.th/index.php/wuresearch

การประชมวชาการระดบชาต “สารสนเทศศาสตรวชาการ 2019” วนท 25-26 มถนายน 2562

12

สรปผลกำรวจย งานวจยนใชค าถามและค าตอบภาษาไทยในดานงานกจกรรมนกศกษาของมหาวทยาลย จ านวน 443 เรคอรด การทดลอง

ประกอบดวยขนตอนการประมวลผลภาษาธรรมชาต ดวยการตดค าและแทนค าหลกดวยรหสค า น ามาใหคาน าหนกดวยเทคนค TF-IDF หลงจากนนจงเขาสการจ าแนกหมวดหมค าถามดวยเทคนคการหาเพอนบานทใกลเคยงทสด และน าค าหลกจากการจ าแนกหมวดหมค าถามและค าตอบในหมวดค าถามมาหาการเชอมโยงระหวางค าถามและค าตอบดวยกฎความสมพนธโดยใชอลกอรทม แอพรออร เมอน ามาวดประสทธภาพโดยรวมของความถกตองโดยเฉลยของกฎจากกลมตวอยางเทากบ 91.43 % แบบจ าลองสามารถตอบค าถามไดถกตองเปนทนาพอใจ สามารถน าไปพฒนาตอเพอใชงานจรงท าใหลดปญหาการตอบค าถามทมความซ าซอนได บรรณำนกรม ราชวทย ทพยเสนา, ฉตรเกลา เจรญผล และ แกมกาญจน สมประเสรฐศร. (2556). การจ าแนกกลมค าถามอตโนมตบนกระดาน

สนทนา โดยใชเทคนคเหมองขอความ. เรอนทพย ทองใบ และ กาญจนา วรยะพนธ. (2556).การพฒนาระบบถามตอบดานการบรการนกศกษา ดวยการวเคราะห

ความหมายแฝง. National Conference on Computing and Information Technology. สงหทย สขสวางโรจน และ ระพพรรณ พรยะกล . (2557). ระบบถาม-ตอบภาษาไทยเพอสนบสนนการตดสนใจ ของนกศกษา

มหาวทยาลยรามค าแหง. สพจน บวเลง และ วรารตน สงฆแปน. (2557). การแยกกลมค าถามเพอคนหาค าตอบโดยใชเวบเชงความหมายและการท าเหมอง

ขอมล. สวชา เผอกอม. (2558). โปรแกรมตดค าขอความภาษาไทย THSplilLib. สวสา คงวดใหม, สดฝน สวรรณมณ และ ณชนนทน กตตพฒนบวร. (2560). การพฒนาระบบถามตอบเพอการดแลตนเองของผปวย

เบาหวาน. Eakasit P. (2015). Introduction to Data Mining Techniques. Fayyad, U.M., et al. (1996). Advances in knowledge discovery and data mining. Vol. 21 .1996 : AAAI press Menlo Park. Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques. Inokuchi, A.,Washio, T., & Motoda, H. (2000). An apriori-based algorithm for mining frequent substructures from graph

data. Principles of Data Mining and Knowledge Discovery, 2000: p. 13-23. Rajaraman, A. & Ullman, J.D. (2011). "Data Mining" (PDF). Mining of Massive Datasets. pp. 1–17.

doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2.