Introduction to Weka
Transcript of Introduction to Weka
GIỚI THIỆU PHẦN MỀM GIỚI THIỆU PHẦN MỀM WEKAWEKA
Giáo viên hướng dẫn thực hành:Nguyễn Ngọc ThảoNguyễn Hải Minh
Trường Đại học Khoa học Tự nhiênKhoa Công nghệ Thông tin
NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY
Giới thiệu phần mềm Weka
Các chức năng của phần mềm
Tìm hiểu ứng dụng Explorer
2
NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY
Giới thiệu phần mềm Weka
Các chức năng của phần mềm
Tìm hiểu ứng dụng Explorer
3
LỊCH SỬ PHÁT TRIỂNLỊCH SỬ PHÁT TRIỂN
WEKA – Waikato Environment for Knowledge Analysis.Là phần mềm khai thác dữ liệu, thuộc dự án nghiên cứu của đại học Waikato, New Zealand.Mục tiêu: xây dựng một công cụ hiện đại nhằm phát
triển các kỹ thuật máy học và áp dụng chúng vào bài toán khai thác dữ liệu trong thực tế.
4
LỊCH SỬ PHÁT TRIỂNLỊCH SỬ PHÁT TRIỂN
1993 – Đại học Waikato, New Zealand, khởi động dự án, xây dựng phiên bản đầu tiên của Weka.1997 – Quyết định xây dựng lại Weka từ đầu bằng Java, có cài đặt các thuật toán mô hình hóa.
2005 – Weka nhận giải thưởng SIGKDD Data Mining and Knowledge Discovery Service Award.Xếp hạng trên Sourceforge.net từ 25-06-2007: 241 (907,318 lượt). 5
CÁU TRÚC PHẦN MỀMCÁU TRÚC PHẦN MỀMWEKA được xây dựng bằng ngôn ngữ Java, cấu trúc gồm hơn 600 lớp, tổ chức thành 10 packages.Các chức năng chính của phần mềm:
Khảo sát dữ liệu: tiền xử lí dữ liệu, phân lớp, gom nhóm dữ liệu, và khai thác luật kết hợp.Thực nghiệm mô hình: cung cấp phương tiện để kiểm chứng, đánh giá các mô hình học.Biểu diễn trực quan dữ liệu bằng nhiều dạng đồ thị khác nhau.
6
TRANG CHỦ WEKATRANG CHỦ WEKATrang chủ: http://www.cs.waikato.ac.nz/ml/weka/
7
TRANG CHỦ WEKATRANG CHỦ WEKA
Dự án máy học Weka Phần mềm Weka
Lịch sử phát triển Phiên bản cài đặt
Thành phần nhân sự
Bài báo công bố
Tài liệu tham khảo
Hướng dẫn sử dụng
Các tập dữ liệu
8
CÁC PHIÊN BẢN WEKACÁC PHIÊN BẢN WEKASnapshots là các bản vá lỗi mới nhất, thường là được cập nhật hàng đêm.
Developer versions là các phiên bản thử nghiệm, hỗ trợ nhiều tính năng mới nhưng còn chưa ổn định.
Book versions là các phiên bản thể hiện những chức năng được mô tả trong quyển sách Data Mining: Practical Machine Learning Tools and Techniques (2nd Edition) của Ian.H.Witten và Eibe Frank.
9
NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY
Giới thiệu phần mềm Weka
Các chức năng của phần mềm
Hướng dẫn sử dụng ứng dụng Explorer
10
KHẢO SÁT DỮ LIỆUKHẢO SÁT DỮ LIỆUExplorer: là ứng dụng con cho phép thực nghiệm các nhiệm vụ khai thác dữ liệu thường gặp như:
Tiền xử lý dữ liệuKhai thác luật kết hợpPhân lớpGom nhóm
11
THỰC NGHIỆM MÔ HÌNHTHỰC NGHIỆM MÔ HÌNHExperimenter: là ứng dụng con cung cấp môi trường thực nghiệm để kiểm chứng các mô hình học, so sánh với nhau để đánh giá.
13
KẾT NỐI THÔNG TINKẾT NỐI THÔNG TINArffViewer: là ứng dụng con trình bày nội dung tập dữ liệu có định dạng *.ARFF thành bảng dữ liệu.SqlViewer: cho phép kết nối với cơ sở dữ liệu (MySQL, PostGre…) và truy vấn để lấy thông tin.
14
BIỂU DIỄN TRỰC QUANBIỂU DIỄN TRỰC QUANWeka hỗ trợ người dùng biểu diễn trực quan dữ liệu qua những dạng biểu đồ thông dụng: biểu đồ trục, cây, đồ thị, biểu đồ vùng….
15
NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY
Giới thiệu phần mềm Weka
Các chức năng của phần mềm
Tìm hiểu ứng dụng Explorer
18
CÁC CHỨC NĂNGCÁC CHỨC NĂNG
Tiền xử lý dữ liệu
Khai thác LKH
Phân lớp
Gom nhóm
Chọn lọc thuộc tính
19
TIỀN XỬ LÝ DỮ LIỆUTIỀN XỬ LÝ DỮ LIỆUHiển thị thông tin về dữ liệu đang xét
Tập dữ liệu: tên, số mẫu, số thuộc tính.Các thuộc tính: tên, kiểu dữ liệu, giá trị thuộc tính, tỷ lệ %...Biểu đồ minh họa thông tin.
Cung cấp các bộ lọc dữ liệu thông dụng, ví dụ:ReplaceMissingValues: thay thế giá trị thiếu.Normalize: chuẩn hóa dữ liệu về đoạn [0, 1].Discretize: rời rạc hóa dữ liệu.
20
KHAI THÁC LUẬT KẾT HỢPKHAI THÁC LUẬT KẾT HỢPCung cấp các thuật toán khai thác luật kết hợp
AprioriPredictiveApriori: là cải tiến của thuật toán Apriori.
22
PHÂN LỚPPHÂN LỚPCung cấp rất nhiều thuật toán phân lớp, được gom thành các nhóm dựa trên cơ sở lý thuyết hoặc chức năng.
Bayes: mạng Bayes, Naïve Bayes...Hàm: SVM, các phương pháp hồi quy, hậu tuyến tính…Cây: ID3, C4.5 (J58)…Các phương pháp phân lớp dựa trên luật.Bagging, AdaBoost…
24
GOM NHÓMGOM NHÓMCung cấp các thuật toán gom nhóm phổ biến, ví dụ:
DBSCanEM (Expectation Maximization).K-Means
26
CẤU TRÚC TẬP TIN ARFFCẤU TRÚC TẬP TIN ARFF
ARFF là định dạng dữ liệu chuyên biệt của Weka, tổ chức dữ liệu theo cấu trúc được qui định trước.Cấu trúc tập tin *.ARFF bao gồm các thành phần:
28
Header: chứa khai báo quan hệ, danh sách các thuộc tính (tên, kiểu dữ liệu).Data: gồm nhiều dòng, mỗi dòng thể hiện giá trị của các thuộc tính cho một mẫu.
HEADER
DATA
CẤU TRÚC TẬP TIN ARFFCẤU TRÚC TẬP TIN ARFF
29
% This is a relation about wather@relation weather@attribute outlook {sunny, overcast, rainy}@attribute temperature real@attribute humidity real@attribute windy {TRUE, FALSE}@attribute play {yes, no}@datasunny,85,85,FALSE,nosunny,80,90,TRUE,noovercast,83,86,FALSE,yes
Tên quan hệ
1 mẫu
Tên thuộc tính – kiểu DL
Chú thích
CẤU TRÚC TẬP TIN ARFFCẤU TRÚC TẬP TIN ARFF
Các kiểu dữ liệu được hỗ trợ trong ARFF bao gồmnumeric: là kiểu dữ liệu số, gồm real và integernominal: là kiểu dữ liệu danh sách. string: là kiểu dữ liệu dạng chuỗidate: kiểu dữ liệu thời gian (ngày tháng năm, giờ phút giây…)
30
CẤU TRÚC TẬP TIN ARFFCẤU TRÚC TẬP TIN ARFF
31
@relation nhanvien@attribute hoten string@attribute ngaysinh date "dd/MM/yy"@attribute gioitinh {nam, nu}@attribute hesoluong real
@data'Nguyen Van A', 10/12/1957, nam, 1.34'Tran Thi B', ?, nu, 1.5
CẤU TRÚC TẬP TIN ARFFCẤU TRÚC TẬP TIN ARFF
Dòng ghi chú được bắt đầu bằng dấu %.Dữ liệu thiếu được biểu diễn bằng dấu ?.Chuỗi nếu có khoảng trắng phải đặt trong dấu nháy đơn. Các giá trị trong phần data phải tuyệt đối theo đúng thông tin đã khai báo trong header.
32