Introduction to Weka

33
GIỚI THIỆU PHẦN MỀM GIỚI THIỆU PHẦN MỀM WEKA WEKA Giáo viên hướng dẫn thực hành: Nguyễn Ngọc Thảo Nguyễn Hải Minh Trường Đại học Khoa học Tự nhiên Khoa Công nghệ Thông tin

Transcript of Introduction to Weka

GIỚI THIỆU PHẦN MỀM GIỚI THIỆU PHẦN MỀM WEKAWEKA

Giáo viên hướng dẫn thực hành:Nguyễn Ngọc ThảoNguyễn Hải Minh

Trường Đại học Khoa học Tự nhiênKhoa Công nghệ Thông tin

NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY

Giới thiệu phần mềm Weka

Các chức năng của phần mềm

Tìm hiểu ứng dụng Explorer

2

NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY

Giới thiệu phần mềm Weka

Các chức năng của phần mềm

Tìm hiểu ứng dụng Explorer

3

LỊCH SỬ PHÁT TRIỂNLỊCH SỬ PHÁT TRIỂN

WEKA – Waikato Environment for Knowledge Analysis.Là phần mềm khai thác dữ liệu, thuộc dự án nghiên cứu của đại học Waikato, New Zealand.Mục tiêu: xây dựng một công cụ hiện đại nhằm phát

triển các kỹ thuật máy học và áp dụng chúng vào bài toán khai thác dữ liệu trong thực tế.

4

LỊCH SỬ PHÁT TRIỂNLỊCH SỬ PHÁT TRIỂN

1993 – Đại học Waikato, New Zealand, khởi động dự án, xây dựng phiên bản đầu tiên của Weka.1997 – Quyết định xây dựng lại Weka từ đầu bằng Java, có cài đặt các thuật toán mô hình hóa.

2005 – Weka nhận giải thưởng SIGKDD Data Mining and Knowledge Discovery Service Award.Xếp hạng trên Sourceforge.net từ 25-06-2007: 241 (907,318 lượt). 5

CÁU TRÚC PHẦN MỀMCÁU TRÚC PHẦN MỀMWEKA được xây dựng bằng ngôn ngữ Java, cấu trúc gồm hơn 600 lớp, tổ chức thành 10 packages.Các chức năng chính của phần mềm:

Khảo sát dữ liệu: tiền xử lí dữ liệu, phân lớp, gom nhóm dữ liệu, và khai thác luật kết hợp.Thực nghiệm mô hình: cung cấp phương tiện để kiểm chứng, đánh giá các mô hình học.Biểu diễn trực quan dữ liệu bằng nhiều dạng đồ thị khác nhau.

6

TRANG CHỦ WEKATRANG CHỦ WEKATrang chủ: http://www.cs.waikato.ac.nz/ml/weka/

7

TRANG CHỦ WEKATRANG CHỦ WEKA

Dự án máy học Weka Phần mềm Weka

Lịch sử phát triển Phiên bản cài đặt

Thành phần nhân sự

Bài báo công bố

Tài liệu tham khảo

Hướng dẫn sử dụng

Các tập dữ liệu

8

CÁC PHIÊN BẢN WEKACÁC PHIÊN BẢN WEKASnapshots là các bản vá lỗi mới nhất, thường là được cập nhật hàng đêm.

Developer versions là các phiên bản thử nghiệm, hỗ trợ nhiều tính năng mới nhưng còn chưa ổn định.

Book versions là các phiên bản thể hiện những chức năng được mô tả trong quyển sách Data Mining: Practical Machine Learning Tools and Techniques (2nd Edition) của Ian.H.Witten và Eibe Frank.

9

NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY

Giới thiệu phần mềm Weka

Các chức năng của phần mềm

Hướng dẫn sử dụng ứng dụng Explorer

10

KHẢO SÁT DỮ LIỆUKHẢO SÁT DỮ LIỆUExplorer: là ứng dụng con cho phép thực nghiệm các nhiệm vụ khai thác dữ liệu thường gặp như:

Tiền xử lý dữ liệuKhai thác luật kết hợpPhân lớpGom nhóm

11

KHẢO SÁT DỮ LIỆUKHẢO SÁT DỮ LIỆU

12

THỰC NGHIỆM MÔ HÌNHTHỰC NGHIỆM MÔ HÌNHExperimenter: là ứng dụng con cung cấp môi trường thực nghiệm để kiểm chứng các mô hình học, so sánh với nhau để đánh giá.

13

KẾT NỐI THÔNG TINKẾT NỐI THÔNG TINArffViewer: là ứng dụng con trình bày nội dung tập dữ liệu có định dạng *.ARFF thành bảng dữ liệu.SqlViewer: cho phép kết nối với cơ sở dữ liệu (MySQL, PostGre…) và truy vấn để lấy thông tin.

14

BIỂU DIỄN TRỰC QUANBIỂU DIỄN TRỰC QUANWeka hỗ trợ người dùng biểu diễn trực quan dữ liệu qua những dạng biểu đồ thông dụng: biểu đồ trục, cây, đồ thị, biểu đồ vùng….

15

BIỂU DIỄN TRỰC QUANBIỂU DIỄN TRỰC QUAN

16

BIỂU DIỄN TRỰC QUANBIỂU DIỄN TRỰC QUAN

17

NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY

Giới thiệu phần mềm Weka

Các chức năng của phần mềm

Tìm hiểu ứng dụng Explorer

18

CÁC CHỨC NĂNGCÁC CHỨC NĂNG

Tiền xử lý dữ liệu

Khai thác LKH

Phân lớp

Gom nhóm

Chọn lọc thuộc tính

19

TIỀN XỬ LÝ DỮ LIỆUTIỀN XỬ LÝ DỮ LIỆUHiển thị thông tin về dữ liệu đang xét

Tập dữ liệu: tên, số mẫu, số thuộc tính.Các thuộc tính: tên, kiểu dữ liệu, giá trị thuộc tính, tỷ lệ %...Biểu đồ minh họa thông tin.

Cung cấp các bộ lọc dữ liệu thông dụng, ví dụ:ReplaceMissingValues: thay thế giá trị thiếu.Normalize: chuẩn hóa dữ liệu về đoạn [0, 1].Discretize: rời rạc hóa dữ liệu.

20

TIỀN XỬ LÝ DỮ LIỆUTIỀN XỬ LÝ DỮ LIỆU

21

KHAI THÁC LUẬT KẾT HỢPKHAI THÁC LUẬT KẾT HỢPCung cấp các thuật toán khai thác luật kết hợp

AprioriPredictiveApriori: là cải tiến của thuật toán Apriori.

22

KHAI THÁC LUẬT KẾT HỢPKHAI THÁC LUẬT KẾT HỢP

23

PHÂN LỚPPHÂN LỚPCung cấp rất nhiều thuật toán phân lớp, được gom thành các nhóm dựa trên cơ sở lý thuyết hoặc chức năng.

Bayes: mạng Bayes, Naïve Bayes...Hàm: SVM, các phương pháp hồi quy, hậu tuyến tính…Cây: ID3, C4.5 (J58)…Các phương pháp phân lớp dựa trên luật.Bagging, AdaBoost…

24

PHÂN LỚPPHÂN LỚP

25

GOM NHÓMGOM NHÓMCung cấp các thuật toán gom nhóm phổ biến, ví dụ:

DBSCanEM (Expectation Maximization).K-Means

26

GOM NHÓMGOM NHÓM

27

CẤU TRÚC TẬP TIN ARFFCẤU TRÚC TẬP TIN ARFF

ARFF là định dạng dữ liệu chuyên biệt của Weka, tổ chức dữ liệu theo cấu trúc được qui định trước.Cấu trúc tập tin *.ARFF bao gồm các thành phần:

28

Header: chứa khai báo quan hệ, danh sách các thuộc tính (tên, kiểu dữ liệu).Data: gồm nhiều dòng, mỗi dòng thể hiện giá trị của các thuộc tính cho một mẫu.

HEADER

DATA

CẤU TRÚC TẬP TIN ARFFCẤU TRÚC TẬP TIN ARFF

29

% This is a relation about wather@relation weather@attribute outlook {sunny, overcast, rainy}@attribute temperature real@attribute humidity real@attribute windy {TRUE, FALSE}@attribute play {yes, no}@datasunny,85,85,FALSE,nosunny,80,90,TRUE,noovercast,83,86,FALSE,yes

Tên quan hệ

1 mẫu

Tên thuộc tính – kiểu DL

Chú thích

CẤU TRÚC TẬP TIN ARFFCẤU TRÚC TẬP TIN ARFF

Các kiểu dữ liệu được hỗ trợ trong ARFF bao gồmnumeric: là kiểu dữ liệu số, gồm real và integernominal: là kiểu dữ liệu danh sách. string: là kiểu dữ liệu dạng chuỗidate: kiểu dữ liệu thời gian (ngày tháng năm, giờ phút giây…)

30

CẤU TRÚC TẬP TIN ARFFCẤU TRÚC TẬP TIN ARFF

31

@relation nhanvien@attribute hoten string@attribute ngaysinh date "dd/MM/yy"@attribute gioitinh {nam, nu}@attribute hesoluong real

@data'Nguyen Van A', 10/12/1957, nam, 1.34'Tran Thi B', ?, nu, 1.5

CẤU TRÚC TẬP TIN ARFFCẤU TRÚC TẬP TIN ARFF

Dòng ghi chú được bắt đầu bằng dấu %.Dữ liệu thiếu được biểu diễn bằng dấu ?.Chuỗi nếu có khoảng trắng phải đặt trong dấu nháy đơn. Các giá trị trong phần data phải tuyệt đối theo đúng thông tin đã khai báo trong header.

32

33