V i M d iliği Veri Madenciliği Veri-Nesne-Nitelik Tid Refund Marital Status Taxable Income Cheat 1...

1

V i M d iliğiVeri Madenciliği

Bölüm 2. Veri Önişleme

Doç. Dr. Suat Özdemir http://ceng.gazi.edu.tr/~ozdemir

Veri-Nesne-Nitelik

Veri: Nesneler ve nesnelerin niteliklerinden oluşan küme– Nesne terimi yerine kayıt

(record), varlık (entity), örnek (sample, instance) kullanılabilir

Nitelik (Attributes)

Tid Refund Marital Taxable( p , )

Nitelik (attribute) bir nesnenin (object) bir özelliğidir bir insanın yaşı, ortamın sıcaklığı..– Nitelik yerine boyut

(dimension), özellik (feature, characteristic) kullanılabilir

– Nitelikler ve bu niteliklere ait

Nesne (Objects)

Tid Refund MaritalStatus

Taxable Income Cheat

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

Veri MadenciliğiDoç. Dr. Suat Özdemir

Nitelikler ve bu niteliklere ait değerler bir nesneyi oluşturur.

Nesneler grubu veriyi oluşturur– Öğrenci kayıt listesi

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes 10

VERİ

2

Ayrık ve sürekli nitelikler

Ayrık Nitelik / Discrete Attribute– Sonlu sayıda değerden oluşan nitelikler

• E.g., posta kodu, meslek, ya da doküman seti içerisindeki kelimeleriçerisindeki kelimeler

– Tamsayı değerler olarak ifade edilebilir – İkili / binary nitelikler de ayrık niteliklerin özel bir

türüdür Sürekli Nitelik / Continuous Attribute

– Değeri gerçek sayılar olan niteliklerE kl k ük klik d ğ l k


• E.g., sıcaklık, yükseklik, ya da ağırlık– Floating-point değerler olarak ifade edilebilir

Neden veri önişleme?

Gerçek hayatta karşılaştığımız veriler genelde eksik (missing or incomplete), hatalı (noisy), ve tutarsız (inconsistent) olma eğilimindedir.– Düşük kaliteli veriş

Veri kalitesini düşüren sorunlar: – Noise / Gürültü– Outliers / Sapan veri– Missing values / Eksik veri– Duplicate data / Tekrarlı veri


p /– Veri iletim hataları– Teknolojik sınırlamalar– Veri isimlendirmede veya yapısında uyumsuzluk

3

Noise / Gürültü

Orjinal veride oluşan istenmeyen değişimlerdir– Örnek: telefonda konuşurken sesimizin bozulması, televizyon

ekranındaki karlanma


İki Sinüs Dalgası İki Sinüs Dalgası + Gürültü

Outliers / Sapan veri

Sapan veriler veri setinin geri kalan kısmından çok farklı olan verileridir.


4

Missing Values / Eksik veri

Nedenler– Bilginin toplanamaması

• Yaşını, kilosunu ya da gelirini belirtmek istemeyen insanlar– Uygun olmayan nitelikleryg y

• Çocuklar için gelir niteliği uygulanamaz

Çözümler– Eksik verileri dikkate alma– Eksik veriyi tahmin et (ortalama vs.)


Duplicate Data / Tekrarlı veri

Birbirinin aynısı olan veriler– Değişik veritabanlarının birleştirilmesi sırasında ortaya

çıkar – Birden çok eposta adresine sahip insan– Birden çok eposta adresine sahip insan

Çözüm– Veri temizleme


5

Neden veri önişleme?

Düşük kaliteli veri düşük kaliteli veri madenciliği sonuçlarına yol açar

Veri önişleme?– Veri madenciliği kalitesini artırmakVeri madenciliği kalitesini artırmak – Veri madenciliğini kolaylaştırmak– Verimliliği artırmak hedeflenir


Tanımlayıcı veri özetleme

Veri önişlemenin temeli Veriyi daha iyi anlamak ve anlatmak

– Verinin merkezi eğilimil ( d ) d• Ortalama, ortanca (median), mode

– Verinin dağılımı• Çeyreklikler (quartiles), IQR, variance, boxplots


6

Ortalama (Mean)

Ortalama (mean)

– Örnekleme

n

iix

nx

1

1

– Popülasyon

– Ağırlıklı ortalama

i 1

N

x

n

iii xw

1


– Ağırlıklı ortalama

n

ii

i

wx

1

1

Ortanca (Median)

Veri setinde ortadaki verinin değeri– Çift sayıda veri varsa ortadaki iki verinin ortalaması

Gruplanmış veriler için interpolation yolu ile Gruplanmış veriler için interpolation yolu ile bulunur

cf

lfnLmedian )

)(2/(1

Ortanca aralığın genişliği

Yaş Frekans

5‐10 120

11‐15 50

16 20 160

Ortanca aralıktan aşağıdaki aralıklardaki eleman sayılarının toplamı


fmedian

Ortanca aralığın ilk elemanı

16‐20 160

21‐25 70

26‐30 200

9.165)160

)270(2/600(16

median

Ortanca aralığın frekansı

7

Mod (Mode)

Veri seti içinde en çok tekrarlanan veri– Unimodal– Bimodal

T i d l– Trimodal

Deneysel (empirical) formül

)(3 medianmeanmodemean


Simetrik ve Çarpık Veri

Ortalama, ortanca ve mod değerleri Mean

MedianMode


8

Verinin dağılımı

Quartiles, outliers and boxplots

– Çeyrek (Quartile): Q1 (25th percentile), Q3 (75th

percentile)p )

– Inter-quartile range: IQR = Q3 – Q1

– Five number summary: min, Q1, M, Q3, max

– Boxplot: ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually


, , p y

– Sapan veri (Outlier):

• usually, a value higher/lower than 1.5 x IQR

Verinin dağılımı

Varyans ve standart sapma (örnekleme: s, populasyon: σ)– Varyans:Varyans:

– Standart sapma s (ya da σ) varyansın kare kökü

n

i

n

iii

n

ii x

nx

nxx

ns

1 1

22

1

22 ])(1

[1

1)(

1

1


n

ii

n

ii x

Nx

N 1

22

1

22 1)(

1

9

Normal dağılım eğrisinin özellikleri

Normal dağılım eğrisi– (μ–σ) ile (μ+σ) arasında verilerin yaklaşık %68i

bulunur (μ: ortalama, σ: standart sapma)– (μ–2σ) ile (μ+2σ) arasında %95i– (μ–3σ) ile (μ+3σ) arasında %99.7si


95%

−3 −2 −1 0 +1 +2 +3

68%

−3 −2 −1 0 +1 +2 +3

99.7%

−3 −2 −1 0 +1 +2 +3

Görsel tanımlayıcı veri özetleme

Veriyi daha iyi ifade edebilmek için kullandığımız yöntemler– Boxplotp– Histogram, sıklık histogramı, bar chart– Eşit bölen (Quantile) grafikleri – Q-Q grafikleri– Serpme (scatter) grafikleri


10

Boxplot analizi

Five number summary nin grafik olarak gösterimi– Minimum, Q1, M, Q3, Maximum

Boxplot

– Veri bir kutu olarak gösterilir

– Kutunun alt ve üst çizgileri 1. ve 3. çeyreklerdir

– Ortanca bir çizgi ile belirtilir

– Max ve min değerleri kutunun dışında iki çizgi (Whiskers) ile belirtilir


( )

Histogram analizi

Basit istatistiksel sınıfları gösteren grafik– Veri setindeki çeşitli sınıflara ait verilerin sayısını ya da frekansını

veren dikdörtgenlerden oluşur


11

Quantile plot

Kullanıcının hem normal verileri hem de aykırılıklarını görmesini sağlar

Quantile bilgisi verirV i il ö t ili f d ğ i i ti d ki il i %100f– Veri xi ile gösterilirse, fi değeri veri setindeki verilerin %100fisinin xi den küçük ya da eşit olduğunu gösterir

Tek değişkenli analiz


Quantile-Quantile plot

Karşılaştırma yapar, eğilimi gösterir Çift değişkenli analiz

Quantile-quantile plots (also called q-q plots) are used to determine if two data sets come from populations with a common distribution. In such a plot, points are formed from the

Q3

M


are formed from the quantiles of the data.Q1

Şube 1 de satılan ürünler şube 2 desatılanlardan daha ucuz olma eğiliminde

12

Scatter plot

Veri içindeki sapan verileri, kümeleri gösterir


Özet: Veri Dağılımının Grafiksel Olarak Gösterimi

Histogram Boxplot Quantile plot: each value xi is paired with fi indicating that

approximately 100 fi % of data are xiapproximately 100 fi % of data are xi

Quantile-quantile (q-q) plot: graphs the quantiles of one univariant distribution against the corresponding quantiles of another

Scatter plot: each pair of values is a pair of coordinates and plotted as points in the plane


13

Veri önişleme

Veri temizlemeVeri temizleme– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız

verileri kaldırma Veri bütünleştirmeVeri bütünleştirme

k l d k ld b l b l– Artık verileri ortadan kaldırma, veritabanlarını birleştirme Veri değiştirme Veri değiştirme

– Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon

Veri azaltmaVeri azaltma– Veri bütünleştirme, nitelik alt kümesi seçme, boyut

küçültme vb


küçültme, vb.

Veri önişleme


14

Veri önişleme






küçültme vb


küçültme, vb.

Veri temizleme

Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız verileri kaldırma

Eksik veri tamamlama (missing values)– Kaydı yok sayKaydı yok say – Elle doldurma – Global bir değerle doldurma– Nitelik ortalamasıyla doldurma– Eksik verinin ait olduğu grubun nitelik ortalamasıyla

doldurma En olası değerle doldurma (regression Bayesian


– En olası değerle doldurma (regression, Bayesianinference)

15

Veri temizleme

Hatalı verileri düzeltme (gürültülü-noisy data)– hatalı veri toplama gereçleri– veri giriş problemleri

i i i i d k ll l h t l l– veri girişi sırasında kullanıcıların hatalı yorumları– veri iletim hataları– teknolojik sınırlamalar– veri isimlendirmede veya yapısında uyumsuzluk

Hatalı verinin tespiti?Sapan veriler


– Sapan veriler

Veri temizleme

Çözüm yöntemleri– Kova metodu (Binning): Veriyi düzleştirme, lokal çözüm

• Kova ortalaması ile düzleştirme K t il dü l ti• Kova ortancası ile düzleştirme

• Kova sınırları ile düzleştirme – Eğri uydurma (Regression)– Demetleme (Clustering)– İnsan-bilgisayar incelemesi


16

Kova metodu (Binning)

Eşit genişlik (Equal-width (distance) partitioning)– Veri setini N eşit aralığa böler: uniform grid

– Eğer A ve B veri setindeki en büyük ve en küçük değerler

ise her bir aralığın genişliği: W = (B –A)/N.

– Basit ancak sapan verilerden etkilenir

– Çarpık (skewed) veri iyi ifade edilemez


Kova metodu (Binning)

Eşit derinlik (Equal-depth (frequency) partitioning)

– Her bir veri aralığı yaklaşık olarak aynı sayıda veri içerir

– Ölçeklenebilir


17

Binning - Örnek

Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34

Partition into equal-frequency (equi-depth) bins:Bi 1 4 8 9 15- Bin 1: 4, 8, 9, 15

- Bin 2: 21, 21, 24, 25- Bin 3: 26, 28, 29, 34

Smoothing by bin means:- Bin 1: 9, 9, 9, 9- Bin 2: 23, 23, 23, 23- Bin 3: 29, 29, 29, 29


, , ,

Smoothing by bin boundaries:- Bin 1: 4, 4, 4, 15- Bin 2: 21, 21, 25, 25- Bin 3: 26, 26, 26, 34

Regresyon

Y1

x

y = x + 1

X1

Y1’


18

Demetleme / Kümeleme


Veri önişleme






küçültme vb


küçültme, vb.

19

Veri bütünleştirme

Artık verileri ortadan kaldırma, veritabanlarını birleştirme– Schema bütünleştirme

• Varlık tanımlama (entity identification) problemVarlık tanımlama (entity identification) problem– Veritabanı 1 -> Cust_id– Veritabanı 2 -> Cust_number

• Metadata kullanımı – Her niteliği tanımla

– Artık/tekrarlı veri temizleme• Korelasyon analizi


• Korelasyon analizi• Chi-square test

Korelasyon Analizi

Correlation coefficient (also called Pearson’s product moment coefficient)

BANABBBAA )())((

where n is the number of tuples, A and B are the respective means of A and B, σA and σB are the respective standard deviation of A and B, and Σ(AB) is the sum of the AB cross-product.

If 0 A d B iti l l t d (A’ l

BABA N

N

Nr BA

)())((

,


If rA,B > 0, A and B are positively correlated (A’s values increase as B’s). The higher, the stronger correlation.

rA,B = 0: independent; rA,B < 0: negatively correlated

20

Pearson’s product moment coefficient

rA,B değerlerinin anlamı

Correlation Negative Positive

None −0.09 to 0.0 0.0 to 0.09

Small −0.3 to −0.1 0.1 to 0.3

Medium −0.5 to −0.3 0.3 to 0.5


Strong −1.0 to −0.5 0.5 to 1.0

Korelasyon Analizi - Örnek


21

Chi-square Test

Ayrık / kategorik veri için korelasyon Χ2 (chi-square) test

ExpectedObserved 22 )(

The larger the Χ2 value, the more likely the variables are related

The cells that contribute the most to the Χ2 value are those h t l t i diff t f th t d t

Expected

ExpectedObserved2 )(


whose actual count is very different from the expected count Correlation does not imply causality

– # of hospitals and # of car-theft in a city are correlated– Both are causally linked to the third variable: population

Chi-square Test - Örnek

male female Sum (row)

fiction 250(90) 200(360) 450

non-fiction 50(210) 1000(840) 1050

Sum(col.) 300 1200 1500

Χ2 (chi-square) calculation (numbers in parenthesis are expected counts calculated based on the data distribution in the two categories)

Bu hipotezin yanlış olduğunu red etmek içinBağımsızlık derecesi = (r-1)(c-1)=(2-1)(2-1)=1 ve belli bir önem derecesi için chi-

Sum(col.) 300 1200 1500

93.507840

)8401000(

360

)360200(

210

)21050(

90

)90250( 22222


– Bağımsızlık derecesi = (r-1)(c-1)=(2-1)(2-1)=1 ve belli bir önem derecesi için chi-square dağılımının kritik değer tablosuna bakılır

– 0.001 önem değeri için 10.828

10.828 < 507.93 olduğundan Cinsiyet ve okuma tercihi birbirlerinden bağımsız değil denir (çok kuvvetli bir ilişki vardır).

22

Kritik değer tablosu


Veri önişleme






küçültme vb


küçültme, vb.

23

Veri değiştirme

Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon– Düzeltme (smoothing)– Birleştirme (aggregation)Birleştirme (aggregation)– Genelleme– Normalizasyon

• Max-min normalizasyon• Z-score normalizasyon• Normalizasyon by decimal scaling

Nitelik oluşturma


– Nitelik oluşturma

Veri değiştirme

Min-max normalization: to [new_minA, new_maxA]

– Ex. Let income range $12,000 to $98,000 normalized to [0.0, 1.0].

AAA

AA

A

minnewminnewmaxnewminmax

minvv _)__('

– Then $73,600 is mapped to

Z-score normalization (μ: mean, σ: standard deviation):

– Ex. Let μ = 54,000, σ = 16,000. Then

Normalization by decimal scaling

716.00)00.1(000,12000,98

000,12600,73

A

Avv

'

225.1000,16

000,54600,73


Normalization by decimal scaling

j

vv

10'

Where j is the smallest integer such that Max(|ν’|) < 1

v’<1 olacak şekilde v’ değerini en büyük yapacak j değeri

24

Veri önişleme






küçültme vb


küçültme, vb.

Veri azaltma

Veri boyutunu düşür Orijinal verinin özelliklerini koru Boyut küçültmek için harcanan zaman veri

madenciliği yaparken kazanacağımız zamanı ğ y p ğgeçmemelidir

Bazı metotlar– Veri küpü birleştirme– Nitelik altkümesi seçme– Boyut azaltma– Numerosity reduction (Veriyi modellerle yada görsel

l k if d t )


olarak ifade etme)– Ayrıştırma ve konsept hiyerarşisi geliştirme

25

Nitelik altkümesi seçme

Veriye ait tüm nitelikler yapılacak iş için önemli olmayabilir– Alışveriş eğiliminin belirlenmesi/müşterilerin telefon

numaralarıT k l / d d t it likl– Tekrarlı/redundant nitelikler

Verinin dağılım özelliğini bozmadan veriyi ifade edebilecek en küçük nitelik altkümesinin seçilmesi

Sonuçta ortaya çıkan örüntü sayısı azaltılarak veri anlaşılması daha kolay hale getirilirV i i “i i” kild if d d k it lik ltkü i


Veriyi “iyi” şekilde ifade edecek nitelik altkümesi nasıl bulunacak?

Nitelik altkümesi seçme

• “İyi” ve “kötü” nitelikler bağımsızlık testleri, karar ağaçları gibi yöntemlerle belirlenir• Bilgi kazancı vb.

n nitelik için 2n altküme (exponential)S i l (h i i ) l Sezgisel (heuristic) metotlar :– İleri adım adım seçme (Step-wise forward selection)

• Boş küme ile başlayıp en iyi nitelikler kümeye dahil edilir

– Geri adım adım eleme (Step-wise backward elimination)• Tüm nitelikler ile başlanıp, her basamakta en kötü

olan(lar) elenir


olan(lar) elenir– İleri seçme ve geri elemenin birleştirilmesi– Karar ağacı çıkarma (Decision-tree induction)

• Ağaç ortaya çıkarılır ağaç üzerinde görülmeyen nitelikler kötü/önemsiz olarak nitelendirilir ve elenir

26

Boyut azaltma (Dimentionality Reduction)

Kodlama (encoding) ve değiştirmeyle veriyi sıkıştırma – Wavelet transforms– Principle Component Analysis (PCA)


Numerosity reduction

Veriyi modellerle yada görsel olarak daha küçük formlarda ifade etme– Eğri uydurma modelleri

Histog amla– Histogramlar– Demetleme– Örnekleme


27

Regresyon Analizi

Bağımlı değişken ile bir veya daha çok bağımsız değişken arasındaki

y

Y1

ilişkiyi incelemek amacıyla kullanılan bir analiz yöntemidir.

Regresyon analizi ile bağımlı ve bağımsız değişkenler arasında bir ilişki var mıdır? Eğer bir ilişki varsa

x

y = x + 1

X1

Y1’


ilişki var mıdır? Eğer bir ilişki varsa bu ilişkinin gücü nedir? Değişkenler arasında ne tür bir ilişki vardır? gibi sorulara cevap aranmaya çalışılır.

Histogramlar

25

30

35

40•Equ-width/Eşit genişlik•Equ-depth/Eşit derinlik•V optimal

•(Barlar arasında en düşük varyans)

0

5

10

15

20

25

10000 30000 50000 70000 90000

(Barlar arasında en düşük varyans)•Olası bütün histogramlardan barlar arasından en düşük varyansa sahip olanı seç

•MaxDiff•(Veriler arasındaki en fazla fark edendeğer çiftleri sınırları belirler)•B kova sayısı


y•En yüksek B-1 tane farkı belirle ve kovaları ayır

28

Demetleme / Kümeleme

Veri setini benzerliklerine göre demetlere ayırma Sadece demeti ifade eden bilgiyi sakla

– Merkez ve çap Gruplu yapıya sahip veri setinde daha iyi sonuç verir Hiyeraşik demetleme yapılabilir ve indeks ağaçları olarak

ifade edilebilir


Örnekleme

Tüm veri seti N’i temsil edecek küçük veri seti s’i seçmek Basit metotların performansı iyi değil Uyarlanabilir metotlar

– Strafied örneklemeStrafied örnekleme– Belli bir kurala göre sınıfla her sınıftan eşit sayıda örnek al


29

Örnekleme çeşitleri

Simple random sampling– There is an equal probability of selecting any particular

item Sampling without replacementSampling without replacement

– Once an object is selected, it is removed from the population

Sampling with replacement– A selected object is not removed from the population

Stratified sampling: – Partition the data set and draw samples from each


– Partition the data set, and draw samples from each partition (proportionally, i.e., approximately the same percentage of the data)

– Used in conjunction with skewed data

Sampling: With or without Replacement


Raw Data

30

Sampling: Cluster or Stratified Sampling

Raw Data Cluster/Stratified Sample


Ayrıştırma ve konsept hiyerarşisi geliştirme

Sayısal veri– Binning– Histogram analizi

Kategorik veri– Şema seviyesinde (kullanıcılar tarafından)

• Cadde<semt<şehir<ülke– Gruplama

• {ankara,kayseri,konya}-> içanadolu– Anlamsal bağlantılar

• Bazen adres olarak sadece şehir bilgisi yetebilir. Cadde sokak numara nitelikleri atılır.


V i M d iliği Veri Madenciliği Veri-Nesne-Nitelik Tid Refund Marital Status Taxable Income Cheat 1...

Documents

Transcript of V i M d iliği Veri Madenciliği Veri-Nesne-Nitelik Tid Refund Marital Status Taxable Income Cheat 1...