weka dataset classifier
Ovaj vodič objašnjava WEKA skup podataka, klasifikator i J48 algoritam za stablo odlučivanja. Također pruža informacije o uzorcima ARFF skupova podataka za Weka:
U Prethodni vodič , saznali smo o alatu Weka Machine Learning, njegovim značajkama i načinu preuzimanja, instaliranja i korištenja softvera Weka Machine Learning.
WEKA je knjižnica algoritama strojnog učenja za rješavanje problema rudarenja podataka na stvarnim podacima. WEKA također pruža okruženje za razvoj mnogih algoritama strojnog učenja. Ima set alata za izvršavanje različitih zadataka rudarenja podataka, kao što su klasifikacija podataka, klasterizacija podataka, regresija, odabir atributa, učestalo rukovanje stavkama itd.
Svi se ovi zadaci mogu izvršiti na sample.ARFF datoteci dostupnoj u WEKA spremištu ili korisnici mogu pripremiti svoje podatkovne datoteke. Uzorci .arff datoteka su skupovi podataka koji imaju ugrađene povijesne podatke koje su prikupili istraživači.
=> Pročitajte cjelovitu seriju treninga za strojno učenje
U ovom uputstvu vidjet ćemo neke uzorke skupova podataka u WEKA-i, a također ćemo izvršiti rudarenje podataka algoritma stabla odluka pomoću skupa podataka weather.arff.
Što ćete naučiti:
Istraživanje WEKA skupova podataka
WEKA alat za strojno učenje nudi direktorij nekih uzoraka skupova podataka. Ovi se skupovi podataka mogu izravno učitati u WEKA kako bi korisnici mogli odmah započeti razvoj modela.
WEKA skupove podataka možete istražiti putem veze 'C: Program Files Weka-3-8 data'. Skupovi podataka su u .arff formatu.

Uzorci WEKA skupova podataka
Neki uzorci skupova podataka prisutni u WEKA navedeni su u donjoj tablici:
| S.Ne. | Primjeri skupova podataka |
|---|---|
| 7. | dijabetes.arf |
| 1. | zrakoplovna tvrtka.arff |
| 2. | rak dojke.arff |
| 3. | kontaktna leća.arff |
| Četiri. | procesor.arff |
| 5. | procesor.s dobavljačem.arff |
| 6. | kredit-g.arff |
| 8. | staklo.arf |
| 9. | hipotireoza.arf |
| 10. | ionospehre.arff |
| jedanaest. | iris.2D.arff |
| 12. | iris.arff |
| 13. | rada.arf |
| 14. | ReutersCorn-train.arff |
| petnaest. | ReutersCorn-test.arff |
| 16. | ReutersGrain-train.arff |
| 17. | ReutersGrain-test.arff |
| 18. | segment-izazov.arff |
| 19. | segment-test.arff |
| dvadeset. | soja.arf |
| dvadeset i jedan. | supermarket.arf |
| 22. | neuravnotežen.arf |
| 2. 3. | glasati.arff |
| 24. | vrijeme.broj.arfa |
| 25. | vrijeme.nominal.arff |
Pogledajmo neke od ovih:
kontaktna leća.arff
set podataka contact-lens.arff baza je podataka za ugradnju kontaktnih leća. Darovao ga je donator Benoit Julien 1990. godine.

Baza podataka: Ova baza podataka je potpuna. Primjeri korišteni u ovoj bazi podataka su cjeloviti i bez buke. Baza podataka ima 24 instance i 4 atributa.
Atributi: Sva su četiri atributa nominalna. Ne nedostaju vrijednosti atributa. Četiri atributa su kako slijedi:
# 1) Dob pacijenta: Atribut dob može poprimiti vrijednosti:
- mladi
- pred-presbiopski
- presbiopijski
#dva) Recept za naočale: Ovaj atribut može poprimiti vrijednosti:
- kratkovidan
- hipermetrop
# 3) Astigmatičan: Ovaj atribut može poprimiti vrijednosti
- Ne
- Da
# 4) Stopa proizvodnje suza: Vrijednosti mogu biti
- smanjena
- normalan
Razred: Ovdje su definirane tri oznake razreda. Ovi su:
- pacijent treba biti opremljen tvrdim kontaktnim lećama.
- pacijent treba biti opremljen mekim kontaktnim lećama.
- pacijent ne smije imati kontaktne leće.
Distribucija razreda: Primjeri koji su klasificirani u oznake klasa navedeni su u nastavku:
| Oznaka razreda | Broj slučajeva | |
|---|---|---|
| 1. | Tvrde kontaktne leće | 4 |
| 2. | Mekane kontaktne leće | 5 |
| 3. | Nema kontaktnih leća | petnaest |
iris.arff
Skup podataka iris.arff stvorio je 1988. Michael Marshall. To je baza podataka biljaka perunika.

besplatni softver za pretvorbu video zapisa za Windows
Baza podataka: Ova baza podataka koristi se za prepoznavanje uzoraka. Skup podataka sadrži 3 klase od 50 primjeraka. Svaka klasa predstavlja vrstu biljke irisa. Jedna je klasa linearno odvojiva od druge 2, ali potonje se ne mogu linearno odvojiti jedna od druge. Predviđa kojoj vrsti od 3 cvijeta irisa pripada promatranje. To se naziva višerazredni skup podataka klasifikacije.
Atributi: Ima 4 numerička, predviđajuća atributa i klasu. Ne nedostaju atributi.
Atributi su:
- duljina čašice u cm
- širina sepala u cm
- duljina latica u cm
- širina latica u cm
- razred:
- Iris Setosa
- Iris Versicolor
- Iris Virginica
Sažetak statistike:
| Min | Maks | Podlo | SD | Korelacija razreda | |
|---|---|---|---|---|---|
| duljina sepusa | 4.3 | 7.9 | 5.84 | 0,83 | 0,7826 |
| širina sepusa | 2.0 | 4.4 | 3.05 | 0,43 | -0,4194 |
| duljina latica | 1.0 | 6.9 | 3.76 | 1,76 | 0,9490 (visoko!) |
| širina latica | 0,1 | 2.5 | 1.20 | 0,76 | 0,9565 (visoko!) |
Raspodjela klase: 33,3% za svaki od 3 razreda
Neki drugi skupovi podataka:
dijabetes.arf
Baza podataka ovog skupa podataka je Pima Indians Diabetes. Ovaj skup podataka predviđa je li pacijent sklon dijabetesu u sljedećih 5 godina. Pacijenti u ovom skupu podataka su sve žene najmanje 21 godine iz Pima Indian Heritage. Ima 768 primjeraka i 8 numeričkih atributa plus klasu. Ovo je skup podataka binarne klasifikacije gdje je predviđena izlazna varijabla nominalna koja se sastoji od dvije klase.
ionosfera.arf
Ovo je popularan skup podataka za binarnu klasifikaciju. Primjer u ovom skupu podataka opisuje svojstva povratka radara iz atmosfere. Koristi se za predviđanje gdje ionosfera ima neku strukturu ili ne. Ima 34 numerička atributa i klasu.
Atribut klase je 'dobar' ili 'loš' što se predviđa na temelju promatranja 34 atributa. Primljeni signali obrađuju se funkcijom autokorelacije uzimajući kao argumente vremenski impuls i broj impulsa.
Skupovi podataka o regresiji
Regresijski skupovi podataka mogu se preuzeti s web stranice WEKA “ Zbirke skupova podataka '. Ima 37 problema s regresijom dobivenih iz različitih izvora. Preuzeta datoteka stvorit će numerički / direktorij s regresijskim skupovima podataka u .arff formatu.
Popularni skupovi podataka prisutni u direktoriju su: Longleyev ekonomski skup podataka (longley.arff), skup podataka o cijenama kuća u Bostonu (housing.arff) i skup podataka o snu kod sisavaca (sleep.arff).
Pogledajmo sada kako prepoznati stvarne i nominalne atribute u skupu podataka pomoću WEKA explorera.
Koji su stvarni i nominalni atributi
Stvarno vrijedni atributi su numerički atributi koji sadrže samo stvarne vrijednosti. To su mjerljive veličine. Ti se atributi mogu skalirati u intervalima poput temperature ili omjera kao što su srednja vrijednost, medijan.
Nominalni atributi predstavljaju imena ili neki prikaz stvari. U takvim atributima nema reda i oni predstavljaju neku kategoriju. Na primjer, boja.
Slijedite korake navedene u nastavku da biste WEKA koristili za prepoznavanje stvarnih vrijednosti i nominalnih atributa u skupu podataka.
# 1) Otvorite WEKA i odaberite 'Explorer' pod 'Applications'.

#dva) Odaberite karticu 'Pre-Process'. Kliknite 'Otvori datoteku'. S WEKA korisnikom možete pristupiti WEKA oglednim datotekama.

# 3) Odaberite ulaznu datoteku iz mape WEKA3.8 pohranjene u lokalnom sustavu. Odaberite unaprijed definiranu .arff datoteku “credit-g.arff” datoteku i kliknite na “Open”.

# 4) Popis atributa otvorit će se na lijevoj ploči. Statistika odabranih atributa prikazat će se na desnoj ploči zajedno s histogramom.
Analiza skupa podataka:
Na lijevoj ploči trenutna relacija prikazuje:
- Naziv veze: german_credit je uzorak datoteke.
- Primjerci: 1000 broj redaka podataka u skupu podataka.
- Atributi: 21 atribut u skupu podataka.
Panel ispod trenutne relacije prikazuje naziv atributa.
Na desnoj ploči, prikazuju se statistike odabranih atributa. Odaberite atribut “provjera_statusa”.
To pokazuje:
- Naziv atributa
- Nedostaje: Sve nedostajuće vrijednosti atributa u skupu podataka. 0% u ovom slučaju.
- Izrazito: Atribut ima 4 različite vrijednosti.
- Tip: Atribut je nominalnog tipa, odnosno ne uzima numeričku vrijednost.
- Računati: Među 1000 primjeraka u stupac brojanja upisuje se broj svake zasebne oznake klase.
- Histogram: Prikazat će oznaku izlazne klase za atribut. Oznaka razreda u ovom skupu podataka dobra je ili loša. Postoji 700 primjera dobrih (označenih plavom bojom) i 300 slučajeva loših (označenih crvenom bojom).
- Za etiketu<0, the instances for good or bad are almost the same in number.
- Za oznaku, 0<= X<200, the instances with decision good are more than instances with bad.
- Slično tome, za oznaku> = 200, maksimalan broj slučajeva se događa dobro, a nijedna oznaka provjere nema više slučajeva s dobrom odlukom.

Za sljedeći atribut 'trajanje'.
Desna ploča prikazuje:
- Ime: Ovo je naziv atributa.
- Tip: Vrsta atributa je numerička.
- Nedostaje vrijednost: Atribut nema nedostajuće vrijednosti.
- Izrazito: Ima 33 različite vrijednosti u 1000 slučajeva. To znači da u 1000 slučajeva ima 33 različite vrijednosti.
- Jedinstveno: Ima 5 jedinstvenih vrijednosti koje se međusobno ne podudaraju.
- Minimalna vrijednost: Minimalna vrijednost atributa je 4.
- Maksimalna vrijednost: Maksimalna vrijednost atributa je 72.
- Srednje: Prosjek je zbrajanje svih vrijednosti podijeljenih po primjercima.
- Standardno odstupanje: Stddeviacija trajanja atributa.
- Histogram: Histogram prikazuje trajanje 4 jedinice, maksimalan broj slučajeva javlja se za dobru klasu. Kako se trajanje povećava na 38 jedinica, broj primjeraka se smanjuje za oznake dobre klase. Trajanje doseže 72 jedinice koje imaju samo jednu instancu koja odluku klasificira kao lošu.


Klasa je klasifikacijsko obilježje nominalnog tipa. Ima dvije različite vrijednosti: dobar i loš. Oznaka dobre klase ima 700 primjeraka, a oznaka loše klase 300 primjeraka.

Da biste vizualizirali sve atribute skupa podataka, kliknite na „Vizualiziraj sve“.

# 5) Da biste saznali samo numeričke atribute, kliknite gumb Filtriraj. Odatle kliknite na Odaberite -> WEKA> FILTERI -> Nenadgledani tip -> Ukloni vrstu.
WEKA filtri imaju brojne funkcije za transformiranje vrijednosti atributa skupa podataka kako bi ga učinili prikladnim za algoritme. Na primjer, numerička transformacija atributa.
Filtriranje nominalnih i stvarnih vrijednosti iz skupa podataka još je jedan primjer korištenja WEKA filtara.

# 6) Kliknite RemoveType na kartici filtra. Otvorit će se prozor uređivača objekata. Odaberite attributeType “Delete numeric attributes” i kliknite na OK.

# 7) Primijenite filtar. Prikazati će se samo numerički atributi.
Atribut klase je nominalnog tipa. Klasificira izlaz i stoga se ne može izbrisati. Tako se to vidi s numeričkim atributom.

Izlaz:
Identificirani su atributi stvarne vrijednosti i nominalne vrijednosti u skupu podataka. Vizualizacija s oznakom razreda vidi se u obliku histograma.
Weka algoritmi klasifikacije stabla odluka
Sada ćemo vidjeti kako primijeniti klasifikaciju stabla odluka na skupu podataka weather.nominal.arff pomoću J48 klasifikatora.
vrijeme.nominal.arff
To je uzorak skupa podataka prisutnih u direktnom WEKA. Ovaj skup podataka predviđa je li vrijeme pogodno za igranje kriketa. Skup podataka sadrži 5 atributa i 14 primjeraka. Oznaka razreda 'play' klasificira izlaz kao 'da' ili 'ne'.
Što je stablo odluke
Stablo odlučivanja je tehnika klasifikacije koja se sastoji od tri komponente korijenskog čvora, grane (ruba ili veze) i čvora lista. Root predstavlja uvjet ispitivanja za različite atribute, grana predstavlja sve moguće ishode koji mogu biti tamo u testu, a čvorovi listova sadrže oznaku klase kojoj pripada. Korijenski čvor je na početku stabla koje se naziva i vrhom stabla.
J48 klasifikator
To je algoritam za generiranje stabla odluka koje generira C4.5 (proširenje ID3). Poznat je i kao statistički klasifikator. Za klasifikaciju stabla odluka potrebna nam je baza podataka.
Koraci uključuju:
# 1) Otvorite WEKA explorer.
#dva) Odaberite datoteku weather.nominal.arff iz 'odaberite datoteku' pod opcijom kartice za pretproces.

# 3) Idite na karticu 'Klasificiraj' za klasificiranje nerazvrstanih podataka. Kliknite gumb 'Odaberi'. Od toga odaberite 'drveće -> J48'. Dopustite nam da na brzinu pogledamo i druge opcije na gumbu Odaberi:
- Bayes: To je procjena gustoće za numeričke atribute.
- Meta: To je linearna regresija s više odgovora.
- Funkcije: To je logistička regresija.
- Lijen: Entropija miješanja postavlja automatski.
- Pravilo: To je pravilo koje uči.
- Drveće: Drveće klasificira podatke.

# 4) Kliknite gumb Start. Izlaz klasifikatora vidjet će se na desnoj ploči. Prikazuje informacije o izvođenju na ploči kao:
- Shema: Upotrijebljeni klasifikacijski algoritam.
- Primjerci: Broj redaka podataka u skupu podataka.
- Atributi: Skup podataka ima 5 atributa.
- Broj lišća i veličina stabla opisuje stablo odluke.
- Vrijeme potrebno za izgradnju modela: Vrijeme za izlaz.
- Potpuna klasifikacija J48 orezana s atributima i brojem slučajeva.


# 5) Da biste vizualizirali stablo, desnom tipkom miša kliknite rezultat i odaberite vizualizirajte stablo.
Izlaz :
Izlaz je u obliku stabla odluke. Glavni atribut je 'izgled'.
Ako su izgledi sunčani, tada stablo dalje analizira vlagu. Ako je vlažnost zraka velika, oznaka klase igra = 'da'.
Ako su izgledi zatamnjeni, razredna oznaka, igra je 'da'. Broj slučajeva koji se podvrgavaju klasifikaciji je 4.
Ako su izgledi kišni, daljnja klasifikacija odvija se za analizu atributa 'vjetrovito'. Ako je vjetrovito = istina, igra = 'ne'. Broj slučajeva koji se podvrgavaju klasifikaciji za outlook = vjetrovito i vjetrovito = true je 2.
Zaključak
WEKA nudi širok raspon uzoraka skupova podataka za primjenu algoritama strojnog učenja. Korisnici mogu izvoditi zadatke strojnog učenja kao što su klasifikacija, regresija, odabir atributa, povezivanje na ovim uzorcima podataka, a također mogu naučiti alat pomoću njih.
WEKA explorer koristi se za obavljanje nekoliko funkcija, počevši od predobrade. Pretprocesiranje uzima ulaz kao .arff datoteku, obrađuje ulaz i daje izlaz koji mogu koristiti drugi računalni programi. U WEKA izlaz pretprocesiranja daje atribute prisutne u skupu podataka koji se dalje mogu koristiti za statističku analizu i usporedbu s oznakama klasa.
WEKA također nudi mnoge algoritme klasifikacije za stablo odlučivanja. J48 je jedan od popularnih algoritama klasifikacije koji daje stablo odluke. Korištenjem kartice Razvrstaj korisnik može vizualizirati stablo odluka. Ako je stablo odluka previše naseljeno, obrezivanje stabla može se primijeniti na kartici Predproces uklanjanjem atributa koji nisu potrebni i ponovno pokrenite postupak klasifikacije.
=> Posjetite ovdje za ekskluzivnu seriju strojnog učenja
Preporučena literatura
- Vodič za Weka - Kako preuzeti, instalirati i koristiti Weka alat
- Kako pisati složeni scenarij ispitivanja poslovne logike pomoću tehnike tablice odlučivanja
- WEKA Explorer: Vizualizacija, klasteriranje, rudarenje pravila pridruživanja
- Primjeri algoritma stabla odlučivanja u rudarstvu podataka
- Konstrukcije za donošenje odluka na C ++
- Struktura podataka stabla B i stabla B + u jeziku C ++
- Struktura podataka binarnog stabla u C ++
- Struktura podataka AVL stabla i hrpe u C ++