weka explorer visualization
Ovaj vodič objašnjava kako izvršiti vizualizaciju podataka, K-znači klaster analizu i rudarenje pravila pridruživanja pomoću WEKA Explorera:
U Prethodni vodič , saznali smo o WEKA skupu podataka, klasifikatoru i J48 algoritmu za stablo odlučivanja.
Kao što smo već vidjeli, WEKA je alat za otkrivanje podataka otvorenog koda koji mnogi istraživači i studenti koriste za izvršavanje mnogih zadataka strojnog učenja. Korisnici također mogu graditi svoje metode strojnog učenja i izvoditi eksperimente na uzorcima skupova podataka koji se nalaze u WEKA direktoriju.
Vizualizacija podataka u WEKA može se izvesti pomoću uzoraka skupova podataka ili skupova podataka izrađenih od korisnika u .arff, .csv formatu.
=> Pročitajte cjelovitu seriju treninga za strojno učenje
Rudanje pravila pridruživanja izvodi se pomoću Apriori algoritma. To je jedini algoritam koji pruža WEKA za izvođenje čestih rudaranja uzoraka.
U WEKA je prisutno mnogo algoritama za izvođenje analize klastera kao što su FartherestFirst, FilteredCluster i HierachicalCluster, itd. Od njih ćemo koristiti SimpleKmeans, što je najjednostavnija metoda klasteriranja.
Što ćete naučiti:
- Rudarstvo pravila pridruživanja pomoću WEKA Explorera
- K-znači algoritam koji koristi WEKA Explorer
- Primijenite vizualizaciju podataka koristeći WEKA
- Zaključak
Rudarstvo pravila pridruživanja pomoću WEKA Explorera
Pogledajmo kako implementirati udruživanje pravila rukovanja pomoću WEKA Explorera.
Udruženje pravila rudarstva
Razvili su ga i dizajnirali Srikant i Aggarwal 1994. Pomaže nam u pronalaženju obrazaca u podacima. To je postupak rudarenja podataka koji pronalazi značajke koje se javljaju zajedno ili značajke koje su povezane.
kako započeti testiranje automatizacije od nule
Primjene pravila o udruživanju uključuju analizu tržišne košarice za analizu predmeta kupljenih u jednoj košarici; Unakrsni marketing za suradnju s drugim tvrtkama što povećava vrijednost naših poslovnih proizvoda, poput prodavača vozila i Naftne tvrtke.
Pravila pridruživanja minirana su nakon pronalaska čestih skupova stavki u velikom skupu podataka. Ti se skupovi podataka otkrivaju pomoću rudarskih algoritama kao što su Apriori i FP Growth. Podaci o rudarstvu koji često vrše Itemset miniraju se pomoću mjera podrške i povjerenja.
Podrška i povjerenje
Podrška mjeri vjerojatnost da se dva predmeta kupe zajedno u jednoj transakciji, poput kruha i maslaca. Samouvjerenost je mjera koja navodi vjerojatnost da se dva predmeta kupuju jedan za drugim, ali ne zajedno, poput antivirusnog softvera za prijenosno računalo i računalo.
Podržavaju se minimalne vrijednosti praga i minimalne vrijednosti pouzdanosti praga kako bi se smanjile transakcije i saznali najčešće postavljeni skup predmeta.
Implementacija pomoću WEKA Explorera
WEKA sadrži provedbu Apriorijev algoritam za učenje pravila udruživanja. Apriori radi samo s binarnim atributima, kategorijalnim podacima (nominalni podaci), pa ako skup podataka sadrži bilo koje numeričke vrijednosti, prvo ih pretvorite u nominalne.
Apriori saznaje sva pravila s minimalnom podrškom i pragom povjerenja.
Slijedite korake u nastavku:
# 1) Pripremite skup podataka Excelove datoteke i nazovite ga kao „ apriori.csv '.
#dva) Otvorite WEKA Explorer i na kartici Preprocess odaberite datoteku 'apriori.csv'.
# 3) Datoteka se sada učitava u WEKA Explorer.
# 4) Uklonite polje Transakcija potvrđivanjem potvrdnog okvira i klikom na Ukloni kao što je prikazano na donjoj slici. Sada spremite datoteku kao 'aprioritest.arff'.
# 5) Idite na karticu Suradnik. Apriori pravila mogu se vaditi odavde.
# 6) Kliknite Odaberi da biste postavili parametre podrške i povjerenja. Ovdje se mogu postaviti različiti parametri:
- ' lowerBoundMinSupport 'I' upperBoundMinSupport ”, Ovo je interval razine podrške u kojem će raditi naš algoritam.
- Delta je prirast u potpori. U ovom je slučaju 0,05 prirast podrške od 0,1 do 1.
- metricType mogu biti „Povjerenje“, „Podizanje“, „Poluga“ i „Uvjerenje“. To nam govori kako rangiramo pravila udruživanja. Općenito se bira povjerenje.
- numPravila govori o broju pravila udruživanja koja treba iskopati. Prema zadanim postavkama postavljeno je na 10.
- značaj Razina prikazuje kakav je značaj razine povjerenja.
# 7) Tekstualni okvir pored gumba za odabir prikazuje ' Apriori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 ”, Koji prikazuje sažeta pravila postavljena za algoritam na kartici postavki.
# 8) Kliknite gumb Start. Pravila pridruživanja generiraju se na desnoj ploči. Ova se ploča sastoji od 2 odjeljka. Prvo je algoritam, skup podataka odabran za pokretanje. Drugi dio prikazuje Apriori informacije.
Razumijemo informacije o izvođenju na desnoj ploči:
- Shema koristila nas Apriori.
- Primjerci i atributi: Ima 6 instanci i 4 atributa.
- Minimalna podrška i minimalno povjerenje su 0,4, odnosno 0,9. Od 6 primjeraka, pronađena su 2 primjerka s minimalnom podrškom,
- Broj ciklusa izvedenih za pravilo rudarske asocijacije je 12.
- Generirani su veliki skupovi predmeta 3: L (1), L (2), L (3), ali oni nisu rangirani jer su njihove veličine 7, 11, odnosno 5.
- Pronađena pravila su rangirana. Tumačenje ovih pravila je sljedeće:
- Maslac T 4 => Pivo F 4: znači da od 6, 4 slučaja pokazuje da je za maslac istina pivo lažno. To daje snažnu asocijaciju. Razina povjerenja je 0,1.
Izlaz
Pravila pridruživanja mogu se iskopati pomoću WEKA Explorera s Apriori algoritmom. Ovaj se algoritam može primijeniti na sve vrste skupova podataka dostupnih u WEKA direktoriju kao i na druge skupove podataka koje je izradio korisnik. Podrška, pouzdanost i drugi parametri mogu se postaviti pomoću prozora za postavljanje algoritma.
K-znači algoritam koji koristi WEKA Explorer
Pogledajmo kako implementirati algoritam K-znači za klasteriranje pomoću WEKA Explorera.
Što je klaster analiza
Algoritmi klasteriranja su algoritmi učenja bez nadzora koji se koriste za stvaranje grupa podataka sa sličnim karakteristikama. Objekte sa sličnostima agregira u skupine i podskupine, što dovodi do particioniranja skupova podataka. Klaster analiza je postupak dijeljenja skupova podataka u podskupine. Ti se podskupovi nazivaju klasterima, a skup klastera.
Klaster analiza koristi se u mnogim aplikacijama poput prepoznavanja slika, prepoznavanja uzoraka, pretraživanja weba i sigurnosti, u poslovnoj inteligenciji, poput grupiranja kupaca sa sličnim željama.
Što je K-znači klasteriranje
K znači da je klasteriranje najjednostavniji algoritam klasteriranja. U algoritmu K-klasteriranja, skup podataka podijeljen je u K-klastere. Objektivna funkcija koristi se za pronalaženje kvalitete particija tako da se slični objekti nalaze u jednoj grupi, a različiti objekti u drugim skupinama.
U ovoj metodi utvrđeno je da težište klastera predstavlja klaster. Težište se uzima kao središte nakupine koje se izračunava kao srednja vrijednost bodova unutar nakupine. Sada se kvaliteta grozda pronalazi mjerenjem euklidske udaljenosti između točke i središta. Ova udaljenost trebala bi biti maksimalna.
Kako djeluje K-Mean algoritam klasteriranja
Korak 1: Odaberite vrijednost K gdje je K broj klastera.
Korak 2: Ponovite svaku točku i dodijelite joj skup koji ima najbliže središte. Kad se svaki element ponavlja, izračunajte težište svih klastera.
3. korak: Iterirajte svaki element iz skupa podataka i izračunajte euklidsku udaljenost između točke i težišta svake skupine. Ako je bilo koja točka prisutna u klasteru koja joj nije najbliža, tada je dodijelite najbližoj klasteru i nakon izvođenja svih točaka u skupu podataka, ponovno izračunajte težište svakog klastera.
Korak # 4: Izvršite 3. korak dok ne dođe do novog dodjeljivanja između dviju uzastopnih ponavljanja.
K-znači implementacija klastera pomoću WEKA-e
Koraci za implementaciju pomoću Weke su sljedeći:
# 1) Otvorite WEKA Explorer i kliknite Otvori datoteku na kartici Predproces. Odaberite skup podataka 'vote.arff'.
#dva) Idite na karticu 'Klaster' i kliknite gumb 'Odaberi'. Odaberite metodu grupiranja kao 'SimpleKMeans'.
# 3) Odaberite Postavke, a zatim postavite sljedeća polja:
- Funkcija udaljenosti kao euklidska
- Broj klastera kao 6. S većim brojem klastera, zbroj kvadrata pogreške smanjit će se.
- Sjeme kao 10. od
Kliknite U redu i pokrenite algoritam.
# 4) Kliknite Start na lijevoj ploči. Rezultati algoritma prikazuju se na bijelom zaslonu. Analizirajmo podatke o izvođenju:
- Shema, odnos, primjerci i atributi opisuju svojstvo skupa podataka i metodu klasterizacije koja se koristi. U ovom slučaju, set podataka voice.arff ima 435 primjeraka i 13 atributa.
- S kmeanskim klasterom, broj ponavljanja je 5.
- Zbroj kvadrata pogreške je 1098,0. Ova će se pogreška smanjiti s povećanjem broja klastera.
- Pet konačnih nakupina s centroidima predstavljeno je u obliku tablice. U našem slučaju, Centroidi nakupina su 168,0, 47,0, 37,0, 122,0,33,0 i 28,0.
- Grupirane instance predstavljaju broj i postotak ukupnih slučajeva koji padaju u klaster.
# 5) Odaberite 'Klase za ocjenjivanje klastera' i kliknite Start.
Algoritam će klasteru dodijeliti oznaku klase. Klaster 0 predstavlja republikanske, a klaster 3 predstavlja demokrate. Pogrešno klasterirana instanca iznosi 39,77%, što se može smanjiti zanemarivanjem nevažnih atributa.
# 6) Zanemariti nevažne atribute. Kliknite gumb 'Zanemari atribute' i odaberite atribute koje želite ukloniti.
# 7) Koristite karticu 'Vizualiziraj' za vizualizaciju rezultata algoritma klasteriranja. Idite na karticu i kliknite bilo koji okvir. Pomaknite treperenje na maks.
- Os X i osa Y predstavljaju atribut.
- Plava boja predstavlja klasnu oznaku demokrata, a crvena oznaku klasne republikanske.
- Drhtaj se koristi za gledanje klastera.
- Kliknite okvir s desne strane prozora da biste promijenili atribut koordinata x i grupirali prikaz u odnosu na druge atribute.
Izlaz
K znači da je klasteriranje jednostavna metoda analize klastera. Broj klastera može se postaviti pomoću kartice postavki. Težište svakog klastera izračunava se kao srednja vrijednost svih točaka unutar klastera. Povećanjem broja klastera smanjuje se zbroj kvadratnih pogrešaka. Objekti unutar klastera pokazuju slična svojstva i svojstva. Klasteri predstavljaju oznake klasa.
Primijenite vizualizaciju podataka koristeći WEKA
Vizualizacija podataka
Metoda predstavljanja podataka putem grafikona i grafikona s ciljem jasnog razumijevanja podataka jest vizualizacija podataka.
Postoji mnogo načina za predstavljanje podataka. Neki od njih su sljedeći:
# 1) Vizualizacija orijentirana na piksele: Ovdje boja piksela predstavlja vrijednost dimenzije. Boja piksela predstavlja odgovarajuće vrijednosti.
# 2) Geometrijski prikaz: Višedimenzionalni skupovi podataka predstavljeni su u 2D, 3D i 4D raspršenim grafikonima.
# 3) Vizualizacija temeljena na ikonama: Podaci su predstavljeni pomoću Chernoffovih lica i štapića. Chernoffova lica koriste sposobnost ljudskog uma da prepozna karakteristike lica i razlike među njima. Stick prikazuje 5 figura za prikaz višedimenzionalnih podataka.
# 4) Hijerarhijska vizualizacija podataka: Skupovi podataka predstavljeni su pomoću mapa drveta. Predstavlja hijerarhijske podatke kao skup ugniježđenih trokuta.
Vizualizacija podataka pomoću WEKA Explorera
Vizualizacija podataka pomoću WEKA vrši se na skupu podataka IRIS.arff.
Uključeni su sljedeći koraci:
# 1) Idite na karticu Preprocess i otvorite skup podataka IRIS.arff.
#dva) Skup podataka sadrži 4 atributa i 1 oznaku klase. Atributi u ovom skupu podataka su:
- Duljina rupe: Tip -broj
- Širina sepala: Tip- numerički
- Duljina petale: Tip-numerički
- Širina latice: Tip-numerički
- Klasa: Tip-nominalni
# 3) Da biste vizualizirali skup podataka, idite na karticu Vizualizirajte. Kartica prikazuje matricu grafikona atributa. Atributi skupa podataka označeni su na x-osi i y-osi dok se instance crtaju. Kutija s atributom osi x i atributom osi y može se povećati.
pitanja i odgovori na ispitivanje softvera u ponašanju
# 4) Kliknite na okvir parcele za uvećanje. Na primjer, x: duljina latica i y: širina latice. Oznake razreda predstavljene su u različitim bojama.
- Oznaka razreda- Iris-setosa: plava boja
- Oznaka razreda- Iris-versicolor: crvena
- Oznaka razreda-Iris-djevičanska-zelena
Te se boje mogu mijenjati. Da biste promijenili boju, kliknite naljepnicu razreda pri dnu, pojavit će se prozor u boji.
# 5) Kliknite na instancu predstavljenu s 'x' u grafikonu. Dati će detalje instance. Na primjer:
- Broj instance: 91
- Dvostruka dužina: 5.5
- Širina sepala: 2.6
- Duljina petale: 4.4
- Širina latice: 1.2
- Klasa: Iris-versicolor
Neke točke u radnji izgledaju tamnije od ostalih točaka. Te točke predstavljaju 2 ili više slučajeva s istom oznakom klase i istom vrijednošću atributa ucrtanih na grafikonu, poput širine latice i duljine latica.
Donja slika predstavlja točku s informacijama od 2 primjerka.
# 6) Atributi osi X i Y mogu se mijenjati s desne ploče u grafikonu Vizualizirajte. Korisnik može pregledavati različite parcele.
# 7) Jitter se koristi za dodavanje slučajnosti u radnju. Ponekad se bodovi preklapaju. Uz podrhtavanje, tamnije mrlje predstavljaju više slučajeva.
# 8) Da bi dobio jasniji prikaz skupa podataka i uklonio iznimke, korisnik može odabrati instancu s padajućeg izbornika. Kliknite padajući izbornik 'select instance'. Odaberite 'Pravokutnik'. Ovime će korisnik moći odabrati točke na crtežu crtajući pravokutnik.
# 9) Kliknite 'Pošalji'. Prikazat će se samo odabrane točke skupa podataka, a ostale točke bit će izuzete s grafikona.
Donja slika prikazuje točke odabranog pravokutnog oblika. Grafikon predstavlja bodove sa samo 3 oznake razreda. Korisnik može kliknuti na 'Spremi' za spremanje skupa podataka ili 'Poništi' za odabir druge instance. Skup podataka bit će spremljen u zasebnu .ARFF datoteku.
Izlaz:
Vizualizacija podataka pomoću WEKE pojednostavljena je uz pomoć grafičkog prikaza. Korisnik može vidjeti bilo koju razinu granulacije. Atributi se crtaju na osi X i osi Y, dok se instance crtaju prema osi X i Y. Neke točke predstavljaju više slučajeva koji su predstavljeni točkama tamne boje.
Zaključak
WEKA je učinkovit alat za rudarenje podacima za obavljanje mnogih zadataka rudarenja podataka, kao i za eksperimentiranje s novim metodama preko skupova podataka. WEKA je razvio Odjel za računalne znanosti Sveučilišta Waikato na Novom Zelandu.
Današnji je svijet zatrpan podacima od kupnje u supermarketu do sigurnosnih kamera u našem domu. Data mining koristi ove sirove podatke, pretvara ih u informacije za predviđanje. WEKA uz pomoć Apriori Algoritma pomaže u pravilima udruživanja rudarskih podataka u skupu podataka. Apriori je čest algoritam za rukovanje uzorcima koji broji broj pojavljivanja skupa predmeta u transakciji.
Klaster analiza je tehnika za otkrivanje klastera podataka koji predstavljaju slična svojstva. WEKA nudi mnoge algoritme za izvođenje klaster analize od kojih se simplekmeans vrlo koriste.
Vizualizacija podataka u WEKA može se izvršiti na svim skupovima podataka u WEKA direktoriju. Neobrađeni skup podataka može se pregledati kao i ostali rezultirajući skupovi podataka drugih algoritama kao što su klasifikacija, klasterizacija i pridruživanje mogu se vizualizirati pomoću WEKA.
=> Posjetite ovdje za ekskluzivnu seriju strojnog učenja
Preporučena literatura
- Vodič za Weka - Kako preuzeti, instalirati i koristiti Weka alat
- WEKA skup podataka, klasifikator i J48 algoritam za stablo odlučivanja
- 15 NAJBOLJIH alata i softvera za vizualizaciju podataka 2021
- Vodič za D3.js - Okvir vizualizacije podataka za početnike
- Vodič za vizualizaciju podataka D3.js - Oblici, grafikoni, animacija
- 7 principa testiranja softvera: klasteriranje nedostataka i Pareto princip
- Rudarstvo podataka: proces, tehnike i glavni problemi u analizi podataka
- Tehnike rudarstva podataka: algoritam, metode i najvažniji alati za miniranje podataka