data mining techniques
Ovaj detaljni vodič o tehnikama rudarstva podataka objašnjava algoritme, alate za rudarenje podataka i metode za izdvajanje korisnih podataka:
U ovome Vodiči za obuku za dubinsko rudarenje podataka za sve , istražili smo sve o Data Miningu u našem prethodnom vodiču.
U ovom uputstvu naučit ćemo o raznim tehnikama koje se koriste za izdvajanje podataka. Kao što znamo da je rudarenje podataka koncept izdvajanja korisnih informacija iz ogromne količine podataka, neke tehnike i metode primjenjuju se na velike skupove podataka za izdvajanje korisnih informacija.
Te su tehnike u osnovi u obliku metoda i algoritama koji se primjenjuju na skupove podataka. Neke od tehnika rudarenja podacima uključuju Česti uzorci, udruživanja i korelacije, klasifikacije, klasteriranje, otkrivanje izvanrednih vrijednosti i neke napredne tehnike poput statističkog, vizualnog i audio pretraživanja podataka.
Općenito se relacijske baze podataka, transakcijske baze podataka i skladišta podataka koriste za tehnike miniranja podataka. Međutim, postoje i neke napredne tehnike rudarstva za složene podatke kao što su vremenske serije, simboličke sekvence i biološki sekvencijalni podaci.
Što ćete naučiti:
- Svrha tehnika rudarenja podataka
- Popis tehnika izvlačenja podataka
- Vrhunski algoritmi rudarenja podataka
- Metode izdvajanja podataka
- Vrhunski alati za rudarenje podataka
- Zaključak
- Preporučena literatura
Svrha tehnika rudarenja podataka
S ogromnom količinom podataka koja se pohranjuje svaki dan, tvrtke su sada zainteresirane za saznavanje trendova od njih. Tehnike ekstrakcije podataka pomažu u pretvaranju sirovih podataka u korisno znanje. Za iskopavanje ogromnih količina podataka potreban je softver jer je čovjeku nemoguće ručno proći kroz veliku količinu podataka.
Softver za istraživanje podataka analizira odnos između različitih stavki u velikim bazama podataka koji mogu pomoći u procesu donošenja odluka, naučiti više o kupcima, izraditi marketinške strategije, povećati prodaju i smanjiti troškove.
Popis tehnika izvlačenja podataka
Tehnika rudarenja podataka koja će se primijeniti ovisi o perspektivi naše analize podataka.
Pa razgovarajmo o raznim tehnikama kako se izvlačenje podataka može izvesti na različite načine:
# 1) Česta analiza ruda / udruživanja
Ova vrsta tehnike pretraživanja podataka traži ponavljajuće odnose u danom skupu podataka. Tražit će zanimljive asocijacije i korelacije između različitih stavki u bazi podataka i identificirati obrazac.
Primjer, takve vrste, bila bi „Analiza košarice za kupovinu“: otkrivanje „koje proizvode kupci vjerojatno kupuju zajedno u trgovini?“ kao što su kruh i maslac.
Primjena: Dizajniranje postavljanja proizvoda na police trgovina, marketing, unakrsna prodaja proizvoda.
Obrasci se mogu predstaviti u obliku pravila udruživanja. Pravilo udruživanja kaže da su podrška i povjerenje parametri za otkrivanje korisnosti povezanih predmeta. Transakcije u kojima su oba predmeta kupljena u jednom potezu poznata je kao podrška.
Transakcije u kojima su kupci kupili oba predmeta, ali jedan za drugim, jesu povjerenje. Iskopani uzorak smatrao bi se zanimljivim ako ima minimalni prag potpore i minimalni prag pouzdanosti vrijednost. Vrijednosti praga određuju stručnjaci domene.
Kruh => maslac (podrška = 2%, pouzdanje-60%)
što može otvoriti eps datoteku
Gornja izjava primjer je pravila udruživanja. To znači da postoji transakcija od 2% koja je zajedno kupila kruh i maslac, a 60% kupaca je kupilo kruh kao i maslac.
Koraci za provedbu analize udruživanja:
- Pronalaženje čestih skupova predmeta. Skup predmeta znači skup predmeta. Skup predmeta koji sadrži k predmeta je k-set predmeta. Učestalost skupa predmeta je broj transakcija koje sadrže skup predmeta.
- Generiranje jakih pravila pridruživanja iz čestih skupova predmeta. Jakim pravilima udruživanja podrazumijevamo da je zadovoljen minimalni prag podrške i povjerenja.
Postoje razne česte metode rukovanja stavkama kao što su Apriori algoritam, Pristup rastu uzorka i Rudarstvo pomoću vertikalnog formata podataka. Ova je tehnika poznata pod nazivom Analiza tržišne košarice.
# 2) Analiza korelacije
Analiza korelacije samo je produžetak pravila pridruživanja. Ponekad parametri podrške i povjerenja i dalje mogu korisnicima donijeti nezanimljive obrasce.
Primjer koji podupire gornju tvrdnju može biti: od 1000 analiziranih transakcija, 600 je sadržavalo samo kruh, dok je 750 sadržavalo maslac, a 400 i kruh i maslac. Pretpostavimo da je minimalna podrška za pokretanje pravila pridruživanja 30%, a minimalna pouzdanost 60%.
Vrijednost potpore od 400/1000 = 40% i vrijednost pouzdanosti = 400/600 = 66% ispunjava prag. Međutim, vidimo da je vjerojatnost kupnje maslaca 75%, što je više od 66%. To znači da su kruh i maslac u negativnoj korelaciji jer bi kupnja jednog dovela do smanjenja kupnje drugog. Rezultati varaju.
Iz gornjeg primjera, podrška i samopouzdanje dopunjeni su još jednom mjerom zanimljivosti, tj. Analizom korelacije koja će pomoći u iskopavanju zanimljivih obrazaca.
A => B (podrška, samopouzdanje, korelacija).
Pravilo korelacije mjeri se podrškom, povjerenjem i korelacijom između skupova A i B. Korelacija se mjeri podizanjem i hi-kvadratom.
(Vjezbam: Kao što sama riječ kaže, Lift predstavlja stupanj u kojem prisutnost jednog skupa predmeta podiže pojavu ostalih skupova predmeta.
Razmak između pojave A i B može se mjeriti na sljedeći način:
Podignite (A, B) = P (A U B) / P (A). P (B).
Ako je<1, then A and B are negatively correlated.
Ako je> 1. Tada su A i B pozitivno povezani, što znači da pojava jednog podrazumijeva pojavu drugog.
Ako je = 1, onda među njima ne postoji povezanost.
(ii) Hi-kvadrat: Ovo je još jedna mjera korelacije. Mjeri kvadratnu razliku između promatrane i očekivane vrijednosti za utor (A i B par) podijeljenu s očekivanom vrijednošću.
Ako je> 1, tada je u negativnoj korelaciji.
# 3) Klasifikacija
Klasifikacija pomaže u izradi modela važnih klasa podataka. Model ili klasifikator izrađeni su za predviđanje oznaka klasa. Oznake su definirane klase s diskretnim vrijednostima poput 'da' ili 'ne', 'sigurno' ili 'rizično'. To je vrsta učenja pod nadzorom, jer je razred s etiketama već poznat.
Klasifikacija podataka postupak je u dva koraka:
- Korak učenja: Model je ovdje konstruiran. Unaprijed definirani algoritam primjenjuje se na podatke za analizu uz predviđenu oznaku klase i izrađuju se pravila klasifikacije.
- Korak klasifikacije: Model se koristi za predviđanje oznaka klasa za zadane podatke. Točnost pravila klasifikacije procjenjuje se ispitnim podacima koji se, ako se utvrde točnim, koriste za klasifikaciju novih korpica podataka.
Stavke u skupu stavki dodijelit će se ciljnim kategorijama za predviđanje funkcija na razini oznake klase.
Primjena: Banke koje identificiraju podnositelje zahtjeva za kredit kao niske, srednje ili visoke rizike, tvrtke koje izrađuju marketinške kampanje na temelju klasifikacije dobnih skupina. `
# 4) Indukcija stabla odlučivanja
Metoda indukcije stabala odlučivanja spada u klasifikacijsku analizu. Stablo odluke je struktura nalik stablu koja je jednostavna za razumijevanje i jednostavna i brza. U tome svaki čvor koji nije list predstavlja test atributa i svaka grana predstavlja rezultat testa, a čvor lista predstavlja oznaku klase.
Vrijednosti atributa u korpici testiraju se na stablu odluka od korijena do lisnog čvora. Stabla odlučivanja su popularna jer ne zahtijevaju nikakvo znanje iz domene. Oni mogu predstavljati višedimenzionalne podatke. Stabla odluka mogu se lako pretvoriti u pravila klasifikacije.
Primjena: Stabla odluka grade se u medicini, proizvodnji, proizvodnji, astronomiji itd. Primjer možete vidjeti u nastavku:
# 5) Bayesova klasifikacija
Bayesova klasifikacija je još jedna metoda klasifikacijske analize. Bayesovi klasifikatori predviđaju vjerojatnost da danoj smjesi pripada određenoj klasi. Temelji se na Bayesovom teoremu, koji se temelji na teoriji vjerojatnosti i odluke.
Bayesova klasifikacija djeluje na stražnju vjerojatnost i prethodnu vjerojatnost za proces donošenja odluka. Prema stražnjoj vjerojatnosti, hipoteza se izrađuje iz zadanih podataka, tj. Vrijednosti atributa su poznate, dok se za prethodnu vjerojatnost hipoteze daju bez obzira na vrijednosti atributa.
# 6) Analiza klastera
To je tehnika dijeljenja skupa podataka u klastere ili skupine objekata. Klasterizacija se vrši pomoću algoritama. To je vrsta učenja bez nadzora jer podaci o oznaci nisu poznati. Metode klasteriranja identificiraju podatke koji su međusobno slični ili se razlikuju, a provodi se analiza karakteristika.
Klaster analiza može se koristiti kao prethodni korak za primjenu raznih drugih algoritama kao što su karakterizacija, odabir podskupina atributa itd. Analiza klastera također se može koristiti za otkrivanje vanzemaljaca, poput visokih kupnji u transakcijama kreditnim karticama.
Prijave: Prepoznavanje slika, web pretraživanje i sigurnost.
# 7) Otkrivanje izvan mjesta
Proces pronalaska objekata podataka koji se iznimno ponašaju od ostalih objekata naziva se otkrivanje izvan mjesta. Otkrivanje izvanzemaljaca i klaster analiza međusobno su povezani. Izuzetnije metode kategorizirane su na statističke, na temelju blizine, klasterizirane i klasificirane.
Postoje različite vrste odstupanja, neke od njih su:
- Globalni outlier: Predmet podataka značajno je odstupao od ostatka skupa podataka.
- Kontekstualni outlier: Ovisi o određenim čimbenicima poput dana, vremena i mjesta. Ako objekt podataka značajno odstupa u odnosu na kontekst.
- Kolektivni outlier: Kada se grupa podatkovnih objekata ponaša drugačije od cijelog skupa podataka.
Primjena: Otkrivanje rizika od prijevara s kreditnim karticama, otkrivanje novosti itd.
# 8) Sekvencijalni uzorci
Trend ili neki dosljedni obrasci prepoznaju se u ovoj vrsti pretraživanja podataka. Razumijevanje ponašanja kupaca i redoslijed uzoraka trgovine koriste za izlaganje svojih proizvoda na policama.
Primjena: Primjer e-trgovine gdje kada kupujete artikl A, pokazat će da se artikl B često kupuje s artiklom A gledajući prošlu povijest kupovine.
# 9) Analiza regresije
Ova vrsta analize nadzire se i utvrđuje koji su skupovi predmeta među različitim odnosima povezani ili neovisni jedan o drugom. Može predvidjeti prodaju, dobit, temperaturu, prognozirati ljudsko ponašanje itd. Ima vrijednost skupa podataka koja je već poznata.
Kada se pruži ulaz, algoritam regresije usporedit će ulaz i očekivanu vrijednost, a pogreška se izračunava kako bi se došlo do točnog rezultata.
Primjena: Usporedba napora za marketing i razvoj proizvoda.
Vrhunski algoritmi rudarenja podataka
Tehnike miniranja podataka primjenjuju se kroz algoritme koji stoje iza njih. Ovi algoritmi rade na softveru za izvlačenje podataka i primjenjuju se na temelju poslovne potrebe.
Neki od algoritama koje organizacije često koriste za analizu skupova podataka definirani su u nastavku:
- K-znači: To je popularna tehnika klaster analize gdje se skupina sličnih predmeta grupira zajedno.
- Apriori algoritam: Česta je tehnika rudaranja skupova predmeta i na nju se primjenjuju pravila pridruživanja na transakcijskim bazama podataka. Otkrivat će česte skupove predmeta i istaknuti opće trendove.
- K Najbliži susjed: Ova se metoda koristi za klasifikacijsku i regresijsku analizu. K najbliži susjed je lijeno učenje gdje pohranjuje podatke o treningu i kad dođu novi neobilježeni podaci, klasificirat će ulazne podatke.
- Bayesovi brodovi: To je skupina jednostavnih algoritama vjerojatnosne klasifikacije koji pretpostavljaju da su pojedine značajke objekta podataka neovisne o drugima. To je primjena Bayesova teorema.
- AdaBoost: Riječ je o meta-algoritmu strojnog učenja koji se koristi za poboljšanje performansi. Adaboost je osjetljiv na bučne podatke i odstupanja.
Metode izdvajanja podataka
Neke napredne metode rudarenja podataka za rukovanje složenim vrstama podataka objašnjene su u nastavku.
Podaci su u današnjem svijetu različitih vrsta, od jednostavnih do složenih podataka. Za miniranje složenih vrsta podataka, poput vremenskih serija, višedimenzionalnih, prostornih i multimedijskih podataka, potrebni su napredni algoritmi i tehnike.
osiguranje kvalitete nasuprot kontroli kvalitete
Neki od njih opisani su u nastavku:
- KLIK: Bila je to prva metoda klasteriranja koja je pronašla klastere u višedimenzionalnom podprostoru.
- P3C: To je dobro poznata metoda klasteriranja za umjerene do visoke višedimenzionalne podatke.
- JEZERO: To je metoda zasnovana na k-sredstvima usmjerena na grupiranje podataka srednje i visoke dimenzije. Algoritam dijeli podatke na k disjunktni skup elemenata uklanjanjem mogućih odstupanja.
- UVAJALICA: To je algoritam grupiranja korelacija, uočava i linearne i nelinearne korelacije.
Vrhunski alati za rudarenje podataka
Alati za rudarenje podataka softver je koji se koristi za kopanje podataka. Alati pokreću algoritme na pozadini. Ovi su alati dostupni na tržištu u obliku otvorenog koda, besplatnog softvera i licencirane verzije.
Neki od alata za izdvajanje podataka uključuju:
# 1) RapidMiner
RapidMiner je softverska platforma otvorenog koda za analitičke timove koja objedinjuje pripremu podataka, strojno učenje i predviđanje uvođenja modela. Ovaj se alat koristi za provođenje analize podataka i izradu modela podataka. Ima velike skupove za klasifikaciju, klasteriranje, rudarstvo pravila udruživanja i algoritme regresije.
# 2) Narančasta
To je alat otvorenog koda koji sadrži paket za vizualizaciju i analizu podataka. Naranča se može uvesti u bilo koje radno okruženje pythona. Pogodan je za nove istraživače i male projekte.
# 3) JEZIK
KEEL (Izdvajanje znanja temeljeno na evolucijskom učenju) je otvoreni izvor ( GPLv3 ) Java softverski alat koji se može koristiti za velik broj različitih zadataka otkrivanja podataka znanja.
# 4) SPSS
IBM SPSS Modeler je IBM-ova softverska aplikacija za rukovanje podacima i analizu teksta. Koristi se za izgradnju prediktivnih modela i provođenje drugih analitičkih zadataka.
# 5) KNIM
Riječ je o besplatnom alatu otvorenog koda koji sadrži paket za čišćenje i analizu podataka, specijalizirane algoritme u područjima analize raspoloženja i analize društvenih mreža. KNIME može integrirati podatke iz različitih izvora u istu analizu. Ima sučelje s Java, Python i R programiranjem.
Važno pitanje: Po čemu se klasifikacija razlikuje od predviđanja?
Klasifikacija je grupiranje podataka. Primjer klasifikacije je grupiranje na temelju dobne skupine, zdravstvenog stanja itd. Dok predviđanje donosi rezultat pomoću klasificiranih podataka.
Primjer Predictive Analysis predviđa interese na temelju dobne skupine, liječenja zbog zdravstvenog stanja. Predviđanje je poznato i kao procjena za kontinuirane vrijednosti.
Važan pojam: prediktivno vađenje podataka
Prediktivno istraživanje podataka vrši se radi predviđanja ili predviđanja određenih trendova podataka pomoću poslovne inteligencije i drugih podataka. Pomaže tvrtkama da imaju bolju analitiku i donose bolje odluke. Prediktivna analitika često se kombinira s prediktivnim rudarstvom podataka.
Prediktivno istraživanje podataka pronalazi relevantne podatke za analizu. Prediktivna analitika koristi podatke za predviđanje ishoda.
Zaključak
U ovom uputstvu raspravljali smo o raznim tehnikama rudarenja podataka koje organizacijama i tvrtkama mogu pomoći u pronalaženju najkorisnijih i najrelevantnijih informacija. Te se informacije koriste za stvaranje modela koji će predvidjeti ponašanje kupaca kako bi tvrtke na njih djelovale.
Čitajući sve gore spomenute informacije o tehnikama rudarenja podataka, još se bolje može utvrditi njihova vjerodostojnost i izvedivost. Tehnike ekstrakcije podataka uključuju rad s podacima, ponovno formatiranje podataka, restrukturiranje podataka. Format potrebnih podataka temelji se na tehnici i analizi koju treba obaviti.
Konačno, sve tehnike, metode i sustavi za rukovanje podacima pomažu u otkrivanju novih kreativnih inovacija.
Preporučena literatura
- Rudarstvo podataka: proces, tehnike i glavni problemi u analizi podataka
- 10 najboljih alata za modeliranje podataka za upravljanje složenim dizajnom
- 15 najboljih besplatnih alata za rudarenje podataka: Najopsežniji popis
- 10+ najboljih alata za prikupljanje podataka sa strategijama prikupljanja podataka
- 10 najboljih alata za dizajn baze podataka za izgradnju složenih modela podataka
- 10+ najboljih alata za upravljanje podacima koji će ispuniti vaše potrebe za podacima 2021
- Data Mining vs Machine Learning vs Artificial Intelligence vs Deep Learning
- 14 najboljih NAJBOLJIH alata za upravljanje podacima 2021