complete guide big data analytics
Ovo je sveobuhvatan vodič za Big Data Analytics sa svojim slučajevima korištenja, arhitekturom, primjerima i usporedbom s Big Data i Data Science:
Analitika velikih podataka stekla je snagu jer su korporacije kao što su Facebook, Google i Amazon postavile vlastite nove paradigme distribuirane obrade podataka i analitike kako bi razumjele sklonosti svojih kupaca prema izvlačenju vrijednosti iz velikih podataka.
U ovom uputstvu objašnjavamo analitiku velikih podataka i uspoređujemo je s Big Data i Data Scienceom. Pokrivat ćemo potrebne atribute koje tvrtke trebaju imati u svojoj strategiji velikih podataka i metodologiji koja djeluje. Također ćemo spomenuti najnovije trendove i neke slučajeve upotrebe analitike podataka.
Kao što je prikazano na donjoj slici, Analytics zahtijeva upotrebu informatičkih vještina, poslovnih vještina i znanosti o podacima. Analitika velikih podataka u središtu je korištenja vrijednosti iz velikih podataka i pomaže u dobivanju potrošnih uvida za organizaciju.
(slika izvor )
Što ćete naučiti:
- Što je analitika velikih podataka
- Zaključak
Što je analitika velikih podataka
Big Data Analytics bavi se korištenjem zbirke statističkih tehnika, alata i postupaka analitike za Big Data.
Preporučeno Čitanje => Uvod u velike podatke
Analitika je ta koja pomaže u izdvajanju vrijednih obrazaca i značajnih uvida iz velikih podataka kako bi podržala donošenje odluka na temelju podataka. Zbog pojave novih izvora podataka, poput društvenih medija i IoT podataka, veliki podaci i analitika postali su popularni.
Ovaj trend stvara područje prakse i studije pod nazivom 'znanost o podacima' koja obuhvaća tehnike, alate, tehnologije i procese za rudarenje podataka, čišćenje, modeliranje i vizualizaciju.
Big Data Vs Big Data Analytics Vs Data Science
DO usporedba između velikih podataka, znanosti o podacima i analitike velikih podataka može se razumjeti iz donje tablice.
Osnova | Veliki podaci | Znanost o podacima | Analitika velikih podataka |
---|---|---|---|
Alati i tehnologije | Hadoop ekosustav, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Iskra, Oluja, Knime, Omotač podataka, Lumify, HPCC, Qubole, Microsoft HDInsight |
Radne uloge i vještine | Održavanje infrastrukture za pohranu, obrada podataka i znanje o Hadoopu i njegova integracija s drugim alatima. | Transformacija podataka, Inženjering podataka, Uređivanje podataka, Modeliranje podataka i Vizualizacija | BI i napredna analitika, statistika, modeliranje podataka i strojno učenje, matematičke vještine, komunikacija, savjetovanje. |
Oznake | Arhitekt velikih podataka Razvoj velikih podataka Inženjer velikih podataka | Data Scientist Inženjer strojnog učenja | Analitičar velikih podataka Poslovni analitičar Inženjer poslovne inteligencije Stručnjak za poslovnu analitiku Razvojni programer vizualizacije podataka Upravitelj analitike |
Cca. Prosječna godišnja plaća u USD | 100.000 | 90.000 | 70.000 |
Predloženo čitanje = >> Data Science vs Computer Science
Što bi svaka strategija analize velikih podataka trebala imati
Dobro definirana, integrirana i sveobuhvatna strategija pridonosi i podržava donošenje odluka u organizaciji vrijednih podataka. U ovom smo odjeljku naveli najvažnije korake koje treba uzeti u obzir prilikom definiranja strategije analitike velikih podataka.
Korak 1: Procjena
Procjena, koja je već usklađena s poslovnim ciljevima, zahtijeva uključivanje ključnih dionika, stvaranje tima članova s pravim skupom vještina, procjenu politika, ljudi, procesa i imovine i tehnologije. Ako je potrebno, u ovaj postupak se mogu uključiti kupci procijenjenih.
Korak 2: Određivanje prioriteta
Nakon procjene treba izvesti slučajeve upotrebe, dati im prioritet pomoću prediktivne analitike velikih podataka, preskriptivne analitike i kognitivne analitike. Također možete koristiti alat kao što je matrica prioriteta i dalje filtrirati slučajeve upotrebe uz pomoć povratnih informacija i unosa ključnih dionika.
Korak 3: Mapa puta
U ovom koraku potrebno je stvoriti vremenski ograničen plan i objaviti ga za sve. Mapa puta mora sadržavati sve detalje u vezi sa složenošću, sredstvima, inherentnim prednostima slučajeva korištenja i mapiranim projektima.
Korak 4: Upravljanje promjenama
Implementacija upravljanja promjenama zahtijeva upravljanje dostupnošću podataka, integritetom, sigurnošću i upotrebljivošću. Učinkovit program upravljanja promjenama, koji koristi bilo koje postojeće upravljanje podacima, potiče aktivnosti i članove na temelju kontinuiranog praćenja.
Korak 5: Desni set vještina
Prepoznavanje pravog skupa vještina presudno je za uspjeh organizacije usred trenutnih trendova u industriji. Stoga treba slijediti prave vođe i donijeti obrazovne programe za obrazovanje kritičnih dionika.
Korak 6: Pouzdanost, skalabilnost i sigurnost
Ispravan pristup i učinkovita strategija analitike velikih podataka čine analitički postupak pouzdanim, uz učinkovitu upotrebu interpretabilnih modela koji uključuju principe znanosti o podacima. Strategija analitike velikih podataka također mora uključiti aspekte sigurnosti od početka za robustan i čvrsto integriran analitički cjevovod.
Cjevovod podataka i postupak za analizu podataka
Kada planirate cjevovod za analitiku podataka, tri su temeljna aspekta koja treba uzeti u obzir. To su kako slijedi:
- Ulazni: Format podataka i odabir tehnologije za obradu, temelji se na osnovnoj prirodi podataka, tj. jesu li podaci vremenske serije i kakvoća.
- Izlaz: Izbor konektora , izvješća i vizualizacija ovise o tehničkoj stručnosti krajnjih korisnika i njihovim zahtjevima za potrošnjom podataka.
- Volumen: Otopine za skaliranje planiraju se na temelju količine podataka kako bi se izbjeglo preopterećenje sustava za obradu velikih podataka.
Sada ćemo razgovarati o tipičnom procesu i fazama cjevovoda za analizu velikih podataka.
Faza 1: Gutanje podataka
Unos podataka prvi je i najvažniji korak u cjevovodu podataka. Razmatra tri aspekta podataka.
- Izvor podataka - Značajno je u pogledu izbora arhitekture cjevovoda velikih podataka.
- Struktura podataka - Serijalizacija je ključ za održavanje homogene strukture na cjevovodu.
- Čistoća podataka - Analitika je dobra kao i podaci bez problema poput nedostajućih vrijednosti, odstupanja itd.
Faza 2: ETL / Skladištenje
Sljedeći važan modul su alati za pohranu podataka za izvođenje ETL-a (Extract Transform Load). Pohrana podataka u ispravnom podatkovnom centru ovisi o,
- Hardver
- Stručnost upravljanja
- Proračun
(slika izvor )
Neki vremenski testirani alati za ETL / skladištenje u podatkovnim centrima su:
- Apache Hadoop
- Apache košnica
- Apache parket
- Presto Query engine
Tvrtke u oblaku poput Googlea, AWS-a, Microsoft Azure-a pružaju ove alate uz plaćanje po osnovi i štede početne kapitalne izdatke.
Faza 3: Analitika i vizualizacija
Uzimajući u obzir ograničenje Hadoopa na brzo postavljanje upita, potrebno je koristiti analitičke platforme i alate koji omogućuju brzo i ad-hoc postavljanje upita uz potrebnu vizualizaciju rezultata.
>> Preporučena literatura: Alati za velike podatke
Faza 4: Praćenje
Nakon postavljanja infrastrukture za gutanje, pohranu i analitiku pomoću alata za vizualizaciju, sljedeći je korak imati IT i alate za nadzor podataka za nadgledanje. To uključuje:
- Korištenje CPU-a ili GPU-a
- Potrošnja memorije i resursa
- Mreže
Neki alati koje vrijedi razmotriti su:
- Psa podataka
- Grafana
Alati za praćenje neophodni su u cjevovodu za analizu velikih podataka i pomažu u praćenju kvalitete i integriteta cjevovoda.
Arhitektura analitike velikih podataka
Dijagram arhitekture u nastavku pokazuje kako moderne tehnologije koriste nestrukturirane i strukturirane izvore podataka za obradu Hadoop i Map-Reduction, analitičke sustave u memoriji i analitiku u stvarnom vremenu kako bi donijele kombinirane rezultate za operacije u stvarnom vremenu i donošenje odluka.
(slika izvor )
Trenutni trendovi u analizi podataka
U ovom smo odjeljku nabrojali bitne aspekte koje treba potražiti prilikom primjene ili praćenja trendova analitike velikih podataka u industriji.
# 1) Izvori velikih podataka
Postoje prvenstveno tri izvora velikih podataka. Oni su navedeni u nastavku:
- Podaci o društvenim mrežama: Podaci generirani zbog upotrebe društvenih medija. Ovi podaci pomažu u razumijevanju osjećaji i ponašanje kupaca a može biti korisna u marketinškoj analitici.
- Podaci o stroju: Ti se podaci uzimaju iz industrijske opreme i aplikacija pomoću IoT senzora. Pomaže u razumijevanju ljudi ponašanje i pruža uvid u procesi .
- Podaci o transakciji: Generira se kao rezultat izvanmrežnih i mrežnih aktivnosti korisnika u vezi s nalozima za plaćanje, računima, potvrdama itd. Većina ove vrste podataka treba predobrada i čišćenje prije nego što se može koristiti za analitiku.
# 2) Pohrana podataka SQL / NoSQL
U usporedbi s tradicionalnim bazama podataka ili RDBMS-om, NoSQL baze podataka pokazuju se boljima za zadatke potrebne za analitiku velikih podataka.
NoSQL baze podataka u osnovi se mogu prilično dobro nositi s nestrukturiranim podacima i nisu ograničene na skupe modifikacije sheme, vertikalno skaliranje i interferenciju ACID svojstava.
# 3) Prediktivna analitika
Predictive Analytics nudi prilagođene uvide koji vode organizacije da generiraju nove odgovore kupaca ili kupnje i mogućnosti unakrsne prodaje. Organizacije koriste prediktivnu analitiku za predviđanje pojedinih elemenata na granuliranim razinama kako bi predvidjele buduće ishode i spriječile potencijalne probleme. To se nadalje kombinira s povijesnim podacima i pretvara u preskriptivnu analitiku.
Neka područja u kojima se uspješno koristi prediktivna analitika velikih podataka su poslovanje, zaštita djece, sustavi za podršku kliničkim odlukama, predviđanje portfelja, predviđanja na ekonomskoj razini i preuzimanje.
# 4) Dubinsko učenje
Veliki podaci prevladavaju za konvencionalno računanje. Ispada da se tradicionalne tehnike strojnog učenja analize podataka poravnavaju u izvedbi s povećanjem raznolikosti i količine podataka.
Analitika se suočava s izazovima u vezi s varijacijama formata, visoko distribuiranim ulaznim izvorima, neuravnoteženim ulaznim podacima i brzim strujanjem podataka, a algoritmi dubinskog učenja prilično se učinkovito nose s takvim izazovima.
Dubinsko učenje pronašlo je svoju učinkovitu uporabu u semantičkom indeksiranju, provođenju diskriminacijskih zadataka, semantičkoj slici i označavanju videozapisa, društvenom ciljanju, a također i u hijerarhijskim pristupima na više razina u područjima prepoznavanja predmeta, označavanja podataka, pronalaženja podataka i prirodnog jezika obrada.
# 5) Jezera podataka
Pohranjivanje različitih skupova podataka u različitim sustavima i njihovo kombiniranje za analitiku s tradicionalnim pristupima upravljanja podacima pokazuju se skupima i gotovo su neizvedivima. Stoga organizacije izrađuju podatkovna jezera koja podatke pohranjuju u svom sirovom izvornom formatu za djelotvornu analitiku.
Slika ispod prikazuje primjer podatkovnog jezera u arhitekturi velikih podataka.
(slika izvor )
Upotreba analitike velikih podataka
U nastavku smo naveli neke od najčešćih slučajeva upotrebe:
# 1) Korisnička analitika
Analitika velikih podataka korisna je u razne svrhe, kao što su mikro marketing, pojedinačni marketing, finija segmentacija i masovno prilagođavanje klijentima tvrtke. Tvrtke mogu stvoriti strategije za prilagodbu svojih proizvoda i usluga prema sklonostima kupaca za nadogradnjom ili unakrsnom prodajom sličnog ili različitog asortimana proizvoda i usluga.
# 2) Analitika rada
Operativna analitika pomaže u poboljšanju cjelokupnog donošenja odluka i poslovnih rezultata iskorištavanjem postojećih podataka i obogaćivanjem strojnim i IoT podacima.
Na primjer, Analitika velikih podataka u zdravstvu omogućila je suočavanje s izazovima i novim mogućnostima povezanim s optimizacijom potrošnje na zdravstvo, poboljšanjem praćenja kliničkih ispitivanja, predviđanjem i planiranjem odgovora na epidemije bolesti poput COVID-19.
# 3) Sprečavanje prijevara
Analitika velikih podataka vidi se s potencijalom da donese veliku korist pomažući u predviđanju i smanjenju pokušaja prijevara, prvenstveno u financijskom i osiguranju.
Na primjer, Osiguravajuće tvrtke u stvarnom vremenu prikupljaju podatke o demografiji, zaradi, medicinskim zahtjevima, troškovima odvjetnika, vremenu, glasovnim snimkama kupca i bilješkama pozivnog centra. Određeni detalji u stvarnom vremenu pomažu u izvlačenju prediktivnih modela kombiniranjem gore spomenutih podataka s povijesnim podacima kako bi se rano identificirale špekulirane lažne tvrdnje.
# 4) Optimizacija cijena
Tvrtke koriste analitiku velikih podataka kako bi povećale profitne marže pronalaženjem najbolje cijene na razini proizvoda, a ne na razini kategorije. Velike tvrtke smatraju da je previše porazno dohvatiti detaljan detalj i složenost varijabli cijena, koje se redovito mijenjaju za tisuće proizvoda.
Analitička strategija optimizacije cijena, poput dinamičkog bodovanja poslova, omogućuje tvrtkama postavljanje cijena klastera proizvoda i segmenata na temelju njihovih podataka i uvida na razinama pojedinačnih poslova radi brze pobjede zahtjevnih klijenata.
Često postavljana pitanja
P # 1) Je li analitika velikih podataka dobra karijera?
Odgovor: Dodana je vrijednost svakoj organizaciji, omogućujući joj donošenje utemeljenih odluka i pružajući prednost nad konkurencijom. Potez u karijeri Big Data povećava vam šanse da postanete ključni donositelj odluke u organizaciji.
P # 2) Zašto je analitika velikih podataka važna?
Odgovor: Pomaže organizacijama da stvore nove mogućnosti rasta i potpuno nove kategorije proizvoda koji mogu kombinirati i analizirati industrijske podatke. Te tvrtke imaju dovoljno informacija o proizvodima i uslugama, kupcima i dobavljačima, sklonostima potrošača koje se mogu uhvatiti i analizirati.
P # 3) Što je potrebno za analitiku velikih podataka?
Odgovor: Spektar tehnologija s kojima dobar analitičar velikih podataka mora biti upoznat je ogroman. Da bi netko savladao analitiku Big Data, potrebno je razumijevanje različitih alata, softvera, hardvera i platformi. Na primjer, Proračunske tablice, SQL upiti i R / R Studio te Python neki su osnovni alati.
Na razini poduzeća, alati poput MATLAB, SPSS, SAS i Congnos važni su uz Linux, Hadoop, Java, Scala, Python, Spark, Hadoop i HIVE.
Cilj pitanja:
P # 4) Koja od baza podataka danih u nastavku nije NoSQL baza podataka?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Odgovor: PostgreSQL
P # 5) Je li Cassandra NoSQL?
- Pravi
- Lažno
Odgovor: Pravi
P # 6) Što od navedenog nije vlasništvo Hadoopa?
kako napraviti datoteku c ++
- Otvoreni izvor
- Na temelju Jave
- Distribuirana obrada
- Stvarno vrijeme
Odgovor: Stvarno vrijeme
P # 7) Odaberite sve aktivnosti koje NE obavlja znanstvenik podataka.
- Izgradite modele strojnog učenja i poboljšajte njihove performanse.
- Procjena statističkih modela za potvrđivanje analiza
- Sažeti napredne analize pomoću alata za vizualizaciju podataka
- Prezentacija rezultata tehničke analize internim timovima i poslovnim klijentima
Odgovor: Prezentacija rezultata tehničke analize internim timovima i poslovnim klijentima
Daljnje čitanje = >> Ključne razlike između Data Analyst i Data Scientist
P # 8) Koje aktivnosti obavlja analitičar podataka?
- Očistite i organizirajte sirove podatke
- Pronalaženje zanimljivih trendova u podacima
- stvoriti nadzorne ploče i vizualizacije za jednostavnu interpretaciju
- Sve od navedenog
Odgovor: Sve od navedenog
P # 9) Što od navedenog izvodi inženjer podataka?
- Integracija novih izvora podataka u postojeći cjevovod za analitiku podataka
- Razvoj API-ja za potrošnju podataka
- praćenje i ispitivanje sustava za daljnje performanse
- Sve od navedenog
Odgovor: Sve od navedenog
P # 10) Ispravan slijed protoka podataka za analitiku je
- Izvori podataka, Priprema podataka, Transformacija podataka, Dizajn algoritma, Analiza podataka
- Izvori podataka, transformacija podataka, dizajn algoritma, priprema podataka, analiza podataka
- Izvori podataka, Dizajn algoritma, Priprema podataka, Transformacija podataka, Analiza podataka
- Izvori podataka, Priprema podataka, Dizajn algoritma, Transformacija podataka, Analiza podataka
Odgovor: Izvori podataka, Priprema podataka, Transformacija podataka, Dizajn algoritma, Analiza podataka
P # 11) Analiza podataka je linearni proces.
- Pravi
- Lažno
Odgovor: Lažno
P # 12) Istraživačka analiza NIJE
- Odgovor detaljna početna pitanja za analizu podataka
- Utvrdite probleme sa skupom podataka
- Izradite skicu odgovora na pitanje
- Utvrdite jesu li podaci točni za odgovor na pitanje
Odgovor: Odgovordetaljna početna pitanja za analizu podataka
P # 13) Pitanje za predviđanje je drugo ime koje se daje Inferencijalnom pitanju.
- Pravi
- Lažno
Odgovor: Lažno
Zaključak
Pokrili smo najvažnije aspekte analitike velikih podataka. Objasnili smo najčešće slučajeve korištenja i trendove u industriji analitike velikih podataka kako bismo postigli maksimalne koristi.
Preporučena literatura
- 7 najboljih NAJBOLJIH tvrtki za analitiku podataka 2021. godine
- 15 najboljih alata za velike podatke (Big Data Analytics Tools) u 2021
- 10 najboljih alata za analizu podataka za savršeno upravljanje podacima (POPIS 2021)
- 10 najboljih alata za znanost o podacima u 2021. godini za uklanjanje programiranja
- Vodič za velike podatke za početnike | Što su veliki podaci?
- Top 13 najboljih tvrtki za velike podatke iz 2021
- 10 najboljih alata za modeliranje podataka za upravljanje složenim dizajnom
- 10+ najboljih alata za upravljanje podacima koji će ispuniti vaše potrebe za podacima 2021