what is data lake data warehouse vs data lake
Ovaj vodič objašnjava sve o Data Lakeu, uključujući potrebe, definiciju, arhitekturu, prednosti i razlike između Data Lakea i skladišta podataka:
Izraz 'Data Lake' koristi se prilično često u današnjem IT svijetu. Jeste li se ikad zapitali što je to i odakle taj pojam točno dolazi?
U doba informacijske tehnologije u kojem se podaci pojačavaju danju i noću u brojnim oblicima, pojam podatkovnog jezera postaje zasigurno važan i koristan.
Istražimo što je podatkovno jezero i koje su njegove prednosti, namjene itd. Ovdje detaljno.
Što ćete naučiti:
- Što je jezero podataka i kako ono funkcionira?
- Zaključak
Što je jezero podataka i kako ono funkcionira?
Podatkovno jezero je sustav ili centralizirano spremište podataka koje vam omogućuju pohranu svih vaših strukturiranih, polustrukturiranih, nestrukturiranih i binarnih podataka u svom prirodnom / izvornom / sirovom formatu.
Strukturirani podaci mogu uključivati tablice iz RDBMS-ova; polustrukturirani podaci uključuju CSV datoteke, XML datoteke, zapisnike, JSON itd .; nestrukturirani podaci mogu uključivati PDF-ove, word dokumente, tekstualne datoteke, e-poštu itd .; i binarni podaci mogu uključivati audio, video, slikovne datoteke.
Slijedi ravnu arhitekturu za pohranu podataka. Općenito se podaci pohranjuju u obliku objektnih blobova ili datoteka.
(slika izvor )
S podatkovnim jezerom možete pohraniti cijelo svoje poduzeće na jednom mjestu, bez potrebe za prvo strukturiranjem podataka. Na njemu možete izravno izvršiti razne vrste analitike, uključujući strojno učenje, analitiku u stvarnom vremenu, lokalno kretanje podataka, kretanje podataka u stvarnom vremenu, nadzorne ploče i vizualizacije.
U njemu se čuvaju svi podaci u izvornom obliku i pretpostavlja se da će se analiza izvršiti kasnije, na zahtjev.
Analogija jezera podataka
(slika izvor )
Izraz Data Lake izmislio je James Dixon, tadašnji tehnički direktor u Pentahu. On definira data mart (podskup skladišta podataka) kao sličan boci za vodu napunjenoj očišćenom, destiliranom vodom, pakiranoj i strukturiranoj za izravnu i laku upotrebu.
S druge strane, analogan je vodenom tijelu u svom prirodnom obliku. Podaci teku iz tokova (razne poslovne funkcije / izvorni sustavi) do jezera. Potrošači podatkovnog jezera, tj. Korisnici imaju pristup jezeru kako bi mogli analizirati, ispitati, prikupiti uzorke i zaroniti.
Baš kao što voda u jezeru udovoljava različitim potrebama ljudi poput ribolova, plovidbe brodom, opskrbe pitkom vodom itd., Slično tome, arhitektura podataka jezera služi u više svrha.
koja je razlika između linuxa i unixa
Znanstvenik podataka može ga koristiti za istraživanje podataka i stvaranje hipoteze. Nudi mogućnost analitičarima podataka da analiziraju podatke i otkriju obrasce. Pruža način poslovnim korisnicima i dionicima za istraživanje podataka.
Također nudi priliku izvještajnim analitičarima da oblikuju izvješća i predstave ih poslu. Suprotno tome, skladište podataka zapakiralo je podatke u dobro definirane svrhe baš poput bislerijeve boce koja se može koristiti samo za pitku vodu.
Tržište Data Lake - rast, trendovi i predviđanja
Tržište podatkovnih jezera podijeljeno je na temelju proizvoda (rješenja ili usluge), primjene (lokalno ili u oblaku), industrije klijenata (maloprodaja, bankarstvo, komunalne usluge, osiguranje, IT, zdravstvo, telekom, izdavaštvo, proizvodnja) i zemljopisnih podataka regijama.
Prema izvješću koje je objavio Mordor Intelligence, dolje je snimka tržišta za podatkovno jezero:
(slika izvor )
# 1) Sažetak tržišta
Tržište podatkovnih jezera procijenjeno je na 3,74 milijarde USD u 2019. godini, a očekuje se da će do 2025. godine doseći 17,60 milijardi USD, prema CAGR (složena godišnja stopa rasta) od 29,9% tijekom razdoblja projekcije 2020. - 2025. godine.
Ti se spremnici podataka sve više pokazuju kao ekonomična opcija za mnoge organizacije nad skladištima podataka. Suprotno jezerima podataka, skladištenje podataka zahtijeva dodatnu obradu podataka prije ulaska u skladište.
Troškovi upravljanja podatkovnim jezerom manji su u usporedbi sa skladištem podataka, jer je potrebno mnogo obrade i prostora koji je potreban za stvaranje baze podataka za skladišta.
# 2) Glavni igrači
Predviđa se da će tržište Data Lake biti konsolidirano tržište kojim će dominirati pet ključnih igrača, kao što se vidi na donjoj slici.
# 3) Ključni trendovi
- Očekuje se da će njegova uporaba znatno porasti u bankarskom sektoru. Banke usvajaju podatkovna jezera kako bi pružale analitiku u pokretu. Također, pomaže u rastvaranju mnogih silosa u bankarskom sektoru.
- Kako postoji ogroman porast digitalnih plaćanja / upotrebe mobilnih novčanika širom svijeta, povećava se opseg analitike velikih podataka, a time i prilika za njih.
- Očekuje se da će Sjeverna Amerika biti visoko prihvaćena za podatkovna jezera. Studija koju je proveo Capgemini kaže da preko 60% financijskih organizacija u SAD-u misli da analitika velikih podataka djeluje kao diferencijator za poslovanje i daje im konkurentsku prednost. Preko 90% organizacija smatra da ulaganje u projekte velikih podataka povećava šanse za uspjeh u budućnosti.
- Oni su potrebni za upotrebu aplikacija pametnih brojila, a u SAD-u se očekuje da će 2021. godine biti instalirano oko 90 milijuna pametnih brojila. Stoga se predviđa velika potražnja za njima.
Zašto je potrebno jezero podataka?
Svrha podatkovnog jezera je pružiti neprerađeni uvid u podatke (podatke u najčišćem obliku).
Primjeri
Danas mnoge velike tvrtke, uključujući Google, Amazon, Cloudera, Oracle, Microsoft i nekoliko drugih, imaju ponude za podatkovno jezero.
Mnoge organizacije koriste usluge pohrane u oblaku poput Azure Data Lake ili Amazon S3. Tvrtke također koriste distribuirani datotečni sustav poput Apache Hadoop. Koncept jezera s osobnim podacima koji vam omogućuje upravljanje i dijeljenje vlastitih velikih podataka također se razvio.
Ako govorimo o industrijskoj upotrebi, onda je to vrlo pogodno za zdravstveno područje. Zbog nestrukturiranog formata velikog broja podataka u zdravstvu ( Na primjer, Bilješke liječnika, klinički podaci, povijest bolesti pacijenta itd.) I zahtjev za uvidom u stvarnom vremenu, jezero s podacima izvrsna je opcija za skladište podataka.
Nudi fleksibilna rješenja i u obrazovnom sektoru gdje su podaci vrlo široki i vrlo sirovi.
U transportnom sektoru, uglavnom u upravljanju lancem opskrbe ili logistikom, pomaže u predviđanju i ostvarivanju koristi od smanjenja troškova.
Zrakoplovna i elektroenergetska industrija također koriste podatkovna jezera.
Primjer njegove primjene je GE Predix (razvio ga je General Electric) koji je industrijska platforma za jezero podataka koja nudi jake kompetencije upravljanja podacima za stvaranje, primjenu i upravljanje industrijskim aplikacijama koje povezuju s industrijskim imovinama, prikupljaju i analiziraju podatke te pružaju u stvarnom vremenu uvidi za poboljšanje industrijske infrastrukture i procesa.
Razlika između skladišta podataka i jezera podataka
Često je ljudima teško razumjeti kako se jezero razlikuje od skladišta podataka. Oni također tvrde da je to isto kao i skladište podataka. Ali to nije stvarnost.
Jedino je zajedničko između jezera podataka i skladišta podataka da su oba spremišta za pohranu podataka. Odmorite se, oni su različiti. Oni imaju različite slučajeve i svrhe upotrebe.
Razlike su pojašnjene u nastavku:
Jezero podataka | Skladište podataka | |
---|---|---|
Analitika | Podatkovno jezero može se koristiti za strojno učenje, profiliranje podataka za otkrivanje podataka i prediktivnu analizu. | Skladište podataka može se koristiti za poslovnu inteligenciju, vizualizacije i izvještavanje o serijama. |
Podaci | Podatkovno jezero će u sebi zadržati sve sirove podatke. Može biti strukturiran, nestrukturiran ili polustrukturiran. Moglo bi biti moguće da se neki podaci u podatkovnom jezeru nikada neće koristiti. | Skladište podataka uključuje samo one podatke koji se obrađuju i pročišćavaju, tj. Strukturirane podatke koji su potrebni za izvještavanje i rješavanje određenih poslovnih problema. |
Korisnici | Općenito, korisnici podatkovnog jezera su znanstvenici i programeri podataka. | Općenito, korisnici skladišta podataka su poslovni profesionalci, operativni korisnici i poslovni analitičari. |
Pristupačnost | Podatkovno jezero je vrlo dostupno i lako se i brzo ažurira jer nemaju nikakvu strukturu. | U skladištu podataka ažuriranje podataka je složeniji i skuplji postupak jer su skladišta podataka strukturirana dizajnom. |
Shema | Shema za pisanje. Dizajnirano prije primjene DW-a. | Shema-na-čitanje. Napisano u vrijeme analize. |
Arhitektura | Ravna arhitektura | Hijerarhijska arhitektura |
Svrha | Svrha sirovih podataka pohranjenih u podatkovnim jezerima nije fiksna ili nije određena. Podaci ponekad mogu teći u podatkovno jezero imajući na umu neku određenu buduću upotrebu ili samo da bi im bili pri ruci. Podatkovno jezero ima manje organizirane i manje filtrirane podatke. | Obrađeni podaci pohranjeni u Skladištu podataka imaju određenu i određenu svrhu. DW je organizirao i filtrirao podatke. Stoga mu je potrebno manje prostora za pohranu od podatkovnog jezera. |
Skladištenje | Dizajniran za jeftinu pohranu. Hardver podatkovnog jezera vrlo se razlikuje od hardvera skladišta podataka. Koristi gotove servere u kombinaciji s jeftinom pohranom. To čini podatkovno jezero prilično ekonomičnim i vrlo skalabilnim na terabajte i petabajte. To se radi kako bi se svi podaci zadržali u podatkovnom jezeru, tako da se u bilo kojem trenutku možete vratiti u vrijeme i napraviti analizu. | Skupo za velike količine podataka. Skladište podataka ima skupo pohranu na disku kako bi ga učinilo vrlo učinkovitim. Stoga se, kako bi se sačuvao prostor, model podataka pojednostavljuje i na skladištu podataka čuvaju se samo podaci koji su stvarno potrebni za donošenje poslovnih odluka. |
Podrška za vrste podataka | Podatkovno jezero vrlo dobro podržava netradicionalne vrste podataka poput zapisnika poslužitelja, podataka senzora, aktivnosti na društvenim mrežama, teksta, slika, multimedije itd. Svi se podaci čuvaju bez obzira na izvor i strukturu. | Općenito, skladište podataka sastoji se od podataka dohvaćenih iz transakcijskih sustava. Ne podržava baš netradicionalne vrste podataka. Pohranjivanje i trošenje netradicionalnih podataka može biti skupo i teško sa skladištem podataka. |
Sigurnost | Sigurnost podatkovnih jezera u fazi je sazrijevanja, jer je ovo relativno nov koncept od skladišta podataka. | Sigurnost skladišta podataka je u fazi 'sazrijevanja'. |
Agilnost | Vrlo okretan; prema potrebi konfigurirajte i konfigurirajte. | Manje okretan; fiksna konfiguracija. |
Arhitektura podataka jezera
Dijagram arhitekture
Iznad je konceptualni dijagram arhitekture podatkovnog jezera. Na lijevom dijelu možete vidjeti da imamo izvore podataka koji mogu biti strukturirani, polustrukturirani ili nestrukturirani.
Ti se izvori podataka kombiniraju u sirovu pohranu podataka koja koristi podatke u sirovom obliku, tj. Podatke bez ikakvih transformacija. Ovo je jeftina, trajna i skalabilna pohrana.
Dalje, imamo analitičke pješčanike koji se mogu koristiti za otkrivanje podataka, istraživačku analizu podataka i prediktivno modeliranje. U osnovi, to koriste znanstvenici za istraživanje podataka kako bi istražili podatke, izgradili novu hipotezu i definirali slučajeve upotrebe.
Zatim postoji mehanizam za serijsku obradu koji obrađuje sirove podatke u korisnom korisnom obliku, tj. U strukturiranom formatu koji se može koristiti za izvještavanje krajnjih korisnika.
Tada imamo mehanizam za obradu u stvarnom vremenu koji se uzima u streaming podatke i transformira ga.
Ključne značajke jezera podataka
Da bi se spremište velikih podataka moglo klasificirati kao Data Lake, treba imati sljedeća tri atributa:
# 1) Jedno zajedničko spremište podataka koje se obično nalazi u Distribuiranom datotečnom sustavu (DFS).
Hadoop podaci podržavaju podatke u izvornom obliku i bilježe promjene podataka i relativne semantike tijekom životnog ciklusa podataka. Ovaj je pristup posebno koristan za provjere usklađenosti i interne revizije.
Ovo je poboljšanje iznad konvencionalnog skladišta podataka poduzeća u kojem je kad podaci prolaze kroz transformacije, agregiranje i modifikacije teško staviti podatke u cjelinu kada je to potrebno, a tvrtke nastoje otkriti izvor / podrijetlo podataka.
# 2) Uključuje mogućnosti planiranja i raspoređivanja poslova (na primjer, putem bilo kojeg alata za planiranje kao što je YARN, itd.).
Izvršenje radnog opterećenja bitna je potreba poduzeća Hadoop, a YARN nudi upravljanje resursima i središnju platformu za pružanje stalnih procesa, sigurnost i alati za upravljanje podacima u klasterima Hadoop, vodeći računa da analitički tijekovi rada posjeduju potrebnu razinu pristupa podacima i računalne snage.
# 3) Sadrži skup uslužnih programa i funkcija potrebnih za trošenje, obradu ili rad s podacima.
pretvoriti YouTube video u mp4 online besplatno
Jednostavna i brza dostupnost korisnika jedna je od ključnih osobina podatkovnog jezera, jer organizacije pohranjuju podatke u izvornom ili čistom obliku.
U bilo kojem obliku podaci su tj. Strukturirani, nestrukturirani ili polustrukturirani, oni se ubacuju kao u podatkovno jezero. Omogućuje vlasnicima podataka da kombiniraju podatke o kupcima, dobavljačima i operacijama, rješavajući se bilo kakvih tehničkih ili političkih prepreka za razmjenu podataka.
Prednosti
(slika izvor )
- Svestran : Dovoljno kompetentan za pohranu svih vrsta strukturiranih / nestrukturiranih podataka, od CRM podataka do aktivnosti na društvenim mrežama.
- Više fleksibilnosti sheme : Ne treba planiranje ili prethodno znanje o analizi podataka. Pohranjuje sve podatke u izvornom obliku i pretpostavlja da će se analiza dogoditi kasnije, na zahtjev. Ovo je vrlo korisno za OLAP. Na primjer, podatkovno jezero Hadoop omogućuje vam da nemate sheme, pri čemu shemu možete odvojiti od podataka.
- Analiza odluke u stvarnom vremenu : Uživaju u blagodati ogromne količine dosljednih podataka i algoritama dubokog učenja za postizanje analitike odlučivanja u stvarnom vremenu. Sposobnost dobivanja vrijednosti iz neograničenih tipova podataka.
- Prilagodljivo: Mnogo su skalabilnija od tradicionalnih skladišta podataka, a uz to su i jeftinija.
- Napredna analitika / kompatibilnost s SQL-om i drugim jezicima: Kod podatkovnih jezera postoje brojni načini za upit podataka. Za razliku od tradicionalnih skladišta podataka koja podržavaju samo SQL za jednostavnu analitiku, oni vam nude puno drugih mogućnosti i jezičnu podršku za analizu podataka. Također su kompatibilni s alatima za strojno učenje poput Spark MLlib.
- Demokratiziraj podatke: Demokratizirani pristup podacima kroz jedinstveni, integrirani prikaz podataka u cijeloj organizaciji uz korištenje učinkovite platforme za upravljanje podacima. To osigurava sveobuhvatnu dostupnost podataka.
- Bolja kvaliteta podataka: Sveukupno dobivate bolju kvalitetu podataka s jezicima podataka zahvaljujući tehnološkim prednostima kao što su pohrana podataka u izvornom formatu, skalabilnost, svestranost, fleksibilnost sheme, podrška za SQL i druge jezike te napredna analitika.
Izazovi i rizici
Podatkovna jezera nude puno prednosti. Ali da, postoji i nekoliko izazova i rizika povezanih s njima koje organizacija mora pažljivo riješiti.
Oni su:
- Ako nisu pravilno dizajnirani, mogu se pretvoriti u močvare podataka. Ponekad organizacije jednostavno završe s izbacivanjem neograničenih podataka u ova jezera bez ikakve strategije i svrhe na umu.
- Ponekad analitičari koji žele koristiti podatke nemaju znanja o tome kako to učiniti jer je prilično izazovno raditi rudarstvo u podatkovnim jezerima. Dakle, oni gube relevantnost i zamah nakon nekog vremena. Organizacije trebaju raditi na uklanjanju ove barijere za analitičare.
- Budući da imamo puno neorganiziranih podataka u podatkovnim jezerima, oni nisu dovoljno svježi ni trenutni da bi se mogli koristiti u proizvodnji. Stoga podaci u tim jezerima ostaju u pilot načinu i nikad se ne puštaju u proizvodnju.
- Nestrukturirani podaci mogu dovesti do neupotrebljivih podataka.
- Ponekad organizacije doživljavaju da to nema značajnog utjecaja na poslovanje s obzirom na izvršena ulaganja. To zahtijeva promjenu načina razmišljanja. Da bi se utjecaji mogli dogoditi, tvrtke trebaju poticati menadžere i vođe da donose odluke na temelju analitike izvedene iz tih spremnika podataka.
- Sigurnost i kontrola pristupa također su jedan od rizika kada radite s njima. Neki podaci koji mogu zahtijevati privatnost i propise smještaju se u podatkovna jezera bez ikakvog nadzora.
Provedba
U poduzeću je prilično razumno implementirati jezero podataka na agilni način.
Odnosno, da bi prvo implementirali Data Lake MVP, korisnici ga testiraju s obzirom na kvalitetu, jednostavnost pristupa, pohranu i analitičke mogućnosti, dobivaju povratne informacije, a zatim dodaju složene zahtjeve i značajke za dodavanje vrijednosti jezeru.
Općenito, organizacija prolazi kroz četiri osnovne faze implementacije:
(slika izvor )
Faza 1:
Jezero osnovnih podataka: U ovoj se fazi tim bavi osnovnom arhitekturom, tehnologijom (zasnovanom na oblaku ili naslijeđem) te praksama sigurnosti i upravljanja za podatkovno jezero. Osposobljen je za spremanje svih sirovih podataka koji dolaze iz različitih poslovnih izvora te kombiniranje internih i vanjskih podataka za isporuku obogaćenih podataka.
Faza 2:
Sandbox: Poboljšanje analitičke sposobnosti: U ovoj fazi znanstvenici podataka pristupaju spremniku podataka kako bi izveli preliminarne eksperimente za korištenje sirovih podataka i dizajnirali analitičke modele kako bi zadovoljili poslovne potrebe.
Faza 3:
kako stvoriti lažni ID e-pošte tvrtke
Skladišta podataka i suradnja na jezeru podataka: U ovoj fazi, organizacija počinje koristiti jezero podataka u sinergiji s postojećim skladištima podataka. Podaci s niskim prioritetom šalju im se kako ne bi došlo do prekoračenja ograničenja pohrane skladišta podataka.
Predstavlja mogućnost za dobivanje uvida iz hladnih podataka ili postavljanje upita za otkrivanje informacija koje nisu indeksirane u uobičajenim bazama podataka.
Faza 4:
Usvajanje Data Lake-a od kraja do kraja: Ovo je zadnja faza stjecanja zrelosti u kojoj se pretvara u ključni element arhitekture podataka organizacije i učinkovito usmjerava operaciju pretraživanja. Do tada bi jezero podataka zamijenilo EDW i oni bi postali jedini izvor svih podataka poduzeća.
Organizacija putem jezera podataka može učiniti sljedeće:
- Stvorite složena rješenja za modeliranje podataka i analitiku za različite poslovne potrebe.
- Dizajnirajte interaktivne nadzorne ploče koje objedinjuju razumijevanja iz podatkovnog jezera, plus razne aplikacije i izvore podataka.
- Primijenite napredne analitičke ili robotičke programe, jer upravlja računalnim operacijama.
Do ovog trenutka, ona također ima jake mjere sigurnosti i upravljanja.
Dobavljači podataka s jezera podataka
Postoje različiti dobavljači koji u industriji pružaju alate za podatkovno jezero.
(slika izvor )
Ako pogledamo velike tvrtke:
- Računarstvo pruža inteligentni alat za podatkovno jezero. BDM (upravljanje velikim podacima) 10.2.2 najnovija je dostupna verzija.
- Zove se prodavač posmatrač koji također pruža alat.
- Tvrtka Talend koji je popularan zbog njihovih ETL alata također nudi alat Data Lake.
- Zatim imamo alat otvorenog koda pod nazivom Kylo od Teradata društvo. Tim pod nazivom „Misli veliko“ u tvrtki Teradata razvio je ovaj alat.
- Tvrtka Podaci o bačvama Inc također pruža ove usluge.
- Iz Microsoft , možeš naći Azurno jezero s podacima dostupan u industriji.
- Hvr-softver također nudi rješenja za konsolidaciju jezera podataka.
- Podaci o podijumu, tvrtka Qlik nudi proizvode s alatima poput cjevovoda za podatkovno jezero, višezonsko podatkovno jezero.
- Pahuljica također ima data Lake proizvod.
- Zaloni je tvrtka za podatkovno jezero koja obrađuje ogromne podatke koristeći Big Data.
Dakle, to su svi popularni pružatelji usluga, kao i dobavljači takvih alata.
Ako tražite vježbanje i izgrađivanje znanja o jezerima podataka, tada možete otići na Informaticu ili Kylo. Ako tražite uslugu zasnovanu na oblaku, tada se možete odlučiti za Looker, Informatica i Talend. Ova tri dobavljača pružaju AWS podatkovna jezera u oblaku. Također od Kylo možete dobiti jednomjesečno besplatno probno razdoblje.
Zaključak
U ovom uputstvu detaljno smo razgovarali o konceptu podatkovnog jezera. Prošli smo kroz osnovnu ideju koja stoji iza podatkovnog jezera, njegove arhitekture, ključnih karakteristika, prednosti, zajedno s primjerima, slučajevima korištenja itd.
Također smo vidjeli kako se jezero podataka razlikuje od skladišta podataka. Također smo pokrili najbolje dobavljače koji pružaju povezane usluge.
Sretno čitanje !!
Preporučena literatura
- Vodič za ispitivanje skladišta podataka sa primjerima | Vodič za ispitivanje ETL-a
- 10 najboljih alata za testiranje i provjeru valjanosti strukturiranih podataka za SEO
- Rudarstvo podataka: proces, tehnike i glavni problemi u analizi podataka
- Data Mart Tutorial - Vrste, primjeri i provedba Data Mart
- 10 najpopularnijih alata za skladište podataka i tehnologija za testiranje
- Dimenzionalni model podataka u skladištu podataka - Vodič s primjerima
- 10+ najboljih alata za prikupljanje podataka sa strategijama prikupljanja podataka
- Značajka baze podataka u IBM Rational Quality Manageru za upravljanje test podacima