metadata data warehouse explained with examples
Ovaj vodič objašnjava ulogu metapodataka u ETL-u, primjere i vrste metapodataka, spremište metapodataka i izazove u upravljanju metapodacima:
Data Mart u ETL-u je detaljno objašnjeno u našem prethodnom vodiču.
Koncept metapodataka vrlo je važan u ETL-u i ovaj vodič će objasniti sve o metapodacima.
Obuhvaća ulogu metapodataka, primjere metapodataka, kao i njihove vrste, spremište metapodataka, kako se može upravljati metapodacima skladištenja podataka, izazove za upravljanje metapodacima.
Također ćete upoznati što je ETL vođen metapodacima i razliku između podataka i metapodataka.
=> Ovdje pročitajte niz treninga o besplatnom skladištu podataka.
Ciljana publika
- Programeri i ispitivači skladišta podataka / ETL-a.
- Stručnjaci za baze podataka s osnovnim znanjem o konceptima baza podataka.
- Administratori baze podataka / stručnjaci za velike podatke koji žele razumjeti područja skladišta podataka / ETL.
- Diplomirani studenti / studenti koji traže posao u skladištu podataka.
Što ćete naučiti:
c ++ algoritam sortiranja odabira
Metapodaci u ETL-u
Korisnici tima za skladište podataka (ili) mogu koristiti metapodatke u raznim situacijama za izgradnju, održavanje i upravljanje sustavom. Osnovna definicija metapodataka u podatkovnom skladištu je, 'To su podaci o podacima' .
Metapodaci mogu sadržavati sve vrste podataka o DW podacima poput:
- Izvor svih izvađenih podataka.
- Korištenje tih DW podataka.
- Bilo koja vrsta podataka i njegove vrijednosti.
- Značajke podataka.
- Logika transformacije za izdvojene podatke.
- DW tablice i njihovi atributi.
- DW objekti
- Oznake vremena
Metapodaci djeluju kao sadržaj podataka u sustavu DW, koji prikazuje tehniku s više detalja o tim podacima. Jednostavnim riječima, možete smisliti indeks u bilo kojoj knjizi koja djeluje kao metapodatak za sadržaj te knjige.
Slično tome, metapodaci djeluju kao indeks DW sadržaja. Svi se takvi metapodaci pohranjuju u spremište. Prolazeći kroz metapodatke, krajnji korisnici upoznaju se odakle mogu započeti analizu DW sustava. Inače, krajnjim je korisnicima teško znati odakle započeti analizu podataka u tako velikom DW sustavu.
Uloga metapodataka u skladištu podataka
Ranijih dana metapodaci su stvarani i održavani kao dokumenti. No, u današnjem digitalnom svijetu razni su alati olakšali ovaj posao bilježenjem metapodataka na svakoj razini DW procesa.
Metapodaci stvoreni jednim alatom mogu se standardizirati (tj. Podaci se mogu unijeti u jedan jedinstveni format) i mogu ponovno upotrijebiti za ostale alate bilo gdje u DW sustavu.
Kako smo svjesni da operativni sustavi održavaju trenutne podatke, DW sustavi održavaju povijesne i trenutne podatke.
Metapodaci moraju pratiti sve promjene koje se događaju u izvornim sustavima, metodama ekstrakcije / transformacije podataka i u strukturi (ili) sadržaju podataka koji će nastati u ovom procesu. Metapodaci će održavati razne verzije kako bi pratili sve te promjene tijekom nekoliko godina.
Dovoljno metapodataka koji se nalaze u spremištu pomoći će svakom korisniku u učinkovitijoj i neovisnoj analizi sustava. Razumijevanjem metapodataka možete pokrenuti bilo koju vrstu upita na DW podacima za najbolje rezultate.
Slikovni prikaz uloge metapodataka:
Primjeri metapodataka u jednostavnim terminima
Dolje su dati neki od primjera metapodataka.
- Metapodaci za web stranicu mogu sadržavati jezik na kojem je kodirana, alate koji se koriste za njihovu izradu, podršku preglednicima itd.
- Metapodaci za digitalnu sliku mogu sadržavati veličinu slike, razlučivost, intenzitet boje, datum stvaranja slike itd.
- Metapodaci za dokument mogu sadržavati datum izrade dokumenta, datum zadnje izmjene, njegovu veličinu, autora, opis itd.
Usporedba podataka i metapodataka
S.Br | Podaci | Metapodaci |
---|---|---|
jedan | Podaci su skup informacija. | Metapodaci su podaci o podacima. |
dva | Podaci se (ili) ne smiju obrađivati. | Metapodaci su uvijek obrađeni podaci. |
Vrste metapodataka
Razvrstavanje metapodataka u razne vrste pomoći će nam da ih bolje razumijemo. Ova se klasifikacija može temeljiti na njezinoj uporabi (ili) korisnicima itd.
Istražimo različite vrste metapodataka u nastavku:
# 1) Metapodaci u pozadini: Usmjerava DBA (ili) krajnje korisnike na postupke ekstrakcije, čišćenja i učitavanja.
# 2) Metapodaci u prednjoj sobi: Usmjerava krajnje korisnike na rad s BI alatima i izvješćima.
# 3) Obradite metapodatke: Ovdje se pohranjuju metapodaci ETL procesa, poput broja učitanih, odbačenih, obrađenih redaka i vremena potrebnog za učitavanje u DW sustav, itd. Ovi podaci također mogu biti dostupni krajnjim korisnicima.
Istodobno, statistika pripremnih tablica također je važna za ETL tim. Ovi će metapodaci pohraniti podatke procesa obrade stupnjevnih tablica kao što su broj učitanih, odbačenih, obrađenih redaka i vrijeme potrebno za učitavanje u svaku pripremnu tablicu.
# 4) Podrijetlo podataka: Ovo pohranjuje logičku transformaciju za svaki element izvornog sustava u ciljni element DW.
# 5) Definicije poslovanja: Kontekst za DW tablice izveden je iz poslovnih definicija. Svaki je atribut u tablici povezan s definicijom tvrtke. Stoga ih treba pohraniti kao metapodatke (ili) bilo koji drugi dokument za buduću upotrebu. I krajnji korisnici i ETL tim ovise o tim poslovnim definicijama.
# 6) Tehničke definicije: Tehničke definicije koriste se isključivo u području pripreme podataka više od poslovnih definicija. Glavna svrha je smanjiti dvosmislenost prilikom stvaranja stupnjeva za uspostavljanje i ponovnu upotrebu svih postojećih tablica. U tehničkim definicijama pohranit će se detalji svakog stupnja za pripremu, kao što su njegovo mjesto i struktura.
što je plan ispitivanja u qa
Ovdje je svaka tehnička dokumentacija tehnički dokumentirana, ako nije dokumentirana, onda to znači da inscenacijska tablica ne postoji. Time se izbjegava rekreacija istog inscenacijskog stola.
# 7) Poslovni podaci: Podaci će se pohranjivati u poslovnom smislu u korist krajnjih korisnika / analitičara / menadžera / bilo kojih korisnika. Poslovni metapodaci proxy su izvornim podacima sustava, tj. Na njima se neće raditi nikakve manipulacije podacima. Može se izvesti iz bilo kojih poslovnih dokumenata i poslovnih pravila.
# 8) Tehnički metapodaci: Ovo će pohraniti tehničke podatke kao što su atributi tablica, njihove vrste podataka, veličina, atributi primarnog ključa, atributi stranog ključa i svi indeksi. Ovo je strukturiranije u usporedbi s poslovnim metapodacima.
Tehnički su metapodaci uglavnom namijenjeni DW timu kao što su programeri / testeri / analitičari / DBA za izgradnju (ili) održavanje sustava. To također značajno koriste administratori za praćenje učitavanja baze podataka i sigurnosnih kopija podataka itd.
# 9) Operativni metapodaci: Kao što znamo podaci u DW sustav potječu iz mnogih operativnih sustava s različitim vrstama podataka i poljima. DW ekstrakti transformiraju takve podatke u jedinstveni tip i učitavaju sve te podatke u sustav.
Istodobno, mora biti u mogućnosti vratiti podatke natrag na izvorne podatke sustava. Metapodaci koji pohranjuju sve ove podatke o operativnim izvorima podataka poznati su kao Operativni metapodaci.
# 10) Izvorne informacije o sustavu:
Možete prikupiti sljedeće metapodatke iz različitih izvornih sustava:
- Datotečni sustav baze podataka (ili): Ovo će pohraniti imena datoteka baza podataka izvornog sustava (ili).
- Specifikacije tablice: Ovo će pohraniti sve detalje o tablicama, kao što su naziv tablice, njezina namjena, veličina, atributi, primarni ključevi i strani ključevi.
- Pravila rukovanja iznimkama: Ovo će pohraniti različite metode oporavka sustava u slučaju kvara sustava.
- Definicije poslovanja: Ovo će pohraniti poslovne definicije za kratko razumijevanje podataka.
- Poslovna pravila: To će pohraniti skup pravila za svaku tablicu kako bi razumjeli njezine podatke i izbjegli nedosljednost.
Metapodaci izvornog sustava štede puno vremena timu DW-a tijekom analize podataka.
# 11) ETD podaci o poslu: ETL metapodaci posla vrlo su važni jer u rasporedu pohranjuju detalje svih poslova koji se obrađuju za učitavanje ETL sustava.
Ovi metapodaci pohranjuju sljedeće podatke:
- Ime posla: ETL naziv posla.
- Svrha posla: Svrha izvođenja posla.
- Izvorne tablice / datoteke: Pruža imena i mjesto svih tablica i datoteka iz kojih podaci dobivaju ovaj posao ETL-a. Ovo može imati više datoteka (ili) datoteka.
- Ciljne tablice / datoteke: Pruža imena i mjesto svih tablica i datoteka u koje se podaci transformiraju ovim ETL poslom. Ovo može imati više datoteka (ili) datoteka.
- Odbijeni podaci: Pruža imena i mjesto svih tablica i datoteka iz kojih predviđeni izvorni podaci nisu učitani u cilj.
- Prethodni procesi: Pruža imena skripti poslova (ili) o kojima ovisi trenutni posao. To znači da ih je potrebno uspješno izvršiti prije izvođenja trenutnog posla.
- Post procesi: Pruža imena poslova (ili) skripti koja bi se trebala pokrenuti odmah nakon trenutnog posla da bi se postupak dovršio.
- Frekvencija: Pruža informacije o tome koliko često treba obavljati posao, tj. Svakodnevno, tjedno (ili) mjesečno.
# 12) Metapodaci o transformaciji: Metapodaci transformacije pohranjuju sve informacije o gradnji povezane s ETL-om. Svaka pojedinačna manipulacija podacima u ETL procesu poznata je kao transformacija podataka.
Bilo koji skup funkcija, pohranjenih procedura, pokazivača, varijabli i petlji u ETL procesu može se smatrati transformacijama. Ali takve se transformacije ne mogu zasebno dokumentirati kao metapodaci.
Cijeli ETL proces izgrađen je transformacijama podataka. Nekoliko transformacija u ETL-u može se unaprijed definirati i koristiti u DW sustavu. Programeri ETL-a svoje vrijeme troše na izgradnju (ili) ponovnu obradu svih transformacija podataka. Ponovna upotreba unaprijed definiranih transformacija tijekom razvoja ETL procesa ubrzat će rad.
Pročitajte dolje navedene transformacije podataka koje možete pronaći u ETL-u:
- Izdvajanje izvornih podataka: To uključuje transformacije podataka za čitanje iz izvornih podataka sustava, poput upita SQL Select (ili) FTP (ili) čitanje XML / mainframe podataka.
- Generatori zamjenskih ključeva: Novi sekvencijski broj koji treba generirati za svaki redak tablice baze podataka pohranjuje se kao metapodaci.
- Pretraživanja: Pretrage se mogu formirati sa svim IN izrazima, unutarnjim i vanjskim spajanjima. Oni se uglavnom koriste za držanje surogatnih ključeva iz svih odgovarajućih tablica dimenzija dok učitavaju činjenicu.
- Filteri: Filteri se preporučuju za sortiranje podataka koji bi se trebali izdvojiti, učitati i odbiti u ETL procesu. Filtriranje podataka u ranim fazama ETL sustava dobra je praksa. Filteri se primjenjuju ovisno o poslovnim pravilima (ili) ograničenjima.
- Agregati: Ovisno o razini granularnosti podataka, mogu se koristiti metapodaci povezani s skupnim funkcijama kao što su zbroj, brojanje, prosjek itd.
- Ažuriranje strategija: To su pravila koja se primjenjuju na zapis tijekom ažuriranja podataka. Ako postoji bilo kakva izmjena u postojećim podacima, tada će se naznačiti treba li zapis dodati, izbrisati (ili) ažurirati.
- Utovarivač cilja: Učitavač cilja pohranit će detalje baze podataka, imena tablica i imena stupaca u koje bi se podaci trebali učitati kroz ETL postupak. Štoviše, ovo će također pohraniti pojedinosti uslužnog programa za skupno opterećenje, ako ih ima, koji se izvode tijekom učitavanja podataka u ETL sustav.
Svaka se transformacija može nazvati na poseban način s kratkom bilješkom o njezinoj svrsi.
Ovdje su navedeni neki primjeri konvencija imenovanja za gornji popis transformacija.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Repozitorij metapodataka u ETL-u
Repozitorij metapodataka mjesto je na kojem se bilo koja vrsta metapodataka pohranjuje ili u lokalnoj bazi podataka (ili) u virtualnoj bazi podataka. Svaka vrsta metapodataka, poput poslovnih metapodataka (ili) tehničkih metapodataka, može se logički odvojiti u spremištu.
Uz gore navedena dva tipa, spremište ima i još jednu komponentu nazvanu Informacijski navigator.
Navigator informacija može se koristiti za izvršavanje sljedećih zadataka:
- Sučelje iz alata za upite: Ovo pruža sučelje za alate za upit za pristup DW metapodacima.
- Izvrši detalje: To omogućuje korisniku da detaljno razmotri metapodatke. Kao primjer, na prvoj razini korisnik može dobiti definiciju tablice podataka. Bušenjem može dobiti atribute tablice na sljedećoj razini. Bušenjem podataka više može dobiti pojedinosti svakog atributa itd.
- Pregledajte unaprijed definirane upite i izvješća: To omogućuje korisniku pregled unaprijed definiranih upita i izvješća. To djeluje kao referenca na samostalne upite s odgovarajućim parametrima itd.
Slikovni prikaz Spremišta metapodataka:
gdje se nalazi mrežni sigurnosni ključ koji se nalazi na mom usmjerivaču
Kako se mogu upravljati metapodacima skladištenja podataka?
Ljudi, procesi i alati ključni su izvori za upravljanje metapodacima.
- Ljudi bi trebali razumjeti metapodatke za odgovarajuću upotrebu.
- Proces će uključiti metapodatke u spremište alata (ili) s napretkom životnog ciklusa DW za buduću upotrebu.
- Nakon toga, metapodacima se može upravljati pomoću alata.
Izazovi za upravljanje metapodacima
Jednom kada su metapodaci stvoreni, tijekom integracije i upravljanja metapodacima u sustav možete se suočiti sa sljedećim izazovima.
- Uvođenje različitih formata metapodataka u standardni format možda će trebati više napora ako se u DW sustavu koriste različiti alati, jer se metapodaci mogu pohraniti u proračunske tablice, aplikacije (ili) baze podataka.
- Formati metapodataka nemaju utvrđene standarde za cijelu industriju. S ovim nedostatkom standardiziranog postupka, teško je prenijeti metapodatke kroz različite razine DW sustava i alata.
- Dosljedno održavanje različitih verzija povijesnih metapodataka složen je zadatak.
Što je ETL vođen metapodacima?
ETL vođen metapodacima uspostavlja sloj za pojednostavljivanje postupka učitavanja podataka u DW sustav. Možete odlučiti želite li podatke obrađivati u sustavu (ili), ne ovisno o metapodacima. Stoga ga možete nazvati ETL-om vođenim metapodacima.
Zaključak
Značajna uloga metapodataka u određivanju uspjeha (ili) neuspjeha DW sustava detaljno je objašnjena u ovom vodiču.
Također smo detaljno istražili značenje, ulogu, primjere, vrste, izazove metapodataka, zajedno sa dotičnim slikovnim prikazom.
Nadamo se da su vam ovi informativni vodiči iz ove serije skladišta podataka obogatili znanje o skladištenju podataka i srodnim konceptima !!!
Sretno čitanje !!
=> Posjetite ovdje da biste od početka naučili skladištenje podataka.
Preporučena literatura
- Vodič za testiranje skladišta podataka sa primjerima | Vodič za ispitivanje ETL-a
- Vodič za ispitivanje skladišta podataka ETL-a (cjelovit vodič)
- Dimenzionalni model podataka u skladištu podataka - Vodič s primjerima
- Data Mart Tutorial - Vrste, primjeri i provedba Data Mart
- Što je ETL (ekstrakt, transformacija, učitavanje) postupak u skladištu podataka?
- 10 najboljih alata za mapiranje podataka korisnih u ETL procesu (POPIS 2021)
- Primjeri rudarenja podataka: Najčešća primjena rudarenja podataka 2021
- Pitanja i odgovori za ispitivanje ETL-a