what is etl extract
Ovaj detaljni vodič o ETL procesu objašnjava tijek procesa i korake koji su uključeni u ETL postupak (ekstrakcija, transformacija i učitavanje) u skladištu podataka:
Ovaj vodič u seriji objašnjava: Što je ETL postupak? Izdvajanje podataka, transformacija, učitavanje, ravne datoteke, što je stupnjevanje? ETL ciklus itd.
Počnimo!!
=> Ovdje pogledajte Savršen vodič za obuku o skladištenju podataka ovdje.
Što ćete naučiti:
- Osnove ETL-a (ekstrakt, transformacija, učitavanje)
- Zaključak
Osnove ETL-a (ekstrakt, transformacija, učitavanje)
Ciljana publika
- Programeri i ispitivači skladišta podataka / ETL-a.
- Stručnjaci za baze podataka s osnovnim znanjem o konceptima baza podataka.
- Administratori baze podataka / stručnjaci za velike podatke koji žele razumjeti područja skladišta podataka / ETL.
- Fakulteti / studenti koji traže posao u skladištu podataka.
Što je ETL postupak u skladištu podataka?
Svi znamo da je Skladište podataka zbirka ogromnih količina podataka za pružanje informacija poslovnim korisnicima uz pomoć alata Business Intelligence.
U tu svrhu DW treba učitavati u redovitim intervalima. Podaci u sustav prikupljaju se iz jednog ili više operativnih sustava, ravnih datoteka itd. Proces koji podatke dovodi u DW poznat je pod nazivom ETL postupak . Izdvajanje, transformacija i učitavanje zadaci su ETL-a.
# 1) Vađenje: Svi poželjni podaci iz različitih izvornih sustava poput baza podataka, aplikacija i ravnih datoteka identificiraju se i izdvajaju. Izdvajanje podataka može se izvršiti izvođenjem poslova u neradno vrijeme.
# 2) Transformacija: Većina izvađenih podataka ne može se izravno učitati u ciljni sustav. Na temelju poslovnih pravila, neke se transformacije mogu izvršiti prije učitavanja podataka.
Na primjer, podaci ciljnog stupca mogu očekivati dva izvorna stupca koja su spojena kao ulaz. Isto tako, može postojati složena logika za transformaciju podataka koja treba stručnost. Neki podaci koji ne trebaju nikakve transformacije mogu se izravno premjestiti u ciljni sustav.
Proces transformacije također ispravlja podatke, uklanja sve netočne podatke i ispravlja sve pogreške u podacima prije nego što ih učita.
# 3) Učitavanje: Sve prikupljene informacije učitavaju se u ciljne tablice skladišta podataka.
Izdvajanje podataka
Izdvajanje podataka igra glavnu ulogu u dizajniranju uspješnog DW sustava. Različiti izvorni sustavi mogu imati različite karakteristike podataka, a ETL postupak učinkovito će upravljati tim razlikama tijekom vađenja podataka.
' Logička karta podataka ”Osnovni je dokument za izdvajanje podataka. To pokazuje koji bi izvorni podaci trebali ići u koju ciljnu tablicu i kako se izvorna polja preslikavaju u odgovarajuća polja ciljne tablice u ETL procesu.
Ispod su koraci koje treba izvesti tijekom dizajniranja logičkih podataka:
- Arhitekt skladišta podataka dizajnira dokument logičke mape podataka.
- Pozivajući se na ovaj dokument, ETL programer će stvoriti ETL poslove, a ETL testeri će stvoriti test slučajeve.
- Svi specifični izvori podataka i odgovarajući elementi podataka koji podržavaju poslovne odluke bit će navedeni u ovom dokumentu. Ti će elementi podataka djelovati kao ulazni podaci tijekom postupka ekstrakcije.
- Analiziraju se podaci iz svih izvornih sustava i dokumentiraju se bilo kakve anomalije podataka tako da to pomaže u dizajniranju ispravnih poslovnih pravila kako bi se zaustavilo izvlačenje pogrešnih podataka u DW. Takvi se podaci ovdje sami odbacuju.
- Jednom kada ETL arhitekti i poslovni analitičari osmisle konačni izvorni i ciljni model podataka, mogu provesti šetnju s ETL programerima i ispitivačima. Ovim će dobiti jasno razumijevanje kako se poslovna pravila trebaju provoditi u svakoj fazi ekstrakcije, transformacije i utovara.
- Prolazeći kroz pravila mapiranja iz ovog dokumenta, ETL arhitekti, programeri i testeri trebali bi dobro razumjeti kako podaci teku iz svake tablice kao dimenzije, činjenice i bilo koje druge tablice.
- Ovdje se također spominju bilo kakva pravila ili formule za manipulaciju podacima kako bi se izbjeglo vađenje pogrešnih podataka. Na primjer, izdvojiti samo zadnjih 40 dana podataka itd.
- Odgovornost je ETL tima da detaljno analizira podatke prema poslovnim zahtjevima, da iznese svaki koristan izvorni sustav, tablice i stupce koji se učitavaju u DW.
Dokument mape logičkih podataka obično je proračunska tablica koja prikazuje sljedeće komponente:
(tablica “” nije pronađena /)Dijagram toka ekstrakcije:
Navedite vremenski prozor za pokretanje poslova svakog izvornog sustava unaprijed, tako da tijekom ciklusa ekstrakcije neće propustiti izvorni podaci.
Gornjim koracima ekstrakcijom se postiže cilj pretvaranja podataka iz različitih formata iz različitih izvora u jedan DW format, što koristi čitavim ETL procesima. Takvi logički postavljeni podaci korisniji su za bolju analizu.
Metode ekstrakcije u skladištu podataka
Ovisno o izvornom i ciljanom okruženju podataka i poslovnim potrebama, možete odabrati način ekstrakcije prikladan za vaš DW.
# 1) Logičke metode ekstrakcije
Izdvajanje podataka u sustavu skladišta podataka može biti jednokratno puno opterećenje koje se izvršava u početku (ili), a to mogu biti inkrementalna učitavanja koja se javljaju svaki put uz stalno ažuriranje.
kako pronaći mrežni sigurnosni ključ za WiFi
- Potpuna ekstrakcija: Kao što i samo ime sugerira, izvorni podaci sustava u potpunosti se izdvajaju u ciljanu tablicu. Svaki put kada ova vrsta ekstrakcije učita cijele trenutne izvorne podatke sustava bez razmatranja posljednjih izvađenih vremenskih žigova. Poželjno je da za početna opterećenja ili tablice s manje podataka možete koristiti potpuno vađenje.
- Inkrementalna ekstrakcija: Podaci dodani / modificirani od određenog datuma uzimaju se u obzir za postupno izdvajanje. Ovaj je datum specifičan za tvrtku kao zadnji izdvojeni datum (ili) datum zadnje narudžbe itd. Možemo se pozvati na stupac vremenske oznake iz same izvorne tablice (ili) može se stvoriti zasebna tablica koja će pratiti samo detalje datuma izdvajanja. Pozivanje na vremensku oznaku značajna je metoda tijekom Inkrementalne ekstrakcije. Logika bez vremenske oznake može propasti ako DW tablica ima velike podatke.
# 2) Metode fizikalne ekstrakcije
Ovisno o mogućnostima izvornih sustava i ograničenjima podataka, izvorni sustavi mogu fizički pružiti podatke za izdvajanje kao mrežno izdvajanje i izvanmrežno izdvajanje. Ovo podržava bilo koji od logičkih tipova ekstrakcije.
- Online izdvajanje :: Možemo se izravno povezati s bilo kojom bazom podataka izvornog sustava pomoću nizova veze kako bismo izvukli podatke izravno iz tablica izvornog sustava.
- Izdvajanje izvan mreže :: Ovdje se nećemo izravno povezati s bazom podataka izvornog sustava, već izvorni sustav pruža podatke izričito u unaprijed definiranoj strukturi. Izvorni sustavi mogu pružiti podatke u obliku ravnih datoteka, izvatka datoteka, arhivskih dnevnika i tabličnih prostora.
ETL alati su najprikladniji za izvođenje bilo kakvih složenih izdvajanja podataka, bilo koji broj puta za DW, iako su skupi.
Izdvajanje promijenjenih podataka
Nakon završetka početnog učitavanja, važno je razmotriti kako dalje izvući podatke koji su promijenjeni iz izvornog sustava. Tim ETL procesa trebao bi na početku samog projekta izraditi plan kako provesti ekstrakciju za početna i dodatna opterećenja.
Uglavnom možete razmotriti strategiju 'Revizija stupaca' za inkrementalno učitavanje za bilježenje promjena podataka. Općenito, izvorne tablice sustava mogu sadržavati stupce revizije koji pohranjuju vremensku oznaku za svako umetanje (ili) izmjenu.
Vremenska oznaka može se popuniti okidačima baze podataka (ili) iz same aplikacije. Morate osigurati točnost podataka revizijskih stupaca čak i ako se na bilo koji način učitavaju, kako ne biste propustili promijenjene podatke za inkrementalna učitavanja.
Tijekom inkrementalnog učitavanja možete uzeti u obzir maksimalni datum i vrijeme kada se dogodilo posljednje učitavanje i izvući sve podatke iz izvornog sustava s vremenskom oznakom većom od posljednje vremenske oznake.
Tijekom izdvajanja podataka:
- Optimalno koristite upite za dohvaćanje samo podataka koji su vam potrebni.
- Nemojte puno koristiti klauzulu Distinct jer usporava izvedbu upita.
- Pažljivo koristite SET operatore kao što su Union, Minus, Intersect jer pogoršavaju performanse.
- Koristite ključne riječi za usporedbu poput klauzule, između itd. U klauzuli where, a ne funkcije kao što su substr (), to_char () itd.
Transformacija podataka
Transformacija je postupak u kojem se skup pravila primjenjuje na izvučene podatke prije izravnog učitavanja podataka izvornog sustava u ciljni sustav. Izdvojeni podaci smatraju se sirovim podacima.
Proces transformacije sa setom standarda dovodi sve različite podatke iz različitih izvornih sustava u korisne podatke u DW sustavu. Transformacija podataka ima za cilj kvalitetu podataka. Za sva pravila logičke transformacije možete se obratiti dokumentu mapiranja podataka.
Na temelju pravila transformacije, ako bilo koji izvorni podaci ne udovoljavaju uputama, takvi se izvorni podaci odbijaju prije učitavanja u ciljni DW sustav i stavljaju u datoteku odbijanja ili tablicu odbijanja.
Pravila transformacije nisu navedena za podatke stupaca ravnog učitavanja (ne trebaju nikakve promjene) od izvora do cilja. Stoga se transformacije podataka mogu klasificirati kao jednostavne i složene. Transformacije podataka mogu uključivati pretvorbe stupaca, preoblikovanje strukture podataka itd.
Dolje su navedeni neki od zadataka koje treba izvršiti tijekom transformacije podataka:
# 1) Izbor: Možete odabrati ili cijele podatke tablice ili određeni skup podataka stupaca iz izvornih sustava. Odabir podataka obično se dovršava na samom izvlačenju.
Mogu biti slučajevi kada izvorni sustav ne dopušta odabir određenog skupa podataka stupaca tijekom faze ekstrakcije, zatim izdvajanje cijelih podataka i odabir u fazi transformacije.
# 2) Razdvajanje / spajanje: Odabranim podacima možete manipulirati razdvajanjem ili pridruživanjem. Od vas će se tražiti da još više podijelite odabrane izvorne podatke tijekom transformacije.
Na primjer, ako je cijela adresa pohranjena u jednom velikom tekstualnom polju u izvornom sustavu, DW sustav može zatražiti da se adresa podijeli na zasebna polja kao grad, država, poštanski broj itd. To je lako za indeksiranje i analizu na temelju svakog komponenta pojedinačno.
Dok se spajanje / spajanje dvaju ili više podataka stupaca široko koristi tijekom faze transformacije u DW sustavu. To ne znači spajanje dva polja u jedno polje.
Na primjer, ako informacije o određenom entitetu dolaze iz više izvora podataka, tada se prikupljanje podataka kao jednog entiteta može nazvati spajanjem / spajanjem podataka.
# 3) Konverzija: Izdvojeni izvorni podaci sustava mogu biti u različitim formatima za svaku vrstu podataka, stoga bi svi izvađeni podaci trebali biti pretvoreni u standardizirani format tijekom faze transformacije. Istu vrstu formata lako je razumjeti i lako koristiti za poslovne odluke.
# 4) Sažetak: U nekim će situacijama DW tražiti sažete podatke, a ne detaljne podatke niske razine iz izvornih sustava. Budući da podaci niske razine nisu najprikladniji za analizu i upite poslovnih korisnika.
Na primjer, podaci o prodaji za svaku naplatu možda neće trebati sustav DW, korisni su svakodnevni nusproizvodi (ili) dnevne prodaje u trgovini. Stoga se sažimanje podataka može izvršiti tijekom faze transformacije prema poslovnim zahtjevima.
# 5) Obogaćivanje: Kada se DW stupac formira kombiniranjem jednog ili više stupaca iz više zapisa, obogaćivanje podataka preuredit će polja za bolji prikaz podataka u DW sustavu.
# 6) Revizije formata: Revizije formata događaju se najčešće tijekom faze transformacije. Vrsta podataka i njegova duljina revidiraju se za svaki stupac.
Na primjer, stupac u jednom izvornom sustavu može biti numerički, a isti stupac u drugom izvornom sustavu može biti tekst. Da bi se to standardiziralo, tijekom faze transformacije vrsta podataka za ovaj stupac mijenja se u tekst.
# 7) Dekodiranje polja: Kada izvlačite podatke iz više izvornih sustava, podaci u različitim sustavima mogu se različito dekodirati.
Na primjer, jedan izvorni sustav može predstavljati status kupca kao AC, IN i SU. Drugi sustav može predstavljati isti status kao 1, 0 i -1.
Tijekom faze transformacije podataka takve kodove morate dekodirati u odgovarajuće vrijednosti koje su razumljive poslovnim korisnicima. Stoga se gornji kodovi mogu promijeniti u Aktivni, Neaktivni i Obustavljeni.
# 8) Izračunate i izvedene vrijednosti: Razmatrajući izvorne podatke sustava, DW može pohraniti dodatne podatke stupaca za izračune. Prije spremanja u DW morate izvršiti izračune na temelju poslovne logike.
# 9) Pretvorba datuma / vremena: Ovo je jedan od ključnih tipova podataka na koje se treba koncentrirati. Format datuma / vremena može se razlikovati u više izvornih sustava.
Na primjer, jedan izvor može pohraniti datum kao 10. studenoga 1997. Drugi izvor može pohraniti isti datum u formatu 10.11.1997. Stoga bi tijekom transformacije podataka sve vrijednosti datuma / vremena trebale biti pretvorene u standardni format.
# 10) De-dupliciranje: U slučaju da izvorni sustav ima dvostruke zapise, osigurajte da je samo jedan zapis učitan u DW sustav.
Dijagram toka transformacije:
Kako provesti transformaciju?
Ovisno o složenosti transformacije podataka, možete koristiti ručne metode, alate za transformaciju (ili) kombinaciju oba načina učinkovitog.
# 1) Ručne tehnike
Ručne tehnike prikladne su za male DW sustave. Analitičari podataka i programeri stvorit će programe i skripte za ručnu transformaciju podataka. Ova metoda zahtijeva detaljno testiranje za svaki dio koda.
Troškovi održavanja mogu postati visoki zbog promjena koje se događaju u poslovnim pravilima (ili) zbog šansi za dobivanje pogrešaka s povećanjem količine podataka. O metapodacima biste trebali voditi računa u početku, a također i kod svake promjene koja se dogodi u pravilima transformacije.
# 2) Alati za transformaciju
Ako želite automatizirati veći dio procesa transformacije, tada možete usvojiti alate za transformaciju ovisno o proračunu i vremenskom okviru dostupan za projekt. Tijekom automatizacije trebali biste potrošiti dobro vrijeme na odabir alata, konfiguriranje, instaliranje i integriranje s DW sustavom.
Praktično potpuna transformacija sa samim alatima nije moguća bez ručne intervencije. Ali podaci transformirani alatima zasigurno su učinkoviti i točni.
Da bismo to postigli, trebali bismo unijeti odgovarajuće parametre, definicije podataka i pravila u alat za transformaciju kao ulaz. Iz danih unosa, sam alat će zabilježiti metapodatke i ti se metapodaci dodaju ukupnim DW metapodacima.
Ako postoje bilo kakve promjene u poslovnim pravilima, onda samo unesite te promjene u alat, za ostale izmjene transformacije pobrinut će se sam alat. Stoga je kombinacija obje metode učinkovita za upotrebu.
Učitavanje podataka
Izdvojeni i transformirani podaci učitavaju se u ciljne DW tablice tijekom faze učitavanja ETL procesa. Tvrtka odlučuje kako će se postupak učitavanja odvijati za svaku tablicu.
Postupak učitavanja može se dogoditi na sljedeće načine:
- Početno opterećenje: Učitavanje podataka za prvo popunjavanje odgovarajućih DW tablica.
- Inkrementalno opterećenje: Jednom kada se učitaju DW tablice, ostatak tekućih promjena primjenjuje se povremeno.
- Potpuno osvježavanje: Ako bilo koja tablica koja se koristi treba osvježiti, tada se trenutni podaci iz te tablice u potpunosti uklanjaju, a zatim ponovno učitavaju. Pretovar je sličan početnom opterećenju.
Pogledajte donji primjer za bolje razumijevanje postupka učitavanja u ETL-u:
Identifikacijski broj proizvoda | ime proizvoda | Datum prodaje |
---|---|---|
1 | Gramatička knjiga | 3. lipnja 2007 |
dva | Marker | 3. lipnja 2007 |
3 | Stražnja torba | 4. lipnja 2007 |
4 | Kapa | 4. lipnja 2007 |
5 | Cipele | 5. lipnja 2007 |
# 1) Tijekom početnog učitavanja podaci koji se prodaju 3rdLipanj 2007 učitava se u DW ciljnu tablicu jer su to početni podaci iz gornje tablice.
#dva) Tijekom inkrementalnog učitavanja moramo učitati podatke koji se prodaju nakon 3rdLipanj 2007. Trebali bismo uzeti u obzir sve zapise s datumom prodaje većim od (>) prethodnog datuma za sljedeći dan. Dakle, na 4thU lipnju 2007. dohvatite sve zapise s datumom prodaje> 3rdLipnja 2007. pomoću upita i učitajte samo ona dva zapisa iz gornje tablice.
Dana 5thU lipnju 2007. dohvatite sve zapise s datumom prodaje> 4thLipnja 2007. i učitajte samo jedan zapis iz gornje tablice.
# 3) Tijekom potpunog osvježavanja, svi gornji podaci tablice istovremeno se učitavaju u DW tablice, bez obzira na datum prodaje.
Učitani podaci pohranjuju se u odgovarajuće tablice dimenzija (ili) činjenica. Podaci se mogu učitati, dodati ili spojiti u DW tablice na sljedeći način:
# 4) Opterećenje: Podaci se učitavaju u ciljnu tablicu ako je prazna. Ako tablica sadrži neke podatke, postojeći se podaci uklanjaju, a zatim učitavaju s novim podacima.
Na primjer,
Postojeći podaci tablice
ime zaposlenika | Uloga |
---|---|
Ivan | Menadžer |
Revanth | voditi |
Bobe | Pomoćnik upravitelja |
Ronald | Programer |
Promijenjeni podaci
ime zaposlenika | Uloga |
---|---|
Ivan | Menadžer |
Rohan | direktor |
Četan | AVP |
The | VP |
Podaci nakon učitavanja
ime zaposlenika | Uloga |
---|---|
Ivan | Menadžer |
Rohan | direktor |
Četan | AVP |
The | VP |
# 5) Dodati: Dodatak je produžetak gore navedenog opterećenja jer radi na već postojećim tablicama podataka. U ciljnim tablicama Append dodaje više podataka postojećim podacima. Ako se sa ulaznim podacima pronađe bilo koji duplicirani zapis, tada se može dodati kao duplikat (ili) i može se odbiti.
Na primjer,
Postojeći podaci tablice
ime zaposlenika | Uloga |
---|---|
Ivan | Menadžer |
Revanth | voditi |
Promijenjeni podaci
ime zaposlenika | Uloga |
---|---|
Ivan | Menadžer |
Rohan | direktor |
Četan | AVP |
The | VP |
Podaci nakon dodavanja
ime zaposlenika | Uloga |
---|---|
Ivan | Menadžer |
Revanth | voditi |
Rohan | direktor |
Četan | AVP |
The | VP |
# 6) Razarajuće spajanje: Ovdje se dolazni podaci uspoređuju sa postojećim ciljnim podacima na temelju primarnog ključa. Ako postoji podudaranje, tada se postojeći ciljni zapis ažurira. Ako se ne pronađe podudaranje, tada se novi zapis ubacuje u ciljnu tablicu.
Na primjer,
Postojeći podaci tablice
ime zaposlenika | Uloga |
---|---|
Ivan | Menadžer |
Revanth | voditi |
Promijenjeni podaci
ime zaposlenika | Uloga |
---|---|
Ivan | Menadžer |
Revanth | direktor |
Četan | AVP |
The | VP |
Podaci nakon konstruktivnog spajanja
ime zaposlenika | Uloga |
---|---|
Ivan | Menadžer |
Revanth | direktor |
Četan | AVP |
The | VP |
# 7) Konstruktivno ide: Za razliku od destruktivnog spajanja, ako postoji podudaranje sa postojećim zapisom, on ostavlja postojeći zapis kakav jest i ubacuje dolazni zapis i označava ga kao najnoviji podatak (vremensku oznaku) s obzirom na taj primarni ključ.
Na primjer,
Postojeći podaci tablice
ime zaposlenika | Uloga |
---|---|
Ivan | Menadžer |
Revanth | voditi |
Promijenjeni podaci
ime zaposlenika | Uloga |
---|---|
Ivan | Menadžer |
Revanth | direktor |
Četan | AVP |
The | VP |
Podaci nakon konstruktivnog spajanja
ime zaposlenika | Uloga |
---|---|
Ivan | Menadžer |
Revanth | Direktor*** |
Revanth | voditi |
Četan | AVP |
The | VP |
Tehnički je osvježavanje lakše od ažuriranja podataka. Ažuriranju je potrebna posebna strategija za izdvajanje samo određenih promjena i njihovu primjenu na DW sustav, dok Refresh samo zamjenjuje podatke. No osvježavanje podataka traje dulje vrijeme, ovisno o količini podataka.
Ako imate takve zadatke osvježavanja za svakodnevno pokretanje, tada ćete možda morati srušiti DW sustav za učitavanje podataka. Umjesto da svaki put srušite cijeli DW sustav za učitavanje podataka, podatke možete podijeliti i učitati u obliku nekoliko datoteka.
Zabilježite vrijeme rada za svako opterećenje tijekom testiranja. Ako se bilo koji podatak ne može učitati u DW sustav zbog bilo kakvih neusklađenosti ključeva itd., Onda im dajte načine za rukovanje takvom vrstom podataka. Provjerite jesu li učitani podaci temeljito testirani.
Učitavanje dijagrama toka:
Ravne datoteke
Ravne datoteke široko se koriste za razmjenu podataka između heterogenih sustava, od različitih izvornih operativnih sustava i od različitih izvornih sustava baza podataka do aplikacija skladišta podataka. Ravne datoteke najučinkovitije su i njima je jednostavno upravljati i za homogene sustave.
Ravne datoteke uglavnom se koriste u sljedeće svrhe:
# 1) Dostava izvornih podataka: Možda je malo izvornih sustava koji DW korisnicima neće dopustiti pristup njihovim bazama podataka iz sigurnosnih razloga. U takvim se slučajevima podaci isporučuju putem ravnih datoteka.
Slično tome, podaci se dobivaju od vanjskih dobavljača ili glavnih računala, uglavnom u obliku ravnih datoteka, a ETL korisnici će ih FTP-u omogućiti.
# 2) Radni / scenski stolovi: ETL postupak stvara stupnjevne tablice za svoju unutarnju svrhu. Asocijacija uprizorenja tablica s ravnim datotekama mnogo je lakša od DBMS-a jer je čitanje i pisanje u datotečni sustav brže od umetanja i postavljanja upita u bazu podataka.
# 3) Priprema za rasuti teret: Nakon što se izvrše procesi ekstrakcije i transformacije, ako ETL alat (ili) ne podržava masovno učitavanje u protoku (ili) Ako želite arhivirati podatke, možete stvoriti ravnu datoteku. Ove podatke ravne datoteke čita procesor i učitava ih u DW sustav.
Ravne datoteke mogu se stvoriti na dva načina kao 'ravne datoteke fiksne duljine' i 'Razgraničene ravne datoteke'. Ravne datoteke mogu stvoriti programeri koji rade za izvorni sustav.
Pogledajmo kako obrađujemo ove ravne datoteke:
Obrada ravnih datoteka fiksne duljine
Općenito, ravne datoteke su stupaca fiksne duljine, stoga se nazivaju i pozicijske ravne datoteke. Ispod je izgled ravne datoteke koja prikazuje točna polja i njihove položaje u datoteci.
Naziv polja | Duljina | Početak | Kraj | Tip | Komentari |
---|---|---|---|---|---|
Ime | 10 | 1 | 10 | Tekst | Ime kupca |
Srednje ime | 5 | jedanaest | petnaest | Tekst | Srednje ime kupca |
Prezime | 10 | 16 | 25 | Tekst | Prezime kupca |
Izgled sadrži naziv polja, duljina, početni položaj na kojem započinje znak polja, krajnji položaj na kojem završava znak polja, vrsta podataka kao tekst, brojka itd. i komentari ako postoje.
Ovisno o položajima podataka, tim za ispitivanje ETL-a provjerit će točnost podataka u ravnoj datoteci fiksne duljine.
Obrada razgraničenih ravnih datoteka
U razgraničenim ravnim datotekama svako je polje podataka odvojeno graničnicima. Ovaj graničnik označava početni i krajnji položaj svakog polja. Općenito se zarez koristi kao graničnik, ali možete koristiti bilo koji drugi simbol ili skup simbola.
Razgraničene datoteke mogu biti .CSV nastavka (ili) .TXT nastavka (ili) bez nastavka. Programeri koji kreiraju ETL datoteke naznačit će stvarni simbol graničnika za obradu te datoteke. U razmeđenom rasporedu datoteka, prvi redak može predstavljati imena stupaca.
Isto kao i kod pozicijskih ravnih datoteka, tim za ispitivanje ETL-a izričito će potvrditi točnost razgraničenih podataka ravne datoteke.
Svrha scenskog prostora
Glavna svrha pripremnog područja je privremeno pohranjivanje podataka za ETL postupak. Područje uprizorenja naziva se stražnjim prostorom DW sustava. ETL arhitekt odlučuje hoće li podatke pohraniti u scensko područje ili ne.
Postupak će pomoći da se podaci iz izvornih sustava dobiju vrlo brzo. Istodobno, u slučaju da DW sustav zakaže, tada ne trebate ponovno pokretati postupak prikupljanjem podataka iz izvornih sustava ako podaci o stupnju već postoje.
Nakon postupka izdvajanja podataka, evo razloga za postavljanje podataka u DW sustav:
# 1) Obnovljivost: Napunjene stupnjevne tablice pohranit će se u samoj bazi podataka DW (ili), a mogu se premjestiti u datotečne sustave i odvojeno. U određenom trenutku, stupnjevani podaci mogu djelovati kao podaci oporavka ako bilo koji korak transformacije ili učitavanja ne uspije.
koja je faza analize u sdlc
Moguće su šanse da je izvorni sustav prepisao podatke koji se koriste za ETL, pa nam zadržavanje izvađenih podataka u fazi postavljanja pomaže u bilo kakvoj referenci.
# 2) Sigurnosna kopija: Teško je napraviti sigurnosnu kopiju za ogromne količine tablica DW baze podataka. No sigurnosne kopije nužne su za bilo kakav oporavak od katastrofe. Dakle, ako imate pripremne podatke koji su izvučeni podaci, tada možete pokrenuti poslove za transformaciju i učitavanje, čime se srušeni podaci mogu ponovno učitati.
Da biste napravili sigurnosnu kopiju stupnjevanih podataka, često ih možete premjestiti u datotečne sustave tako da ih je lako komprimirati i pohraniti u vašu mrežu. Kad god je potrebno, samo komprimirajte datoteke, učitajte ih u stupnjevne tablice i pokrenite poslove za ponovno učitavanje DW tablica.
# 3) Revizija: Ponekad se može dogoditi revizija na ETL sustavu radi provjere veze podataka između izvornog sustava i ciljnog sustava. Revizori mogu provjeriti izvorne ulazne podatke prema izlaznim podacima na temelju pravila transformacije.
Podaci o uprizorenju i sigurnosne kopije ovdje su vrlo korisni čak i ako izvorni sustav ima dostupne podatke ili ne. Kao što se revizija može dogoditi u bilo koje vrijeme i u bilo kojem razdoblju sadašnjih (ili) prošlih podataka. Arhitektura scenskog prostora trebala bi biti dobro isplanirana.
Dizajniranje scenskog prostora
U skladištu podataka podaci o stupnjevanju mogu se dizajnirati na sljedeći način:
Sa svakim novim učitavanjem podataka u stupnjevne tablice, postojeći se podaci mogu izbrisati (ili) održavati kao povijesni podaci za referencu. Ako se podaci izbrišu, tada se nazivaju „Prolazno upravno područje“.
Ako se podaci održavaju kao povijest, tada se nazivaju „Stalno upravno područje“. Također možete dizajnirati scensko područje kombinacijom gore spomenute dvije vrste, a to je 'Hibrid'.
Evo osnovnih pravila koja treba znati prilikom dizajniranja scenskog područja:
- Samo ETL tim trebao bi imati pristup području spremanja podataka. Upiti o stupnjevanim podacima ograničeni su na druge korisnike.
- Tablice u scenskom području arhitekt podataka ETL može dodati, izmijeniti ili ispustiti bez uključivanja bilo kojih drugih korisnika. Kako scensko područje nije područje prezentacije za generiranje izvještaja, ono samo djeluje kao radni stol.
- ETL arhitekt trebao bi procijeniti mjeru za pohranu podataka pripremnog područja kako bi pružio detalje administratorima DBA-a i OS-a. Administratori će dodijeliti prostor za postavljanje baza podataka, datotečnih sustava, direktorija itd.
Ako scensko područje i baza podataka DW koriste isti poslužitelj, tada podatke možete jednostavno premjestiti u DW sustav. Ako su poslužitelji različiti, koristite FTP (ili) veze baze podataka.
Protok ETL procesa
Standardni ETL ciklus proći će sljedeće korake procesa:
- Započnite ETL ciklus za pokretanje poslova u nizu.
- Provjerite jesu li svi metapodaci spremni.
- ETL ciklus pomaže u izdvajanju podataka iz različitih izvora.
- Potvrdite izdvojene podatke.
- Ako se koriste stupnjevne tablice, tada ETL ciklus učitava podatke u stupnjevanje.
- ETL izvodi transformacije primjenom poslovnih pravila, stvaranjem agregata itd
- Ako postoje bilo kakvi kvarovi, tada će se ETL ciklus to obavijestiti u obliku izvješća.
- Tada ETL ciklus učitava podatke u ciljne tablice.
- Raniji podaci koje treba pohraniti za povijesnu referencu arhiviraju se.
- Ostali podaci koje nije potrebno pohraniti se čiste.
Dijagram toka ETL procesa:
Zaključak
U ovom vodiču naučili smo o glavnim konceptima ETL procesa u skladištu podataka. Do sada biste trebali biti u stanju razumjeti što je Izdvajanje podataka, Transformacija podataka, Učitavanje podataka i tijek ETL procesa.
Pročitajte predstojeći vodič da biste saznali više o testiranju skladišta podataka !!
=> Posjetite ovdje za ekskluzivnu seriju skladištenja podataka.
Preporučena literatura
- Vodič za ispitivanje skladišta podataka sa primjerima | Vodič za ispitivanje ETL-a
- 10 najboljih alata za mapiranje podataka korisnih u ETL procesu (POPIS 2021)
- Vodič za ispitivanje skladišta podataka ETL-a (cjelovit vodič)
- Rudarstvo podataka: proces, tehnike i glavni problemi u analizi podataka
- Proces rudarenja podataka: uključeni modeli, koraci i izazovi
- Pitanja i odgovori za ispitivanje ETL-a
- Top 10 ETL alata za testiranje 2021. godine
- 10 najpopularnijih alata za skladište podataka i tehnologija za testiranje