big data tutorial beginners what is big data
Ovaj vodič objašnjava sve o osnovama velikih podataka. Vodič uključuje prednosti, izazove, tehnologije i alate zajedno s aplikacijama velikih podataka:
U ovom digitalnom svijetu s tehnološkim napretkom svakodnevno razmjenjujemo velike količine podataka poput Terabajti ili Petabajti .
Ako svakodnevno razmjenjujemo tu količinu podataka, onda je također moramo održavati i negdje pohraniti. Rješenje za rukovanje velikim količinama podataka velike brzine i različite raznolikosti je Veliki podaci.
Može rukovati složenim podacima koji dolaze iz više izvora, poput različitih baza podataka, web stranica, widgeta itd. Također, može povezivati i podudarati podatke koji dolaze iz različitih izvora. Doista omogućuje brži pristup podacima ( Na primjer, društveni mediji).
Popis tutorijala u ovoj seriji velikih podataka
Vodič br. 1: Što su veliki podaci? (Ovaj vodič)
Vodič br. 2: Što je Hadoop? Vodič za Apache Hadoop za početnike
Vodič br. 3: Hadoop HDFS - Hadoop distribuirani datotečni sustav
Vodič br. 4: Vodič za Hadoop arhitekturu i HDFS naredbe
Vodič br. 5: Vodič za Hadoop MapReduce s primjerima | Što je MapReduce?
Vodič br. 6: Vodič za Apache Hadoop YARN za početnike | Što je pređa?
Vodič br. 7: Sveobuhvatan vodič za testiranje Hadoop-a | Vodič za testiranje velikih podataka
Što ćete naučiti:
Što su veliki podaci?
Riječ Ogroman nije dovoljna za objašnjenje BigData, određene karakteristike klasificiraju podatke u BigData.
Imamo tri glavne karakteristike BigData, a ako bilo koji podatak zadovoljava te karakteristike, tretirat će se kao BigData. Ja t je kombinacija tri dolje navedena V:
- Volumen
- Brzina
- Raznolikost
Volumen : Podaci bi trebali biti velike količine. Big Data ima rješenje za održavanje velike količine podataka u terabajtu ili petabajtu. Možemo izvršavati CRUD (Stvaranje, čitanje, ažuriranje i brisanje) operacije na BigData lako i učinkovito.
Brzina : Odgovorna je za brži pristup podacima. Na primjer, danas društvenim mrežama treba brza razmjena podataka u djeliću vremena i BigData je najbolje rješenje za to. Stoga je brzina još jedna karakteristika i to je brzina obrade podataka.
Raznolikost : U društvenim mrežama imamo posla s nestrukturiranim podacima poput audio ili video zapisa, slika itd. Također, razni sektori poput bankarske domene trebaju strukturirane i polustrukturirane podatke. BigData je rješenje za održavanje obje vrste podataka na jednom mjestu.
Raznolikost znači različite vrste podataka poput strukturiranih / nestrukturiranih podataka koji dolaze iz više izvora.
Strukturirani podaci : Podaci koji imaju odgovarajuću strukturu ili onaj koji se lako mogu pohraniti u tabličnom obliku u bilo kojim relacijskim bazama podataka poput Oraclea, SQL Servera ili MySQL-a poznati su kao strukturirani podaci. Možemo ga lako i učinkovito obraditi ili analizirati.
pitanja i odgovori za intervju za informatiku pdf
Primjer strukturiranih podataka su podaci pohranjeni u relacijskoj bazi podataka kojima se može upravljati pomoću SQL-a (strukturirani jezik upita). Na primjer, Podaci o zaposlenicima (ime, ID, oznaka i plaća) mogu se pohraniti u tabličnom obliku.
U tradicionalnoj bazi podataka možemo izvoditi operacije ili obrađivati nestrukturirane ili polustrukturirane podatke tek nakon što se formatiraju ili uklope u relacijsku bazu podataka. Primjeri strukturiranih podataka su ERP, CRM itd.
Polustrukturirani podaci: Polustrukturirani podaci su podaci koji nisu u potpunosti formatirani. Nije pohranjen u tablicama podataka ili bilo kojoj bazi podataka. Ali svejedno, možemo ga lako pripremiti i obraditi jer ti podaci sadrže oznake ili vrijednosti odvojene zarezima itd. Primjer polustrukturiranih podataka su XML datoteke, CSV datoteke itd.
Nestrukturirani podaci: Nestrukturirani podaci su podaci koji nemaju nikakvu strukturu. Može biti u bilo kojem obliku, ne postoji unaprijed definirani model podataka. Ne možemo ga pohraniti u tradicionalne baze podataka. Složeno je tražiti i obrađivati.
Također, opseg nestrukturiranih podataka je vrlo velik. Primjer nestrukturiranih podataka je tijelo e-pošte, audio, video, slike, postignuti dokumenti itd.
Izazovi tradicionalnih baza podataka
- Tradicionalna baza podataka ne podržava razne podatke, tj. Nije u mogućnosti obraditi nestrukturirane i polustrukturirane podatke.
- Tradicionalna baza podataka spora je dok radi s velikom količinom podataka.
- U tradicionalnim bazama podataka obrada ili analiza velike količine podataka vrlo je teška.
- Tradicionalna baza podataka može pohraniti podatke u terabajtima ili petabajtima.
- Tradicionalna baza podataka ne može obrađivati povijesne podatke i izvještaje.
- Nakon određenog vremena potrebno je čišćenje podataka iz baze podataka.
- Troškovi održavanja velike količine podataka vrlo su visoki s tradicionalnom bazom podataka.
- Točnost podataka manja je u tradicionalnoj bazi podataka jer se u njoj ne održavaju potpuni povijesni podaci.
Veliki podaciPrednosti u odnosu na tradicionalnu bazu podataka
- Veliki podaci odgovorni su za rukovanje, upravljanje i obradu različitih vrsta podataka poput strukturiranih, polustrukturiranih i nestrukturiranih.
- Isplativo je u smislu održavanja velike količine podataka. Radi na distribuiranom sustavu baza podataka.
- BigData tehnikama možemo dugo spremati velike količine podataka. Tako je lako rukovati povijesnim podacima i generirati točna izvješća.
- Brzina obrade podataka je vrlo brza i stoga se društveni mediji koriste tehnikama velikih podataka.
- Točnost podataka velika je prednost Big Data-a.
- Omogućuje korisnicima da donose učinkovite odluke za svoje poslovanje na temelju trenutnih i povijesnih podataka.
- Rukovanje pogreškama, kontrola verzija i korisničko iskustvo vrlo su učinkoviti u BigData-i.
Predloženo čitanje => Big Data vs Big Data Analytics vs Data Science
Izazovi i rizici u BigData
Izazovi:
- Jedan od glavnih izazova u Big Datau je upravljanje velikim količinama podataka. Danas podaci dolaze u sustav iz različitih izvora s raznolikošću. Stoga je vrlo velik izazov za tvrtke, pravilno upravljati njime. Na primjer, da bi se generiralo izvješće koje sadrži posljednjih 20 godina podataka, potrebno je spremiti i održavati zadnjih 20 godina podataka sustava. Da bi se osiguralo točno izvješće, u sustav je potrebno unijeti samo relevantne podatke. Ne bi trebao sadržavati nebitne ili nepotrebne podatke, inače će održavanje takve količine podataka biti velik izazov za tvrtke.
- Još jedan izazov ove tehnologije je sinkronizacija različitih vrsta podataka. Kao što svi znamo, Big Data podržava strukturirane, nestrukturirane i polustrukturirane podatke koji dolaze iz različitih izvora, sinkronizacija i dobivanje konzistentnosti podataka vrlo je teško.
- Sljedeći izazov s kojim se tvrtke suočavaju jest jaz stručnjaka koji mogu pomoći i implementirati probleme s kojima se suočavaju u sustavu. Na ovom polju postoji velika praznina u talentima.
- Rukovanje aspektom usklađenosti skupo je.
- Prikupljanje, agregiranje, pohrana, analiza i izvještavanje BigData podataka ima ogromne troškove. Organizacija bi trebala biti u stanju upravljati svim tim troškovima.
Rizici:
- Može se nositi s raznim podacima, ali ako tvrtke ne mogu pravilno razumjeti zahtjeve i kontrolirati izvor podataka, pružit će pogrešne rezultate. Kao rezultat toga, trebat će vam puno vremena i novca za istraživanje i ispravljanje rezultata.
- Sigurnost podataka je još jedan rizik kod BigData. S velikom količinom podataka, veće su šanse da će ih netko ukrasti. Hakeri podataka mogu krasti i prodavati važne podatke (uključujući povijesne podatke) tvrtke.
- Također, privatnost podataka je još jedan rizik za BigData. Ako želimo zaštititi osobne i osjetljive podatke od hakera, oni bi trebali biti zaštićeni i moraju proći sva pravila o privatnosti.
Tehnologije velikih podataka
Slijede tehnologije koje se mogu koristiti za upravljanje velikim podacima:
- Apache Hadoop
- Microsoft HDInsight
- Nema SQL-a
- Košnica
- Sqoop
- BigData u Excelu
Detaljan opis ovih tehnologija bit će pokriven u našim nadolazećim vodičima.
Alati za korištenje koncepata velikih podataka
U nastavku su navedeni alati otvorenog koda koji mogu pomoći u korištenju koncepata velikih podataka:
# 1) Apache Hadoop
jms intervju pitanja i odgovori za iskusne
# 2) Lumificirajte
# 3) Apache Storm
# 4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) HPCC sustav BigData
Primjene velikih podataka
Slijede domene na kojima se koristi:
- Bankarstvo
- Mediji i zabava
- Pružatelji zdravstvenih usluga
- Osiguranje
- Obrazovanje
- Maloprodaja
- Proizvodnja
- Vlada
Skladište BigData i podataka
Skladište podataka osnovni je koncept koji moramo razumjeti prije rasprave o Hadoop-u ili BigData testiranju.
Shvatimo Data Warehouse na primjeru u stvarnom vremenu. Na primjer , postoji tvrtka koja je osnovala svoje podružnice u tri različite zemlje, pretpostavimo podružnicu u Indiji, Australiji i Japanu.
U svakoj se poslovnici cjelokupni podaci o kupcima pohranjuju u Lokalnu bazu podataka. Te lokalne baze podataka mogu biti uobičajeni klasični RDBMS-i poput Oracle-a ili MySQL-a ili SQL Server-a itd. I svi će se podaci kupaca svakodnevno pohranjivati u njima.
Sada, svaka kvartalno, polugodišnje ili godišnje, organizacija želi analizirati ove podatke za poslovni razvoj. Da bi učinila isto, organizacija će prikupiti sve ove podatke iz više izvora, a zatim ih staviti na jedno mjesto i to mjesto se zove 'Skladište podataka'.
Skladište podataka vrsta je baze podataka koja sadrži sve podatke izvučene iz više izvora ili više vrsta baza podataka putem 'ETL' (koje je JE xtract, T ransform i L oad) proces. Kad su podaci spremni u skladištu podataka, možemo ih koristiti u analitičke svrhe.
Dakle, za analizu možemo generirati izvješća iz podataka dostupnih u Skladištu podataka. Više alata i izvješća može se generirati pomoću alata za poslovnu inteligenciju.
Skladište podataka zahtijevamo u analitičke svrhe kako bismo proširili poslovanje i donijeli odgovarajuće odluke za organizacije.
Tri se stvari događaju u ovom procesu, prvo je što smo podatke izvukli iz više izvora i stavili na jedno mjesto, odnosno skladište podataka.
Ovdje koristimo postupak 'ETL', pa ćemo ih tijekom učitavanja podataka iz više izvora na jedno mjesto primijeniti u korijenima transformacije, a zatim ovdje možemo koristiti razne vrste ETL alata.
Nakon što podaci budu spremljeni u Skladište podataka, možemo generirati različita izvješća za analizu poslovnih podataka pomoću alata za poslovnu inteligenciju (BI) ili ih nazivamo i alati za izvještavanje. Alati poput Tableau ili Cognos mogu se koristiti za generiranje izvješća i nadzornih ploča za analizu podataka za poslovanje.
OLTP I OLAP
Da shvatimo što su OLTP i što su OLAP?
Pozivaju se baze podataka koje se održavaju lokalno i koriste se u transakcijske svrhe OLTP tj. Mrežna obrada transakcija. Svakodnevne će se transakcije ovdje pohranjivati i odmah ažurirati i zato smo ih nazvali OLTP sustav.
Ovdje koristimo tradicionalne baze podataka, imamo više tablica i postoje odnosi, tako da se sve sustavno planira prema bazi podataka. Te podatke ne koristimo u analitičke svrhe. Ovdje možemo koristiti klasične RDMBS baze podataka poput Oracle, MySQL, SQL Server itd.
Kad dođemo do dijela Data Warehouse, koristimo Teradata ili Hadoop Systems, koji su također vrsta baze podataka, ali podaci u DataWarehouseu obično se koriste u analitičke svrhe i nazivaju se OLAP ili Mrežna analitička obrada.
Ovdje se podaci mogu ažurirati tromjesečno, polugodišnje ili godišnje. Ponekad se podaci ažuriraju i 'ponudom', pri čemu ponuda znači da se podaci ažuriraju i dohvaćaju za analizu prema zahtjevima kupca.
Također, podaci za analizu ne ažuriraju se svakodnevno, jer ćemo podatke dobivati iz više izvora, prema rasporedu i možemo izvršiti ovaj ETL zadatak. Tako funkcionira mrežni analitički sustav za obradu.
I ovdje BI alati ili alati za izvještavanje mogu generirati izvješća kao i nadzorne ploče, a na temelju toga će poslovni ljudi donositi odluke o poboljšanju svog poslovanja.
Gdje BigData dolazi na scenu?
BigData su podaci koji premašuju kapacitet skladištenja i obrade konvencionalnih baza podataka i u strukturiranom su i nestrukturiranom formatu, tako da ih lokalni RDBMS sustavi ne mogu obrađivati.
Ova vrsta podataka generirat će se u TeraBytes (TB) ili PetaBytes (PB) ili šire, a danas se brzo povećava. Postoji više izvora za dobivanje ove vrste podataka kao što su Facebook, WhatsApp (koji su povezani s društvenim mrežama); Amazon, Flipkart vezano uz e-trgovinu; Gmail, Yahoo, Rediff povezani s e-mailovima i Googleom i drugim tražilicama. Bigdata dobivamo i s mobitela poput SMS podataka, snimanja poziva, dnevnika poziva itd.
Zaključak
Veliki podaci rješenje su za učinkovito i sigurno rukovanje velikim količinama podataka. Odgovorno je i za održavanje povijesnih podataka. Mnogo je prednosti ove tehnologije zbog čega svaka tvrtka želi prijeći na velike podatke
Autor: Vaishali Tarey, tehnički voditelj @ Syntel
Preporučena literatura
- Data Mart Tutorial - Vrste, primjeri i provedba Data Mart
- 10 najboljih alata za dizajn baze podataka za izgradnju složenih modela podataka
- 20+ MongoDB lekcija za početnike: besplatni tečaj MongoDB
- Što je jezero podataka | Skladište podataka vs Data Lake
- 10 najboljih alata za testiranje i provjeru valjanosti strukturiranih podataka za SEO
- Dimenzionalni model podataka u skladištu podataka - Vodič s primjerima
- Rudarstvo podataka: proces, tehnike i glavni problemi u analizi podataka
- Kako izvesti testiranje na temelju podataka u SoapUI Pro - Vodič za SoapUI # 14