Big Data Tutorial: Allt du behöver veta om Big Data!



Denna blogg om Big Data Tutorial ger dig en fullständig översikt över Big Data, dess egenskaper, applikationer samt utmaningar med Big Data.

Big Data Tutorial

Big Data, har du inte hört denna term tidigare? Jag är säker på att du har. Under de senaste 4 till 5 åren pratar alla om Big Data. Men vet du verkligen vad exakt detta Big Data är, hur påverkar det våra liv och varför organisationer jagar yrkesverksamma med ? I denna Big Data Tutorial kommer jag att ge dig en fullständig inblick i Big Data.

Nedan följer de ämnen som jag kommer att täcka i denna Big Data Tutorial:





  • Story of Big Data
  • Big Data drivande faktorer
  • Vad är Big Data?
  • Big Data-egenskaper
  • Typer av stora data
  • Exempel på Big Data
  • Tillämpningar av Big Data
  • Utmaningar med Big Data

Big Data Tutorial - Edureka

Låt mig börja denna Big Data Tutorial med en novell.



Story of Big Data

Förr i tiden brukade människor resa från en by till en annan by med en hästdriven vagn, men när tiden gick blev byar städer och människor spridda ut. Avståndet att resa från en stad till en annan stad ökade också. Så det blev ett problem att resa mellan städerna tillsammans med bagaget. Utanför det blåa föreslog en smart kille att vi skulle sköta och mata en häst mer för att lösa detta problem. När jag tittar på den här lösningen är den inte så dålig, men tror du att en häst kan bli en elefant? Jag tror inte det. En annan smart kille sa, istället för att en häst drar vagnen, låt oss ha fyra hästar för att dra samma vagn. Vad tycker ni om den här lösningen? Jag tycker att det är en fantastisk lösning. Nu kan människor resa stora avstånd på kortare tid och till och med bära mer bagage.

Samma koncept gäller för Big Data. Big Data säger, fram till idag var det okej med att lagra data på våra servrar eftersom datamängden var ganska begränsad, och hur lång tid det var att behandla dessa data var också okej. Men nu i den nuvarande tekniska världen växer informationen för snabbt och människor förlitar sig på informationen många gånger. Även den hastighet med vilken data växer blir det omöjligt att lagra data på någon server.

vilken skannerklassmetod läser en sträng

Genom den här bloggen på Big Data Tutorial, låt oss utforska källorna till Big Data, som de traditionella systemen inte lagrar och bearbetar.



Big Data drivande faktorer

Mängden data på planeten jorden växer exponentiellt av många skäl. Olika källor och våra dagliga aktiviteter genererar massor av data. Med uppfinningen av webben har hela världen gått online, varje sak vi gör lämnar ett digitalt spår. Med de smarta objekten som går online har datatillväxttakten ökat snabbt. De stora källorna till Big Data är sociala mediasidor, sensornätverk, digitala bilder / videor, mobiltelefoner, transaktionsregister, webbloggar, medicinska register, arkiv, militär övervakning, e-handel, komplex vetenskaplig forskning och så vidare. All denna information uppgår till ungefär några Quintillion byte data. Fram till 2020 kommer datavolymerna att vara cirka 40 Zettabyte, vilket motsvarar varje sandkorn på jorden multiplicerat med sjuttiofem.

Vad är Big Data?

Big Data är en term som används för en samling datauppsättningar som är stora och komplexa, vilket är svårt att lagra och bearbeta med tillgängliga databashanteringsverktyg eller traditionella databehandlingsapplikationer. Utmaningen inkluderar att fånga, kurera, lagra, söka, dela, överföra, analysera och visualisera dessa data.

Big Data-egenskaper

De fem egenskaperna som definierar Big Data är: Volym, hastighet, variation, riktighet och värde.

  1. VOLYM

    Volym avser ”mängden data”, som växer dag för dag i mycket snabb takt. Storleken på data som genereras av människor, maskiner och deras interaktioner på själva sociala medier är enorm. Forskare har förutspått att 40 Zettabyte (40 000 Exabyte) kommer att genereras till 2020, vilket är en ökning med 300 gånger från 2005.

  2. HASTIGHET

    Hastighet definieras som den takt i vilken olika källor genererar data varje dag. Detta dataflöde är massivt och kontinuerligt. Det finns nu 1,03 miljarder Daily Active Users (Facebook DAU) på mobilen, vilket är en ökning med 22% jämfört med året innan. Detta visar hur snabbt antalet användare växer på sociala medier och hur snabbt data genereras dagligen. Om du klarar av att hantera hastigheten kommer du att kunna skapa insikter och fatta beslut baserat på realtidsdata.

  3. MÄNGD

    Eftersom det finns många källor som bidrar till Big Data är typen av data de genererar annorlunda. Det kan vara strukturerat, halvstrukturerat eller ostrukturerat. Därför finns det en mängd olika data som genereras varje dag. Tidigare hämtade vi data från Excel och databaser, nu kommer data i form av bilder, ljud, videor, sensordata etc. som visas i bilden nedan. Därför skapar denna mängd ostrukturerade data problem med att fånga, lagra, bryta och analysera data.

  4. VERACITY

    Värdighet hänvisar till data som är tveksamma eller osäkra på tillgängliga data på grund av inkonsekvens och ofullständighet. I bilden nedan kan du se att få värden saknas i tabellen. Några värden är också svåra att acceptera, till exempel - 15000 minimivärde i tredje raden, det är inte möjligt. Denna inkonsekvens och ofullständighet är Veracity.
    Uppgifter som finns tillgängliga kan ibland bli röriga och kanske svåra att lita på. Med många former av stora data är kvalitet och noggrannhet svåra att kontrollera som Twitter-inlägg med hashtags, förkortningar, stavfel och vardagligt tal. Volymen är ofta orsaken bakom bristen på kvalitet och noggrannhet i datan.

    • På grund av osäkerhet om data litar 1 av 3 företagsledare inte på den information de använder för att fatta beslut.
    • Det konstaterades i en undersökning att 27% av de svarande var osäkra på hur mycket av deras data som var felaktiga.
    • Dålig datakvalitet kostar USA: s ekonomi cirka 3,1 biljoner dollar per år.
  5. VÄRDE

    Efter att ha diskuterat volym, hastighet, variation och sannhet finns det en annan V som bör tas i beaktande när man tittar på Big Data, dvs. värde. Det är bra och bra att ha tillgång till storadatamensåvida vi inte kan göra det till värde är det värdelöst. Genom att göra det till värde menar jag, lägger det till fördelarna med de organisationer som analyserar big data? Arbetar organisationen med Big Data med hög ROI (Return On Investment)? Om det inte bidrar till deras vinst genom att arbeta med Big Data, är det värdelöst.

Gå igenom vår Big Data-video nedan för att veta mer om Big Data:

Big Data Tutorial för nybörjare | Vad är Big Data | Edureka

Som diskuteras i Variety finns det olika typer av data som genereras varje dag. Så, låt oss nu förstå typerna av data:

Typer av stora data

Big Data kan vara av tre typer:

  • Strukturerad
  • Halvstrukturerad
  • Ostrukturerad

  1. Strukturerad

    De data som kan lagras och bearbetas i ett fast format kallas Structured Data. Data som lagras i ett relationsdatabashanteringssystem (RDBMS) är ett exempel på ”strukturerade” data. Det är lätt att bearbeta strukturerad data eftersom den har ett fast schema. Structured Query Language (SQL) används ofta för att hantera en sådan typ av data.

  2. Halvstrukturerad

    Semistrukturerad data är en typ av data som inte har en formell struktur för en datamodell, dvs en tabelldefinition i en relationell DBMS, men ändå har den vissa organisatoriska egenskaper som taggar och andra markörer för att separera semantiska element som gör det lättare att analysera. XML-filer eller JSON-dokument är exempel på halvstrukturerad data.

  3. Ostrukturerad

    De data som har okänd form och inte kan lagras i RDBMS och inte kan analyseras om de inte omvandlas till ett strukturerat format kallas ostrukturerade data. Textfiler och multimediainnehåll som bilder, ljud, videor är exempel på ostrukturerad data. De ostrukturerade uppgifterna växer snabbare än andra, experter säger att 80 procent av data i en organisation är ostrukturerade.

Hittills har jag precis täckt introduktionen av Big Data. Dessutom talar denna Big Data-handledning om exempel, applikationer och utmaningar i Big Data.

Exempel på Big Data

Dagligen laddar vi upp miljontals byte data. 90% av världens data har skapats de senaste två åren.

  • Walmart hanterar mer än 1000000 kundtransaktioner varje timme.
  • Facebook lagrar, kommer åt och analyserar 30+ petabytes av användargenererad data.
  • 230+ miljoner av tweets skapas varje dag.
  • Mer än 5 miljarder människor ringer, textar, twitterar och surfar på mobiltelefoner över hela världen.
  • YouTube-användare laddar upp 48 timmar av ny video varje minut på dagen.
  • Amazon-handtag 15 miljoner kundens klickström användardata per dag för att rekommendera produkter.
  • 294 miljarder e-postmeddelanden skickas varje dag. Tjänster analyserar dessa data för att hitta skräppost.
  • Moderna bilar har nära till 100 sensorer som övervakar bränslenivå, däcktryck etc. genererar varje fordon mycket sensordata.

Tillämpningar av Big Data

Vi kan inte prata om data utan att prata om människorna, människor som får nytta av Big Data-applikationer. Nästan alla branscher idag utnyttjar Big Data-applikationer på ett eller annat sätt.

  • Smartare sjukvård : Genom att använda petabytes för patientens data kan organisationen extrahera meningsfull information och sedan bygga applikationer som kan förutsäga patientens försämrade tillstånd i förväg.
  • Telekom : Telekomsektorn samlar in information, analyserar den och ger lösningar på olika problem. Genom att använda Big Data-applikationer har telekomföretag kunnat minska datapaketförlusten avsevärt, vilket uppstår när nätverk är överbelastade och därmed ge en sömlös anslutning till sina kunder.
  • Detaljhandeln : Detaljhandeln har några av de kortaste marginalerna och är en av de största mottagarna av big data. Det fina med att använda big data i detaljhandeln är att förstå konsumenternas beteende. Amazons rekommendationsmotor ger förslag baserat på konsumentens webbhistorik.
  • Trafik kontroll : Trafikstockningar är en stor utmaning för många städer världen över. Effektiv användning av data och sensorer kommer att vara nyckeln till att hantera trafiken bättre när städerna blir alltmer tätbefolkade.
  • Tillverkning : Att analysera stora data i tillverkningsindustrin kan minska komponentfel, förbättra produktkvaliteten, öka effektiviteten och spara tid och pengar.
  • Sökkvalitet : Varje gång vi extraherar information från google genererar vi samtidigt data för den. Google lagrar denna information och använder den för att förbättra sin sökkvalitet.

Någon har med rätta sagt: 'Inte allt i trädgården är rosigt!' . Hittills i denna Big Data-handledning har jag just visat dig den rosiga bilden av Big Data. Men om det var så lätt att använda Big data, tror du inte att alla organisationer skulle investera i det? Låt mig berätta på förhand, så är inte fallet. Det finns flera utmaningar som kommer när du arbetar med Big Data.

vad gör .trim i java

Nu när du känner till Big Data och dess olika funktioner kommer nästa avsnitt i denna blogg om Big Data Tutorial att belysa några av de stora utmaningarna för Big Data.

saltstack vs marionett vs kock

Utmaningar med Big Data

Låt mig berätta några utmaningar som följer med Big Data:

  1. Datakvalitet - Problemet här är 4thV dvs. Värdighet. Uppgifterna här är väldigt rörigt, inkonsekvent och ofullständigt. Smutsiga data kostar 600 miljarder dollar för företagen varje år i USA.
  1. Upptäckt - Att hitta insikter om Big Data är som att hitta en nål i en höstack. Att analysera petabytes med hjälp av extremt kraftfulla algoritmer för att hitta mönster och insikter är mycket svårt.
  1. Lagring - Ju mer data en organisation har, desto mer komplicerade kan problemen med att hantera den bli. Frågan som här uppstår är 'Var ska den lagras?'. Vi behöver ett lagringssystem som enkelt kan skala upp eller ner på begäran.
  1. Analytics - När det gäller Big Data är vi oftast inte medvetna om vilken typ av data vi har att göra med, så det är ännu svårare att analysera dessa data.
  1. säkerhet - Eftersom uppgifterna är enorma i storlek är det en annan utmaning att hålla den säker. Det inkluderar användarautentisering, begränsning av åtkomst baserat på en användare, inspelning av datatillgångshistorik, korrekt användning av datakryptering etc.
  1. Brist på talang - Det finns många stora dataprojekt i stora organisationer, men ett sofistikerat team av utvecklare, datavetare och analytiker som också har tillräckligt med domänkunskap är fortfarande en utmaning.

Hadoop till undsättning

Vi har en frälsare att hantera Big Data-utmaningar - dess Hadoop . Hadoop är ett Java-baserat programmeringsramverk med öppen källkod som stöder lagring och bearbetning av extremt stora datamängder i en distribuerad datormiljö. Det är en del av Apache-projektet sponsrat av Apache Software Foundation.

Hadoop med sin distribuerade bearbetning hanterar stora volymer strukturerad och ostrukturerad data mer effektivt än det traditionella datalagret för företag. Hadoop gör det möjligt att köra applikationer på system med tusentals hårdvarunoder och hantera tusentals terabyte data. Organisationer antar Hadoop eftersom det är en programvara med öppen källkod och kan köras på råvaruhårdvara (din persondator).De initiala kostnadsbesparingarna är dramatiska eftersom råvaruhårdvara är mycket billig. När organisationsdata ökar måste du lägga till mer och mer råvaruhårdvara i farten för att lagra den och därmed visar Hadoop sig vara ekonomiskt.Dessutom har Hadoop en robust Apache-community bakom sig som fortsätter att bidra till dess framsteg.

Som lovat tidigare har jag genom den här bloggen på Big Data Tutorial gett dig maximal insikt i Big Data. Detta är slutet på Big Data Tutorial. Nu är nästa steg framåt att lära känna och lära sig Hadoop. Vi har en serie av Hadoop-handledning bloggar som ger detaljerad kunskap om Hadoop-ekosystemet.

All the best, Happy Hadooping!

Nu när du har förstått vad som är Big Data, kolla in av Edureka, ett pålitligt inlärningsföretag online med ett nätverk av mer än 250 000 nöjda elever spridda över hela världen. Edureka Big Data Hadoop-certifieringskursen hjälper eleverna att bli experter på HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume och Sqoop med realtidsanvändningsfall på Retail, Social Media, Aviation, Tourism, Finance.

Har du en fråga till oss? Vänligen nämna det i kommentarfältet så återkommer vi till dig.

Relaterade inlägg: