HDFS-handledning: Introduktion till HDFS och dess funktioner



Denna HDFS självstudieblogg hjälper dig att förstå HDFS eller Hadoop Distribuerade filsystem och dess funktioner. Du kommer också att utforska dess kärnkomponenter i korthet.

HDFS-handledning

Innan jag går vidare i den här HDFS-handledningsbloggen, låt mig ta dig igenom en del av den galna statistiken relaterad till HDFS:

  • 2010, Facebook påstods ha en av de största lagringarna av HDFS-kluster 21 petabytes av data.
  • Under 2012, Facebook förklarade att de har det största enskilda HDFS-klustret med mer än 100 PB av data .
  • Och Yahoo ! har mer än 100.000 CPU i över 40000 servrar kör Hadoop, med sitt största Hadoop-kluster igång 4500 noder . Allt sagt, Yahoo! butiker 455 petabyte av data i HDFS.
  • Faktum är att 2013 började de flesta av de stora namnen i Fortune 50 använda Hadoop.

För svårt att smälta? Rätt. Som diskuteras i , Hadoop har två grundläggande enheter - S att rasa och Bearbetning . När jag säger lagringsdel av Hadoop hänvisar jag till HDFS som står för Hadoop distribuerat filsystem . Så i den här bloggen kommer jag att presentera dig för HDFS .





Här kommer jag att prata om:

skapa en rad objekt Java
  • Vad är HDFS?
  • Fördelar med HDFS
  • Funktioner i HDFS

Innan jag pratar om HDFS, låt mig berätta, vad är ett distribuerat filsystem?



DFS eller distribuerat filsystem:

Distribuerat filsystem talar om hantera data , d.v.s. filer eller mappar på flera datorer eller servrar. Med andra ord är DFS ett filsystem som gör att vi kan lagra data över flera noder eller maskiner i ett kluster och låter flera användare komma åt data. Så i princip tjänar det samma syfte som filsystemet som finns tillgängligt i din maskin, som för Windows har du NTFS (New Technology File System) eller för Mac har du HFS (Hierarchical File System). Den enda skillnaden är att du, i fallet med Distribuerat filsystem, lagrar data på flera maskiner snarare än en enda maskin. Även om filerna lagras över nätverket organiserar DFS och visar data på ett sådant sätt att en användare som sitter på en maskin kommer att känna att all information lagras i just den maskinen.

Vad är HDFS?

Hadoop Distribuerat filsystem eller HDFS är ett Java-baserat distribuerat filsystem som låter dig lagra stora data över flera noder i ett Hadoop-kluster. Så om du installerar Hadoop får du HDFS som ett underliggande lagringssystem för lagring av data i den distribuerade miljön.

Låt oss ta ett exempel för att förstå det. Tänk dig att du har tio maskiner eller tio datorer med en hårddisk på 1 TB på varje maskin. Nu säger HDFS att om du installerar Hadoop som en plattform ovanpå dessa tio maskiner får du HDFS som en lagringstjänst. Hadoop Distribuerade filsystem distribueras på ett sådant sätt att varje maskin bidrar med sin individuella lagring för lagring av alla typer av data.



HDFS-handledning: Fördelar med HDFS

1. Distribuerad lagring:

Distribuerad lagring - HDFS-handledning - Edureka

När du öppnar Hadoop Distribuerade filsystem från någon av de tio maskinerna i Hadoop-klustret, kommer du att känna dig som om du har loggat in på en enda stor maskin som har en lagringskapacitet på 10 TB (total lagring över tio maskiner). Vad betyder det? Det betyder att du kan lagra en enda stor fil på 10 TB som kommer att distribueras över de tio maskinerna (1 TB vardera).Så det är det inte begränsat till de fysiska gränserna av varje enskild maskin.

2. Distribuerad och parallell beräkning:

Eftersom datan är uppdelad över maskinerna gör det att vi kan dra nytta av det Distribuerad och parallell beräkning . Låt oss förstå detta koncept genom ovanstående exempel. Antag att det tar 43 minuter att bearbeta 1 TB-fil på en enda dator. Så berätta nu, hur mycket tid tar det att bearbeta samma 1 TB-fil när du har 10 maskiner i ett Hadoop-kluster med liknande konfiguration - 43 minuter eller 4,3 minuter? 4,3 minuter, höger! Vad hände här? Var och en av noderna arbetar parallellt med en del av 1 TB-filen. Arbetet som tog 43 minuter innan avslutas på bara 4,3 minuter nu då arbetet delades upp på tio maskiner.

3. Horisontell skalbarhet:

hur man skapar instrumentpanel i kraft bi

Sist men inte minst, låt oss prata om horisontell skalning eller skala ut i Hadoop. Det finns två typer av skalning: vertikal och horisontell . Vid vertikal skalning (skala upp) ökar du maskinvarans kapacitet i ditt system. Med andra ord skaffar du mer RAM eller CPU och lägger till det i ditt befintliga system för att göra det mer robust och kraftfullt. Men det finns utmaningar i samband med vertikal skalning eller uppskalning:

  • Det finns alltid en gräns för vilken du kan öka din hårdvarukapacitet. Så du kan inte fortsätta öka maskinens RAM-minne eller CPU.
  • Vid vertikal skalning stoppar du först din maskin. Då ökar du RAM eller CPU för att göra det till en mer robust hårdvarustack. När du har ökat din hårdvarukapacitet startar du om maskinen. Denna tid när du stoppar ditt system blir en utmaning.

I fall att horisontell skalning (skala ut) , lägger du till fler noder i befintligt kluster istället för att öka hårdvarukapaciteten för enskilda maskiner. Och viktigast av allt, du kan lägg till fler maskiner när du är på språng dvs utan att stoppa systemet . Därför, medan vi skalar ut har vi ingen stillestånd eller grön zon, inget av det här slaget. I slutet av dagen kommer du att ha fler maskiner som arbetar parallellt för att uppfylla dina krav.

HDFS självstudievideo:

Du kan kolla in videon nedan där alla begrepp relaterade till HDFS har diskuterats i detalj:

HDFS-handledning: Funktioner i HDFS

Vi kommer att förstå dessa funktioner i detalj när vi kommer att utforska HDFS Architecture i vår nästa HDFS tutorial blogg. Men nu får vi en översikt över funktionerna i HDFS:

  • Kosta: HDFS, i allmänhet, distribueras på en råvarumaskinvara som din stationära / bärbara dator som du använder varje dag. Så det är mycket ekonomiskt när det gäller ägandekostnaderna för projektet. Eftersom vi använder lågkostnadsvara för hårdvara behöver du inte spendera enorma pengar för att skala ut ditt Hadoop-kluster. Med andra ord är det kostnadseffektivt att lägga till fler noder i din HDFS.
  • Variation och volym av data: När vi pratar om HDFS så pratar vi om att lagra enorma data, dvs. Terabyte & petabyte data och olika typer av data. Så du kan lagra vilken typ av data som helst i HDFS, vare sig det är strukturerat, ostrukturerat eller halvstrukturerat.
  • Pålitlighet och feltolerans: När du lagrar data på HDFS delar den den givna informationen internt i datablock och lagrar den på ett distribuerat sätt över ditt Hadoop-kluster. Informationen angående vilket datablock som ligger på vilken av datanoderna registreras i metadata. NameNode hanterar metadata och DataNodes ansvarar för att lagra uppgifterna.
    Namnod replikerar också data, dvs underhåller flera kopior av data. Denna replikering av data gör HDFS väldigt pålitlig och feltolerant. Så även om någon av noderna misslyckas kan vi hämta data från replikerna som finns på andra datanoder. Som standard är replikeringsfaktorn 3. Om du lagrar 1 GB fil i HDFS tar den äntligen 3 GB utrymme. Namnoden uppdaterar regelbundet metadata och håller replikeringsfaktorn konsekvent.
  • Dataintegritet: Dataintegritet talar om huruvida de data som lagras i min HDFS är korrekta eller inte. HDFS kontrollerar ständigt integriteten för data som lagras mot sin kontrollsumma. Om det hittar något fel rapporterar det till namnenoden om det. Sedan skapar namnenoden ytterligare nya repliker och raderar därför de skadade kopiorna.
  • Hög genomströmning: Genomströmning är mängden arbete som utförts under en enhetstid. Det talar om hur snabbt du kan komma åt data från filsystemet. I grund och botten ger det dig en inblick i systemets prestanda. Som du har sett i exemplet ovan där vi använde tio maskiner tillsammans för att förbättra beräkningen. Där kunde vi minska behandlingstiden från 43 minuter till enbart 4,3 minuter eftersom alla maskinerna arbetade parallellt. Därför minskade vi bearbetningstiden enormt genom att behandla data parallellt och därmed uppnådde hög genomströmning.
  • Datalokalitet: Datalokalitet talar om att flytta bearbetningsenhet till data snarare än data till bearbetningsenhet. I vårt traditionella system brukade vi ta med data till applikationslagret och sedan bearbeta det. Men nu, på grund av arkitekturen och den enorma datamängden kommer det att föra data till applikationslagretminska nätverksprestandan i märkbar utsträckning.Så i HDFS tar vi beräkningsdelen till datanoderna där data finns. Därför flyttar du inte data, du tar med programmet eller processendel av uppgifterna.

Så nu har du en kort uppfattning om HDFS och dess funktioner. Men lita på mig, det här är bara toppen av isberget. I min nästa , Jag kommer att djupt dyka in i HDFS-arkitektur och jag kommer att avslöja hemligheterna bakom HDFS framgång. Tillsammans kommer vi att svara på alla de frågor som funderar i ditt huvud som:

  • Vad händer bakom kulisserna när du läser eller skriver data i Hadoop Distributed File System?
  • Hur är algoritmerna som rackmedvetenhet som gör HDFS så feltolerant?
  • Hur hanterar Hadoop Distributed File System och skapar replik?
  • Vad är blockoperationer?

Nu när du har förstått HDFS och dess funktioner, kolla in av Edureka, ett pålitligt online-lärande företag med ett nätverk av mer än 250 000 nöjda elever spridda över hela världen. Edureka-kursen Big Data Hadoop-certifiering hjälper eleverna att bli experter på HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume och Sqoop med realtidsanvändningsfall på Retail, Social Media, Aviation, Tourism, Finance.

Har du en fråga till oss? Vänligen nämna det i kommentarfältet så återkommer vi till dig.

hur man installerar hadoop i ubuntu