Installera Hadoop: Konfigurera ett enda nod Hadoop-kluster



Denna handledning är en steg-för-steg-guide för att installera Hadoop-kluster och konfigurera det på en enda nod. Alla installationsstegen för Hadoop är för CentOS-maskinen.

Installera Hadoop: Konfigurera ett enda nod Hadoop-kluster

Från våra tidigare bloggar , du måste ha en teoretisk uppfattning om Hadoop, HDFS och dess arkitektur.Men att få du behöver god praktisk kunskap.Jag hoppas att du skulle ha gillat vår tidigare blogg på , nu tar jag dig igenom den praktiska kunskapen om Hadoop och HDFS. Det första steget framåt är att installera Hadoop.

Det finns två sätt att installera Hadoop, dvs. Enkel nod och Multi-nod .





Enkelt nodkluster betyder bara en DataNode som kör och ställer in alla NameNode, DataNode, ResourceManager och NodeManager på en enda maskin. Detta används för att studera och testa. Låt oss till exempel överväga ett urval av datamängder i en vårdindustri. Så för att testa om Oozie-jobb har planerat alla processer som att samla in, aggregera, lagra och bearbeta data i rätt ordning använder vi kluster med en enda nod. Det kan enkelt och effektivt testa det sekventiella arbetsflödet i en mindre miljö jämfört med stora miljöer som innehåller terabyte data fördelade över hundratals maskiner.

I en Kluster med flera noder , det körs mer än en DataNode och varje DataNode körs på olika datorer. Multi-nod-klustret används praktiskt taget i organisationer för att analysera Big Data. Med tanke på ovanstående exempel, i realtid när vi hanterar petabyte data, måste det distribueras över hundratals maskiner för att bearbetas. Således använder vi här kluster med flera noder.



I den här bloggen visar jag dig hur du installerar Hadoop på ett enda nodkluster.

Förutsättningar

  • VIRTUELL RUTA : det används för att installera operativsystemet på det.
  • OPERATIV SYSTEM : Du kan installera Hadoop på Linux-baserade operativsystem. Ubuntu och CentOS används mycket ofta. I den här handledningen använder vi CentOS.
  • JAVA : Du måste installera Java 8-paketet på ditt system.
  • HADOOP : Du behöver Hadoop 2.7.3-paketet.

Installera Hadoop

Steg 1: Klicka här för att ladda ner Java 8-paketet. Spara den här filen i din hemkatalog.

Steg 2: Extrahera Java Tar File.

Kommando : tjära -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - Installera Hadoop - Edureka



Fig: Installation av Hadoop - Extrahera Java-filer

Steg 3: Ladda ner Hadoop 2.7.3-paketet.

Kommando : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Fig: Installation av Hadoop - Nedladdning av Hadoop

Steg 4: Extrahera Hadoop-tarfilen.

Kommando : tjära -xvf hadoop-2.7.3.tar.gz

Fig: Installation av Hadoop - Extrahera Hadoop-filer

Steg 5: Lägg till Hadoop- och Java-sökvägarna i bash-filen (.bashrc).

Öppet . bashrc fil. Lägg nu till Hadoop och Java Path som visas nedan.

Kommando : vi .bashrc

Fig: Installation av Hadoop - Ställ in miljövariabel

Spara sedan bash-filen och stäng den.

För att tillämpa alla dessa ändringar på den nuvarande terminalen, kör källkommandot.

Kommando : källa .bashrc

Fig: Installation av Hadoop - Uppfriskande miljövariabler

För att säkerställa att Java och Hadoop har installerats korrekt på ditt system och kan nås via terminalen, t.ex.xkör kommandona java -version och hadoop.

Kommando : java-version

Fig: Installation av Hadoop - Kontroll av Java-version

Kommando : hadoopversion

Fig: Installation av Hadoop - Kontroll av Hadoop-version

Steg 6 : Redigera .

Kommando: cd hadoop-2.7.3 / etc / hadoop /

Kommando: ls

Alla Hadoop-konfigurationsfiler finns i hadoop-2.7.3 / etc / hadoop katalog som du kan se i ögonblicksbilden nedan:

vad är en java böna

Fig: Installation av Hadoop - Konfigurationsfiler för Hadoop

Steg 7 : Öppet core-site.xml och redigera egenskapen som nämns nedan i konfigurationstaggen:

core-site.xml informerar Hadoop-demon där NamnNode körs i klustret. Den innehåller konfigurationsinställningar för Hadoop-kärnor som I / O-inställningar som är vanliga för HDFS & MapReduce.

Kommando : vi core-site.xml

Fig: Installation av Hadoop - Konfigurera core-site.xml

fs.default.name hdfs: // localhost: 9000

Steg 8: Redigera hdfs-site.xml och redigera egenskapen som nämns nedan i konfigurationstaggen:

hdfs-site.xml innehåller konfigurationsinställningar för HDFS-demoner (d.v.s. NameNode, DataNode, Secondary NameNode). Den inkluderar också replikeringsfaktorn och blockstorleken för HDFS.

Kommando : vi hdfs-site.xml

Fig: Installation av Hadoop - Konfigurera hdfs-site.xml

dfs.replication 1 dfs.permission false

Steg 9 : Redigera mapred-site.xml fil och redigera egenskapen som nämns nedan i konfigurationstaggen:

mapred-site.xml innehåller konfigurationsinställningar för MapReduce-applikationer som antal JVM som kan köras parallellt, storleken på mapparen och reduceringsprocessen, CPU-kärnor tillgängliga för en process, etc.

I vissa fall är mapred-site.xml-filen inte tillgänglig. Så vi måste skapa mapred-site.xml-filenmed mapred-site.xml-mall.

Kommando : cp mapred-site.xml.mall mapred-site.xml

Kommando : vi mapred-webbplats.xml.

Fig: Installation av Hadoop - Konfigurera mapred-site.xml

mapreduce.framework.name garn

Steg 10: Redigera garn-site.xml och redigera egenskapen som nämns nedan i konfigurationstaggen:

garn-site.xml innehåller konfigurationsinställningar för ResourceManager och NodeManager som applikationsminneshanteringsstorlek, den operation som behövs på program & algoritm, etc.

Kommando : vi garn-site.xml

Fig: Installation av Hadoop - Konfigurera garn-site.xml

garn.nodemanager.aux-tjänster mapreduce_shuffle garn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Steg 11: Redigera hadoop-env.sh och lägg till Java Path som nämnts nedan:

hadoop-env.sh innehåller miljövariablerna som används i skriptet för att köra Hadoop som Java-hemväg osv.

Kommando : vi hadoop-env.sh

Fig: Installation av Hadoop - Konfigurera hadoop-env.sh

Steg 12: Gå till Hadoop-katalogen och formatera NameNode.

Kommando : CD

Kommando : cd hadoop-2.7.3

Kommando : bin / hadoop-syfte -format

Fig: Installation av Hadoop - Formatering av NameNode

Detta formaterar HDFS via NameNode. Detta kommando körs bara för första gången. Formatering av filsystemet innebär att initialisera katalogen som anges av variabeln dfs.name.dir.

Formatera aldrig, starta och köra Hadoop-filsystem. Du kommer att förlora all din data som lagras i HDFS.

Steg 13: När NameNode har formaterats, gå till hadoop-2.7.3 / sbin-katalogen och starta alla demoner.

Kommando: cd hadoop-2.7.3 / sbin

Antingen kan du starta alla demoner med ett enda kommando eller göra det individuellt.

Kommando: ./ start-all.sh

Ovanstående kommando är en kombination av start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Eller så kan du köra alla tjänster individuellt enligt nedan:

Start NameNode:

NameNode är mittpunkten i ett HDFS-filsystem. Det håller katalogträdet för alla filer som lagras i HDFS och spårar alla filer som lagras över klustret.

Kommando: ./hadoop-daemon.sh start syfte

Fig: Installation av Hadoop - Starta NameNode

Starta DataNode:

Vid start ansluter en DataNode till Namenode och den svarar på förfrågningarna från Namenode om olika operationer.

Kommando: ./hadoop-daemon.sh starta datanod

Fig: Installation av Hadoop - Start av DataNode

Starta ResourceManager:

ResourceManager är mästaren som skiljer alla tillgängliga klusterresurser och därmed hjälper till att hantera de distribuerade applikationer som körs på YARN-systemet. Dess arbete är att hantera varje NodeManagers och varje applikations ApplicationMaster.

Kommando: ./garn-daemon.sh start resourcecemanager

Fig: Installation av Hadoop - Starta ResourceManager

Starta NodeManager:

NodeManager i varje maskinram är den agent som ansvarar för att hantera containrar, övervaka deras resursanvändning och rapportera detsamma till ResourceManager.

Kommando: ./garn-daemon.sh start nodemanager

Fig: Installation av Hadoop - Starta NodeManager

Starta JobHistoryServer:

JobHistoryServer ansvarar för service av alla jobbhistorikrelaterade förfrågningar från klienten.

Kommando : ./mr-jobhistory-daemon.sh start historyserver

Steg 14: För att kontrollera att alla Hadoop-tjänster är igång, kör kommandot nedan.

Kommando: jps

Fig: Installation av Hadoop - Kontroll av demoner

Steg 15: Öppna nu webbläsaren Mozilla och gå till lokal värd : 50070 / dfshealth.html för att kontrollera gränssnittet NameNode.

Fig: Installation av Hadoop - Starta WebUI

Grattis, du har lyckats installera ett enda Hadoop-kluster på en gång.I vår nästa blogg av kommer vi att täcka hur man installerar Hadoop på ett kluster med flera noder också.

Nu när du har förstått hur du installerar Hadoop, kolla in av Edureka, ett pålitligt online-lärande företag med ett nätverk av mer än 250 000 nöjda elever spridda över hela världen. Edureka-kursen Big Data Hadoop-certifiering hjälper eleverna att bli experter på HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume och Sqoop med realtidsanvändningsfall på Retail, Social Media, Aviation, Tourism, Finance.

Har du en fråga till oss? Vänligen nämna det i kommentarfältet så återkommer vi till dig.