Hur skapar jag Hadoop-kluster med Amazon EMR?



I den här artikeln kommer vi att utforska AWS EMR Service och under processen lär vi oss hur man skapar Hadoop-kluster med Amazon EMR?

I den här artikeln om hur man skapar Kluster Med Amazon EMR skulle vi se hur man enkelt kan köra och skala Hadoop och Big Data-applikationer. Följande tips kommer att behandlas i den här artikeln,

Gå vidare med detta Hur man skapar Hadoop-kluster med Amazon EMR?





Hur skapar jag Hadoop-kluster med Amazon EMR?

När vi söker efter något i Google eller Yahoo får vi svaret på en bråkdel av sekunden. Hur är det möjligt att Google, Yahoo och andra sökmotorer returnerar resultaten så snabbt från det ständigt växande nätet? Sökmotorerna genomsöker internet, laddar ner webbsidorna och skapar ett index enligt nedan. För alla frågor från oss använder de indexet för att ta reda på vilka webbsidor som innehåller texten vi letade efter. Genom att titta på nedanstående index på höger sida kan vi tydligt veta att Hadoop finns på webbsidan 1, 2 och 3.

Bild - Hur man skapar Hadoop-kluster med Amazon EMR - EdurekaSedan PageRanking-algoritm används som baseras på hur sidorna är kopplade för att ta reda på vilken sida som ska visas överst och vilken längst ner. I nedanstående scenario är W1 det 'mest populära' eftersom alla länkar till det och W4 är det 'minst populära' eftersom ingen länkar till det. Så, W1 visas längst upp och W4 längst ner i sökresultaten.



Med explosionen av webbsidorna hittade dessa sökmotorer utmaningar för att skapa index och göra PageRanking-beräkningarna. Det var här Hadoop föddes i Yahoo och blev senare FOSS (Free and Open Source Software) under ASF (Apache Software Foundation). En gång under ASF började många företag intressera sig för Hadoop och började bidra för att förbättra det. Hadoop var den som startade Big Data-revolutionen, men många andra program som Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume började utvecklas för att ta itu med begränsningarna och luckorna i Hadoop.

Webbsökmotorerna var de första som använde Hadoop, men senare började många användningsfall utvecklas när allt fler data genererades. Låt oss ta exemplet på ett e-handelsprogram som används för att rekommendera böcker till användaren. Enligt nedanstående diagram köpte användare1 book1, book2 och book3, user2 köpte några böcker och så vidare. När vi tittar noga kan vi observera att user1 och user2 har samma smak som de har köpt book1 och book2. Så book3 kan rekommenderas till user2 och book4 kan rekommenderas till user1. Detta kallas Collaborative Filtering, en typ av maskininlärningsalgoritm. Vi kan vända nedanstående diagram och få liknande böcker.

I ovanstående fall har vi skapat index, PageRanked och rekommenderat för användaren, storleken på data var liten och så kunde vi visualisera data och dra slutsatser om det. Eftersom storleken på data blir större dag för dag och utom kontroll är det här Big Data-verktyg som Hadoop kommer in i bilden.



Hadoop löser många problem, men att installera Hadoop och annan Big Data-programvara hade aldrig varit en lätt uppgift. Det finns många konfigurationsparametrar att justera, som integrations-, installations- och konfigurationsproblem att arbeta med. Det är här företag som Cloudera, och Databricks hjälp. De underlättar installationen av Big Data-programvaran och ger kommersiellt stöd, till exempel låt oss säga att något händer i produktionen. Amazon EMR (Elastic MapReduce) gör det lättare att använda Hadoop etc mycket lättare. Namnet Elastic MapReduce är lite felaktig eftersom EMR också stöder andra distribuerade datormodeller som Resilient Distribuerade dataset och inte bara MapReduce.

javascript-händelselista med exempel

I den här handledningen kommer vi att undersöka hur man ställer in ett EMR-kluster på AWS Cloud och i den kommande handledningen kommer vi att undersöka hur man kör Spark, Hive och andra program ovanpå.

Gå vidare med detta Hur man skapar Hadoop-kluster med Amazon EMR?

Demo: Skapa ett EMR-kluster i AWS

Steg 1: Gå till EMR Management Console och klicka på “Create cluster”. I konsolen, metadata för avslutat kluster sparas också i två månader gratis. Detta gör att det avslutade klustret kan klonas och skapas igen.

Steg 2 : Från skärmen snabbalternativ klickar du på 'Gå till avancerade alternativ' för att specificera mycket mer information om klustret.

Steg 3: På fliken Avancerade alternativ kan vi välja olika program som ska installeras i EMR-klustret. För ett SQL-gränssnitt kan Hive väljas. För ett dataflödespråkgränssnitt kan gris väljas. För distribuerad applikationskoordinering kan ZooKeeper väljas och så vidare. Denna flik låter oss också lägga till steg, vilket är en valfri uppgift. Steg är Big Data-bearbetningsjobb med MapReduce, Pig, Hive etc. De kan läggas till på den här fliken eller senare när klustret har skapats. Klicka på 'Nästa' för att välja den maskinvara som krävs för EMR-klustret.

Steg 4: Hadoop följer master-worker-arkitekturen där master gör all samordning som att schemalägga och tilldela arbetet och kontrollera deras framsteg, medan arbetarna gör det faktiska arbetet med att bearbeta och lagra data. En enda mästare är en SPOF (Single-Point-Of-Failure). Amazon EMR stöder multi-master för hög tillgänglighet (HA). I föregående steg kan du konfigurera ett multimasterkluster i EMR.

EMR tillåter två typer av noder, Core och Task. Kärnnoden används för både bearbetning och lagring av data, uppgiftsnoden används för att bara bearbeta data. För den här handledningen kan vi bara välja en kärna och inga uppgiftsnoder eftersom det innebär mindre kostnad för oss. Välj också Spot instanser över På begäran eftersom Spot-instanser är billigare. Fångsten med Spot-instanser är att de kan avslutas av AWS automatiskt med en två minuters varsel . Detta är bra för övningens skull och i vissa faktiska scenarier också. Spotinstanser avslutas automatiskt eftersom de har låg prioritet framför andra instanstyper. Klicka på 'Nästa'.

Steg 5: Ange klusternamnet. och klicka på “Nästa”. Observera att ”Termination protection” är aktiverat som standard, detta ser till att EMR-klustret inte raderas av misstag genom att införa några steg medan klustret avslutas.

Steg 6: På fliken anges olika säkerhetsalternativ för EMR-klustret. KeyPair måste väljas för att logga in i EC2-instansen. EMR skapar automatiskt lämpliga roller och säkerhetsgrupper och bifogar dem till master- och arbetarnas EC2-noder. Klicka på “Skapa kluster”.

Skapandet av klustret tar några minuter eftersom EC2-instanser måste köpas upp och de olika Big Data-programvarorna måste installeras och konfigureras. Ursprungligen skulle klusterstatusen vara i 'Start' -tillstånd och gå vidare till 'Väntar' -läge. I tillståndet 'Väntar' väntar EMR-klustret helt enkelt på att vi ska skicka in olika Big Data-bearbetningsjobb som MR, Spark, Hive etc.

Observera också från EC2 Management Console och notera att master- och arbetarnas EC2-förekomster ska vara igång. Dessa är Spot-instanser som har skapats som en del av skapandet av EMR-kluster. Samma EC2 kan observeras från fliken Maskinvara i EMR Management Console. Observera att på fliken Maskinvara nämns priset för Spot EC2-instanser som 0,032 $ / timme. Priset på Spot-instanser fortsätter att förändras med tiden och är mycket lägre än på EC2-priset On-Demand.

Steg 7: Nu när EMR-klustret har lagts till kan steg eller Big Data-bearbetningsjobb läggas till. Gå till fliken Steg och klicka på “Lägg till steg” och välj typ av steg (MR, bikupa, gnist etc). Vi kommer att utforska detsamma i den kommande handledningen. För nu klickar du på Avbryt.

Steg 8: Nu när vi har sett hur man startar EMR, kan vi se hur man stoppar detsamma.

Steg 8.1: Klicka på Avsluta.

Steg 8.2: Som nämnts i föregående steg är ”Termination protection” På för EMR-klustret och knappen Avsluta har inaktiverats. Klicka på Ändra.

php print_r till sträng

Steg 8.3: Välj alternativknappen “Av” och klicka på kryssmarkeringen. Nu ska knappen Avsluta vara aktiverad. Detta är ytterligare steg EMR har infört, bara för att se till att vi inte av misstag tar bort EMR-klustret.

Observera att EMR-klustret kommer att vara i Avslutande status och EC2 kommer att avslutas. Slutligen kommer EMR-klustret att flyttas till Avslutad status, härifrån slutar vår fakturering med AWS. Se till att du avslutar klustret för att inte medföra ytterligare AWS-kostnader.

Slutsats

I denna handledning har vi sett hur man startar EMR-klustret inom några minuter från webbkonsolen (webbläsare), detsamma kan automatiseras med hjälp av , AWS SDK eller genom att använda AWS CloudFormation . Som märkt att konfigurera ett EMR-kluster kan göras är det några minuter och Big Data-behandlingen kan startas omedelbart, när behandlingen är klar kan utdata lagras i S3 eller DynamoDB och så stängs klustret för att stoppa faktureringen. På grund av denna prissättningsmodell och användarvänlighet är EMR en stor hit för dem som gör Big Data-behandlingen. Du behöver inte köpa server i stort antal, skaffa licenser för Big Data-programvaran och underhålla dem. ”

Så det här är det killar, det här leder oss till slutet av den här artikeln om hur man skapar Hadoop-kluster med Amazon EMR?Om du vill få expertis i detta ämne har Edureka kommit med en läroplan som täcker exakt vad du behöver för att knäcka lösningen Architect Exam! Du kan ta en titt på kursinformation för Träning.

Om du har frågor relaterade till den här bloggen är du välkommen att ställa frågor i kommentarfältet nedan så svarar vi gärna tidigast.