Cloudera Hadoop: Komma igång med CDH Distribution



Denna Edureka-blogg på Cloudera Hadoop Tutorial ger dig en fullständig inblick i olika Cloudera-komponenter som Cloudera Manager, paket, nyans osv.

Med den ökande efterfrågan på Big Data, och Apache Hadoop ärrevolutionens kärna, det har förändrat hur vi organiserar och beräknar uppgifterna. Behovet av organisationer att anpassa Hadoop till sina affärsbehov har drivit framväxten av de kommersiella distributionerna. Kommersiella Hadoop-distributioner är vanligtvis förpackade med funktioner som är utformade för att effektivisera distributionen av Hadoop. Cloudera Hadoop Distribution tillhandahåller en skalbar, flexibel, integrerad plattform som gör det enkelt att hantera snabbt ökande volymer och sorter av data i ditt företag.

I den här bloggen om Cloudera Hadoop Distribution kommer vi att behandla följande ämnen:





Cloudera Hadoop: Introduktion till Hadoop

Hadoop är ett Apache-ramverk med öppen källkod som lagrar och bearbetar Big Data i en distribuerad miljööverkluster med enkla programmeringsmodeller. Hadoop tillhandahåller parallell beräkning utöver distribuerad lagring.För att lära dig mer om Hadoop i detalj från du kan hänvisa till detta

Efter denna korta introduktion till Hadoop, låt mig nu förklara de olika typerna av Hadoop-distribution.



Cloudera Hadoop: Hadoop-distributioner

Eftersom Apache Hadoop är öppen källkod har många företag utvecklat distributioner som går längre än den ursprungliga källkoden. Detta är mycket besläktat med Linux-distributioner som RedHat, Fedora och Ubuntu. Var och en av Linux-distributionerna stöder sina egna funktioner och funktioner som användarvänlig GUI i Ubuntu. Liknande, röd hatt är populärt inom företag eftersom det erbjuder stöd och också ger ideologi för att göra ändringar i vilken del av systemet som helst. Red Hat befriar dig från problem med programvarukompatibilitet. Detta är vanligtvis ett stort problem för användarnasom övergår från Windows.

På samma sätt finns det tre huvudtyper av Hadoop-distributioner som har sin egen uppsättning funktioner och funktioner och är byggda under basen HDFS.

Cloudera vs MapR vs Hortonworks

Fig: MapR vs Hortonworks vs Cloudera

Fig: MapR vs Hortonworks vs Cloudera



Cloudera Hadoop Distribution

Cloudera är marknadstrenden i Hadoop-rymden och är den första som släpper kommersiell Hadoop-distribution. Det erbjuder konsulttjänster för att överbrygga klyftan mellan - 'vad erbjuder Apache Hadoop' och 'vad organisationer behöver'.

Cloudera Distribution är:

  • Snabbt för affärer : Från analys till datavetenskap och allt däremellan, levererar Cloudera den prestanda du behöver för att frigöra potentialen för obegränsad data.
  • Gör Hadoop lätt att hantera : Med Cloudera Manager låter automatiserade guider dig snabbt distribuera ditt kluster, oavsett skala eller distributionsmiljö.
  • Säker utan kompromiss: Uppfyller stränga datasäkerhets- och efterlevnadsbehov utan att offra affärens smidighet. Cloudera erbjuder ett integrerat tillvägagångssätt för datasäkerhet och styrning.

Horton-Works Distribution

Horton-Works Data Platform (HDP) är helt en öppen källkodsplattform utformad för att manövrera data från många källor och format. Plattformen innehåller olika Hadoop-verktyg som Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive och ytterligare komponenter.

Den stöder också funktioner som:

  • HDP gör Hive snabbare genom sitt nya Stinger-projekt.
  • HDP undviker låsning av leverantör genom att lova en gaffelversion av Hadoop.
  • HDP fokuserar på att förbättra användbarhet av Hadoop-plattformen.

MapR-distribution

MapR är en plattformsfokuserad Hadoop-lösningsleverantör, precis som HortonWorks och Cloudera. MapR integrerar sitt eget databassystem, känt som MapR-DB samtidigt som Hadoop-distributionstjänster erbjuds. MapR-DB påstås vara fyra till sju gånger snabbare än lager Hadoop-databasen, dvs. HBase, som körs på andra distributioner.

Den har sina spännande funktioner som:

  • Det är den enda Hadoop-distributionen som inkluderar Pig, Hive och Sqoop utan Java-beroenden - eftersom det är beroende av MapR-File System.
  • MapR är den mest produktionsklara Hadoop-distributionen med många förbättringar som gör den mer användarvänlig, snabbare och pålitligare.

Låt oss nu diskutera Cloudera Hadoop-distributionen på djupet.

Prenumerera på vår YouTube-kanal för att få nya uppdateringar ...

Cloudera Hadoop: Cloudera Distribution

Cloudera är den mest kända spelaren i Hadoop-rymden för att släppa den första kommersiella Hadoop-distributionen.

Fig: Cloudera Hadoop-distribution

Cloudera Hadoop Distribution stöder följande funktioner:

  1. Clouderas CDH består av alla öppen källkomponenter, riktar sig till distributioner i företagsklass och är en av de mest populära kommersiella Hadoop-distributionerna.
  2. Känd för sina innovationer var Cloudera den första att erbjuda SQL-för-Hadoop med dess Impala sökmotor.
  3. Ledningskonsolen - Cloudera Manager , är lätt att använda och implementera med det rika användargränssnittet som visar all klusterinformation på ett organiserat och rent sätt.
  4. I CDH kan du lägga till tjänster i det igångsatta klustret utan störningar.
  5. Andra tillägg av Cloudera inkluderar säkerhet, användargränssnitt och gränssnitt för integration med tredjepartsapplikationer.
  6. CDH tillhandahåller Nodmallar dvs. det tillåter skapandet av en grupp noder i ett Hadoop-kluster med varierande konfiguration. Det utraderar användningen av samma konfiguration i hela Hadoop-klustret.
  7. Den stöder också:
    • Pålitlighet
      Hadoop-leverantörer agerar snabbt som svar när ett fel upptäcks. Med avsikt att göra kommersiella lösningar mer stabila distribueras korrigeringar och korrigeringar omedelbart.
    • Stöd
      Cloudera Hadoop-leverantörer tillhandahåller teknisk vägledning och hjälp som gör det enkelt för kunderna att anta Hadoop för uppdrag på företagsnivå och verksamhetskritiska applikationer.

    • Fullständighet
      Hadoop-leverantörer kopplar sina distributioner med olika andra tilläggsverktyg som hjälper kunder att anpassa Hadoop-applikationen för att hantera sina specifika uppgifter.

Cloudera-distributioner kommer med två olika typer av utgåvor.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Låt oss nu titta på skillnaderna mellan dem.

Funktioner Cloudera-Express Cloudera-Enterprise
Klusthantering
1. Multi-Cluster ManagementJaJa
2. ResurshanteringJaJa
Spridning
1. Stöd för CDH 4 och 5JaJa
2. Rullande uppgradering av CDHNejJa
Service- och konfigurationshantering
1. Hantera HDFS-, MapReduce-, YARN-, Impala-, HBase-, Hive-, Hue-, Oozie-, Zookeeper-, Solr-, Spark- och Accumulo-tjänsterJaJa
2. Rullande omstart av tjänsterNejJa
säkerhet
1. LDAP-autentiseringNejJa
2. SAML-autentiseringNejJa
Övervakning och diagnostik
1. HälsohistoriaJaJa
Alert Management
1. Varna via e-postJaJa
2. Varna via SNMPNejJa
Avancerade hanteringsfunktioner
1. Automatisk säkerhetskopiering och återställningNejJa
2. Filbläddring och sökningNejJa
3. Rapporter om MapReduce, Impala, HBase, GarnanvändningNejJa

Cloudera Hadoop: Cloudera Manager

Enligt Cloudera är Cloudera Manager det bästa sättet att Installera , konfigurera , hantera och övervaka Hadoop-stacken.

Den ger:

  1. Automatiserad distribution och konfiguration
  2. Anpassningsbar övervakning och rapportering
  3. Enkel och robust felsökning
  4. Noll - Underhåll av stillestånd

Få fördjupad kunskap om Cloudera Hadoop och dess olika verktyg

Demonstration av Cloudera Manager

Låt oss utforska Cloudera Manager.

1. Nedanstående figur visar antalet tjänster som för närvarande körs i Cloudera Manager. Du kan också se diagrammen om kluster-CPU-användning, Disk IO-användning etc.

Fig: Hemsidan för Cloudera Manager

2. Bilden nedan visar HBase-klustret. Det ger dig diagram och grafer om hälsotillståndet för den nuvarande HBase REST-servern.

Fig: Hälsovillkor för HBase-servern

3. Låt oss nu titta på fliken Instanser i HBase-klustret där du kan kontrollera status och IP-konfiguration.

Fig: Status och IP-adress för värdservern för HBase-klustret

4. Därefter har du fliken Konfiguration. Här kan du se alla konfigurationsparametrar och ändra deras värden.

Fig: Konfiguration av HBase-klustret

Låt oss nu förstå vad som är paket i Cloudera.

Cloudera Hadoop: paket

Ett paket är ett binärt distributionsformat som innehåller programfilerna, tillsammans med ytterligare metadata som används av Cloudera Manager.

sortera en matris c ++

Paket är fristående och installerade i en versionskatalog, vilket innebär att flera versioner av en viss tjänst kan installeras sida vid sida.

Nedan följer fördelarna med att använda paket:

  • Det ger distribution av CDH som ett enda objekt, dvs. istället för att ha ett separat paket för varje del av CDH, har paket bara ett enda objekt att installera.

  • Det erbjuder intern konsistens (eftersom hela CDH distribueras som ett enda paket matchas alla CDH-komponenter och det finns ingen risk för att olika delar kommer från olika versioner av CDH).

  • Du kan installera, uppgradera, nedgradera, distribuera och aktivera paketen i CDH med några få klick.

Nu ska vi se hur man installerar och aktiverar Kafka-tjänsten i CDH med hjälp av paket.

  1. Gå till Cloudera-chefens hemsida >> Värdar >> paket enligt nedan

    Fig: Välja paket från värdarna

2. Om du inte ser Kafka i paketlistan kan du lägga till paketet i listan.

  1. Hitta paketet med den Kafka-version du vill använda. Om du inte ser det kan du lägga till paketförvaret i listan.
  2. Hitta paketet för den version av Kafka du vill installera - Cloudera distribution av Apache Kafka versioner .
    Nedanstående figur visar samma sak.

Fig: Förvarssökväg för paketet.

3. Kopiera länken som visas i figuren ovan och lägg till den i fjärrpaketförvaret som visas nedan.

Fig: Tillägg av Kafka-banan från förvaret

Fyra.Efter att ha lagt till sökvägen är Kafka redo för nedladdning. Du kan bara klicka på nedladdningsknappen och ladda ner Kafka.

Fig: Nedladdning av Kafka

5. När Kafka har laddats ner behöver du bara distribuera och aktivera det.

Fig: Aktivering av Kafka

När den är aktiverad kan du gå vidare och visa Kafka på fliken tjänster i Cloudera-hanteraren.

Fig: Kafka-service

Cloudera Hadoop: Skapa ett Oozie-arbetsflöde

Att skapa ett arbetsflöde genom att manuellt skriva XML-koden och sedan köra det är komplicerat. Du kan hänvisa detta Planera Oozie-jobbet blogg, för att veta om den traditionella metoden.

Du kan se bilden nedan, där vi har skrivit en XML-fil för att skapa ett enkelt Oozie-arbetsflöde. Fig: Skapa ett Oozie-arbetsflöde med en traditionell metod

Som du kan se även för att skapa en enkel Oozie-schemaläggare var vi tvungna att skriva enorm XML-kod som är tidskrävande, och felsökning av varje enskild rad blir besvärlig. För att övervinna detta introducerade Cloudera Manager en ny funktion som heter Nyans som ger ett GUI och enkla dra och släpp-funktioner för att skapa och utföra Oozie-arbetsflöden.

Låt oss nu se hur Hue utför samma uppgift på ett förenklat sätt.

Innan du skapar ett arbetsflöde, låt oss först skapa inmatningsfiler, dvs. clickstream.txt och user.txt.
I filen user.txt har vi användar-id, namn, ålder, land, kön enligt nedan. Vi behöver den här användarfilen för att känna till att användaren räknar och klickar på webbadressen (nämns i clickstream-filen) baserat på användar-id.

Fig: Skapa en textfil

För att känna till antalet klick av användaren på varje webbadress har vi en klickström som innehåller användar-id och webbadress.

Fig: Clickstream-fil

Låt oss skriva frågorna i skriptfilen.

Fig: Skriptfil

Efter att ha skapat användarfilen, clickstream-filen och skriptfilen nästa kan vi fortsätta och skapa Oozie-arbetsflödet.

1. Du kan helt enkelt dra och släppa Oozie-arbetsflödet enligt bilden.

Fig: Dra och släpp-funktionen för att skapa Oozie-arbetsflödet

2. Snart efter att du har tappat din åtgärd måste du ange sökvägarna till skriptfilen och lägga till de parametrar som nämns i skriptfilen. Här måste du lägga till parametrarna OUTPUT, CLICKSTREAM och USER och ange sökvägen till var och en av parametrarna.

Fig: Lägga till en skriptfil och de parametrar som krävs för att utföra åtgärden

3. När du har angett sökvägarna och lagt till parametrarna, sparar du nu och skickar in arbetsflödet enligt bilden nedan.

Fig: Spara och skicka in Oozie-åtgärden

4. När du har skickat uppgiften är ditt jobb slutfört. Exekvering och de andra stegen tas hand om av Hue.

Fig: Exekveringsstatus för Oozie-jobbet

5.Nu när vi har utfört Oozie-jobbet, låt oss titta på åtgärdsfliken. Den innehåller användar-ID och arbetsflödets status. Det visar också felkoder om de är några, start- och sluttiden för åtgärdsposten.

Fig: Element som finns i åtgärdsfliken i Oozie-arbetsflödet

6. Bredvid åtgärdsfliken finns informationsfliken. I detta kan vi se starttiden och den senaste modifierade tiden för jobbet.

Fig: Detaljer om Oozie-arbetsflödet.

7. Bredvid fliken Detaljer har vi fliken Konfiguration i arbetsflödet.

Fig: Konfigurationsinställningar för Oozie-arbetsflödet

7. Om det finns några fel kommer åtgärdsposten att visas i fliken Logg. Du kan hänvisa till feluttalanden och felsöka det därefter.

Fig: Loggfil som innehåller felkoder och feluttalanden

8. Här är XML-koden för arbetsflödet som genereras automatiskt av Hue.

Fig: XML-kod för Oozies arbetsflöde

9.1. Eftersom du redan har angett sökvägen för utdatakatalogen i steg 2 har du utdatakatalogen i HDFS-webbläsaren som visas nedan.

Fig: Utmatningskatalog för HDFS-webbläsaren

9.2 När du klickar på utdatakatalogen hittar du en textfil med namnet output.txt och den textfilen innehåller den faktiska utdata som visas i bilden nedan.

Fig: Slutlig utgångstext

Så här gör Hue vårt arbete enkelt genom att tillhandahålla dra och släpp-alternativ för att skapa ett Oozie-arbetsflöde.

Jag hoppas att den här bloggen var användbar för att förstå Cloudera-distributionen och de olika Cloudera-komponenterna.

Vill du delta i Big Data-revolutionen?

Nu när du har förstått Cloudera Hadoop Distribution kolla in av Edureka, ett pålitligt online-lärande företag med ett nätverk av mer än 250 000 nöjda elever spridda över hela världen. Edureka-kursen Big Data Hadoop-certifiering hjälper eleverna att bli experter på HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume och Sqoop med realtidsanvändningsfall på Retail, Social Media, Aviation, Tourism, Finance.

Har du en fråga till oss? Vänligen nämna det i kommentarfältet så återkommer vi till dig.