Hadoop 2.0 - Vanliga frågor



Intresset för Hadoop har ökat till många gånger de senaste åren. Det här inlägget svarar på dina frågor och rensar många tvivel om Hadoop 2.0 och dess användning.

Detta är ett uppföljningsinlägg med svar på vanliga frågor under det offentliga webinaret av edureka! på .

Vanliga frågor om Hadoop

Deepak:





Vad är Hadoop?
Apache Hadoop är ett programvara för öppen källkod för lagring och storskalig bearbetning av datamängder på kluster av råvarumaskinvara. Det är ett ramverk med öppen källkod för datahantering med skalbar lagring och distribuerad bearbetning. Den byggs och används av en global grupp av bidragsgivare och användare.

hitta största element i array java

Läs mer på vårt Hadoop-blogginlägg och .



Sök:

Vilka är de stora data som används i rese-, transport- och flygindustrin?

Solig:



Kan du peka på ett verkligt urval av Hadoop Implementation som vi kan studera?
Vi är liviavi en era av ökande trafikstockningar. Transportoperatörer försöker ständigt hitta kostnadseffektiva sätt att leverera sina tjänster samtidigt som deras transportflotta hålls under bra förhållanden. Big Data Analytics-användning på den här domänen kan hjälpa organisationer med:

  • Ruttoptimering
  • Geospatial analys
  • Trafikmönster och trängsel
  • Tillgångar underhåll
  • Intäkthantering (dvs. flygbolag)
  • Lagerhantering
  • Bränslebesparing
  • Riktad marknadsföring
  • Kund lojalitet
  • Kapacitetsprognoser
  • Nätverksprestanda och optimering

Få användningsfall från den verkliga världen är:
till) Bestämning av flygkostnader
b) Prediction Modelling for Inventory Logistics
c) Orbitz Worldwide - Kundköpsmönster
d) Sex superskaliga Hadoop-implementeringar
är) Hadoop - Mer än lägger till
f) Hadoop i Enterprise

Du kan läsa mer om Hadoop Real-World-implementeringar på:

Hirdesh:

Handlar Hadoop om datahantering och bearbetning? Hur går vi till rapportering och Visual Analytics. Kan Qlikview, Tableau användas ovanpå Hadoop?
De viktigaste Hadoop-komponenterna HDFS och MapReduce handlar om datalagring och bearbetning. HDFS för lagring och MapReduce för bearbetning. Men Hadoop-kärnkomponenter som Pig och Hive används för analys. För Visual Reports Tableau kan QlikView anslutas till Hadoop för Visual Reporting.

Amit:

Hadoop Vs. mongoDB
MongoDB används som den 'operativa' datalagret i realtid medan Hadoop används för offline-batchbearbetning och analys.
mongoDB är ett dokumentorienterat, schemafritt datalager som du kan använda i en webbapplikation som backend istället för RDBMS som MySQL medan Hadoop huvudsakligen används som skalbar lagring och distribuerad bearbetning för stor mängd data.

Läs mer på vår mongoDB och Hadoop blogginlägg .

Här:

Är Apache Spark en del av Hadoop ?
Apache Spark är en snabb och allmän motor för storskalig databehandling. Spark är snabbare och stöder bearbetning av minne. Spark-exekveringsmotor breddar typen av arbetsbelastningar som Hadoop kan hantera och kan köras på Hadoop 2.0 YARN-kluster. Det är ett bearbetningsramsystem som möjliggör lagring av In-Memory-objekt (RDD) tillsammans med förmågan att bearbeta dessa objekt med hjälp av Scala-förslutningar. Den stöder diagram, datalager, maskininlärning och strömbehandling.

Om du har ett Hadoop 2-kluster kan du köra Spark utan installation behövs. Annars är Spark lätt att köra fristående eller på EC2 eller Mesos. Det kan läsas från HDFS, HBase, Cassandra och vilken Hadoop-datakälla som helst.

Läs mer på Spark här .

Prasad:

Vad är Apache Flume?
Apache Flume är ett distribuerat, pålitligt och tillgängligt system för att effektivt samla in, aggregera och flytta stora mängder loggdata från många olika källor till en central datakälla.

Amit:

SQL vs NO-SQL-databaser
NoSQL-databaser är nästa generations databaser och adresserar mestadels några av punkterna

  • icke-relationell
  • distribuerad
  • öppen källa
  • horisontellt skalbar

Ofta gäller fler egenskaper som schemafritt, enkelt replikeringsstöd, enkelt API, så småningom konsekvent / BASE (inte ACID), en enorm mängd data och mer. Till exempel är få av skillnaderna:

  • NoSQL-databaser skala upp horisontellt och lägga till fler servrar för att hantera större belastningar. SQL-databaser, å andra sidan, skala vanligtvis upp vertikalt, lägga till fler och fler resurser till en enda server när trafiken ökar.
  • SQL-databaser krävde att du definierar dina scheman innan du lägger till information och data men NoSQL-databaser är schemafria kräver inte schemadefinition i förväg.
  • SQL-databaser är tabellbaserade med rader och kolumner enligt RDBMS-principer medan NoSQL-databaser är dokument-, nyckel-värdepar, diagram eller bredkolonnbutiker.
  • SQL-databaser använder SQL (strukturerat frågespråk) för att definiera och manipulera data. I NoSQL-databasen varierar frågorna från en databas till en annan.

Populära SQL-databaser: MySQL, Oracle, Postgres och MS-SQL
Populär NoSQL-databaser: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j och CouchDB

Granska våra bloggar på Hadoop och NoSQL databaser och fördelar med en sådan databas:

Koteswararao:

Har Hadoop en inbyggd klusterteknologi?
Ett Hadoop-kluster använder Master-Slave-arkitektur. Den består av en enda master (NameNode) och ett kluster av slavar (DataNodes) för att lagra och bearbeta data. Hadoop är utformat för att köras på ett stort antal maskiner som inte delar något minne eller diskar. Dessa DataNodes konfigureras som Cluster med . Hadoop använder ett replikeringskoncept för att säkerställa att minst en kopia av data är tillgänglig i klustret hela tiden. Eftersom det finns flera kopior av data kan data som lagras på en server som går offline eller dör replikeras automatiskt från en känd bra kopia.

Dinesh:

Vad är ett jobb i Hadoop? Vad kan alla åstadkommas via ett jobb?
I Hadoop är ett jobb ett MapReduce-program för att bearbeta / analysera data. Termen MapReduce hänvisar faktiskt till två separata och distinkta uppgifter som Hadoop-program utför. Den första är kartuppgiften, som tar en uppsättning data och konverterar den till en annan uppsättning mellanliggande data, där enskilda element delas upp i nyckel-värdepar. Den andra delen av ett MapReduce-jobb, Reducera-uppgiften, tar utdata från en karta som inmatning och kombinerar nyckel-värdeparen till en mindre uppsättning aggregerat nyckel-värdepar. Som sekvensen för namnet MapReduce antyder utförs alltid Reducera uppgiften efter att kartuppgifterna har slutförts. Läs mer på MapReduce Job .

Sukruth:

Vad är speciellt med NameNode ?
NameNode är hjärtat i ett HDFS-filsystem. Det behåller metadata som katalogträd för alla filer i filsystemet och spårar var över klustret fildata hålls. Den faktiska informationen lagras på DataNodes som HDFS-block.
Klientapplikationer pratar med NameNode när de vill hitta en fil eller när de vill lägga till / kopiera / flytta / radera en fil. NameNode svarar på framgångsrika förfrågningar genom att returnera en lista med relevanta DataNodes-servrar där data finns. Läs mer om HDFS Architecture .

Dinesh:

När introducerades Hadoop 2.0 på marknaden?
Apache Software Foundation (ASF), öppen källkodsgrupp som hanterar Hadoop Development, meddelade i sin blogg den 15 oktober 2013 att Hadoop 2.0 nu är allmänt tillgängligt (GA). Detta meddelande innebär att Apache Hadoop 2.0 och YARN efter en lång väntan nu är redo för produktionsdistribution. Mer om Blogg.

Dinesh:

Vilka är några exempel på icke-MapReduce Big Data-applikation?
MapReduce är utmärkt för många applikationer för att lösa Big Data-problem men inte för allt som andra programmeringsmodeller tjänar bättre som grafbearbetning (t.ex. Google Pregel / Apache Giraph) och iterativ modellering med Message Passing Interface (MPI).

Marish:

Hur ordnas och indexeras data i HDFS?
Data delas upp i block på 64 MB (kan konfigureras med en parameter) och lagras i HDFS. NameNode lagrar lagringsinformation för dessa block som block-ID i sitt RAM (NameNode Metadata). MapReduce-jobb kan komma åt dessa block med metadata lagrade i NameNode RAM.

Shashwat:

Kan vi använda både MapReduce (MRv1) och MRv2 (med YARN) på samma kluster?
Hadoop 2.0 har introducerat ett nytt ramgarn för att skriva och köra olika applikationer på Hadoop. Så, YARN och MapReduce är två olika begrepp i Hadoop 2.0 och bör inte blandas och användas omväxlande. Den rätta frågan är 'Är det möjligt att köra både MRv1 och MRv2 på ett YARN-aktiverat Hadoop 2.0-kluster?' Svaret på denna fråga är ett 'Nej' som även om ett Hadoop-kluster kan konfigureras för att köra både MRv1 och MRv2 men kan bara köra en uppsättning demoner när som helst. Båda dessa ramar använder så småningom samma konfigurationsfiler ( garn-site.xml och mapred-site.xml ) för att köra demonerna, därför kan endast en av de två konfigurationerna aktiveras på ett Hadoop-kluster.

Docka:

Vad är skillnaden mellan Next Generation MapReduce (MRv2) och YARN?
YARN och Next Generation MapReduce (MRv2) är två olika koncept och tekniker i Hadoop 2.0. YARN är ett programramverk som kan användas för att köra inte bara MRv2 utan även andra applikationer. MRv2 är ett applikationsramverk skrivet med YARN API och det körs inom YARN.

Bharat:

Ger Hadoop 2.0 bakåtkompatibilitet för Hadoop 1.x-applikationer?
Neha:

Kräver Hadoop 1.0 till 2.0-migrering tung applikationskod migration?
Nej, det mesta av applikationen som utvecklats med 'org.apache.hadoop.mapred' API: er kan köras på YARN utan någon kompilering. YARN är binärt kompatibelt med MRv1-applikationer och 'bin / hadoop' kan användas för att skicka in dessa ansökningar på YARN. Läs mer om detta här .

Sherin:

Vad händer om Resource Manager-noden misslyckas i Hadoop 2.0?
Från och med Hadoop Release 2.4.0 finns stöd för hög tillgänglighet för Resource Manager också. ResourceManager använder Apache ZooKeeper för fail-over. När Resource Manager-noden misslyckas kan en sekundär nod snabbt återställas via klustertillstånd som sparats i ZooKeeper. ResourceManager, vid en fail-over, startar om alla kön och kör applikationer.

Sabbirali:

Fungerar Apache's Hadoop-ramverk på Cloudera Hadoop?
Apache Hadoop introducerades 2005 med kärnan MapReduce-bearbetningsmotorn för att stödja distribuerad bearbetning av storskaliga dataarbetsbelastningar lagrade i HDFS. Det är ett öppen källkodsprojekt och har flera distributioner (liknar Linux). Cloudera Hadoop (CDH) är en sådan distribution från Cloudera. Andra liknande distributioner är HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights etc.

Arulvadivel:

Något enkelt sätt att installera Hadoop på min bärbara dator och prova migrering av Oracle-databasen till Hadoop?
Du kan Start med en HortonWorks Sandbox eller Cloudera Quick VM på din bärbara dator (med minst 4 GB RAM och i3 eller högre processor). Använd SQOOP för att flytta data från Oracle till Hadoop enligt förklaringen här .

Bhabani:

Vilka är de bästa böckerna som finns att lära sig Hadoop?
Börja med Hadoop: The Definitive Guide av Tom White och Hadoop-operationer av Eric Sammer.

Mahendra:

Finns det någon läsning tillgänglig för Hadoop 2.0 precis som Hadoop den slutgiltiga guiden?
Granska senaste ankomst på bokhyllor skrivna av få av skaparna av Hadoop 2.0.

Håll koll på fler frågor i den här serien.