MongoDB med Hadoop och relaterade Big Data-tekniker



MongoDB med Hadoop och relaterade Big Data Technologies är en kraftfull kombination för att ge en lösning för en komplex situation inom analys.

Relationsdatabaser under lång tid räckte för att hantera små eller medelstora datamängder. Men den kolossala hastigheten med vilken data växer gör det traditionella tillvägagångssättet för datalagring och hämtning omöjligt. Detta problem löses med nyare tekniker som kan hantera Big Data. Hadoop, Hive och Hbase är de populära plattformarna för att driva denna typ av stora datamängder. NoSQL eller inte bara SQL-databaser som MongoDB ger en mekanism för att lagra och hämta data i förlorar konsistensmodell med fördelar som:

  • Horisontell skalning
  • Högre tillgänglighet
  • Snabbare åtkomst

MongoDB-ingenjörsteamet har nyligen uppdaterat MongoDB Connector för Hadoop för att få bättre integration. Detta gör det lättare för Hadoop-användare att:





  • Integrera realtidsdata från MongoDB med Hadoop för djup, offline-analys.
  • Connector exponerar den analytiska kraften i Hadoop's MapReduce för att leva applikationsdata från MongoDB, vilket driver värde från stora data snabbare och mer effektivt.
  • Connector presenterar MongoDB som ett Hadoop-kompatibelt filsystem som gör att ett MapReduce-jobb kan läsas från MongoDB direkt utan att först kopiera det till HDFS (Hadoop file System), vilket tar bort behovet av att flytta Terabyte data över nätverket.
  • MapReduce-jobb kan skicka frågor som filter, så man undviker behovet av att skanna hela samlingar och kan också dra nytta av MongoDB: s rika indexeringsfunktioner inklusive geo-spatial, text-search, array, sammansatta och glesa index.
  • När man läser från MongoDB kan resultaten av Hadoop-jobb också skrivas ut till MongoDB för att stödja operativa processer i realtid och ad hoc-frågor.

Hadoop och MongoDB Användningsfall:

Låt oss titta på en beskrivning på hög nivå av hur MongoDB och Hadoop kan passa ihop i en typisk Big Data-stack. I första hand har vi:

hur man använder svävar i css
  • MongoDB används som 'Operativ' datalagring i realtid
  • Hadoop för offline batchbearbetning och analys

Läs vidare för att veta varför och hur MongoDB användes av företag och organisationer som Aadhar, Shutterfly, Metlife och eBay .



Tillämpning av MongoDB med Hadoop i gruppaggregering:

I de flesta scenarier är den inbyggda aggregeringsfunktionaliteten som tillhandahålls av MongoDB tillräcklig för att analysera data. I vissa fall kan emellertid betydligt mer komplex dataggregation vara nödvändig. Det är här Hadoop kan ge ett kraftfullt ramverk för komplex analys.

skapa ec2-instans från ögonblicksbild

I det här scenariot:

  • Data hämtas från MongoDB och bearbetas inom Hadoop via ett eller flera MapReduce-jobb. Data kan också hämtas från andra platser inom dessa MapReduce-jobb för att utveckla en lösning för flera datakällor.
  • Utdata från dessa MapReduce-jobb kan sedan skrivas tillbaka till MongoDB för frågor i ett senare skede och för eventuell analys på ad hoc-basis.
  • Applikationer byggda ovanpå MongoDB kan därför använda informationen från batchanalys för att presentera för slutklienten eller för att möjliggöra andra nedströmsfunktioner.

Hadoop Mongo DB Aggregation



Tillämpning i datalagring:

I en typisk produktionsinstallation kan applikationsdata finnas i flera datalagrar, var och en med sitt eget frågespråk och funktionalitet. För att minska komplexiteten i dessa scenarier kan Hadoop användas som ett datalager och fungera som ett centralförvar för data från olika källor.

konvertera sträng till datum Java

I denna typ av scenario:

  • Periodisk MapReduce-jobb laddar data från MongoDB till Hadoop.
  • När data från MongoDB och andra källor är tillgängliga i Hadoop kan den större datasetet frågas mot.
  • Dataanalytiker har nu möjlighet att använda antingen MapReduce eller Pig för att skapa jobb som frågar efter större datamängder som innehåller data från MongoDB.

Teamet som arbetar bakom MongoDB har säkerställt att det med sin rika integration med Big Data-teknik som Hadoop kan integreras bra i Big Data Stack och hjälpa till att lösa några komplexa arkitektoniska problem när det gäller datalagring, hämtning, bearbetning, aggregering och lagring . Håll dig uppdaterad om vårt kommande inlägg om karriärmöjligheter för dem som tar Hadoop med MongoDB. Om du redan arbetar med Hadoop eller bara hämtar MongoDB, kolla in de kurser vi erbjuder för MongoDB