4 sätt att använda R och Hadoop tillsammans

R och Hadoop kompletterar varandra ganska bra när det gäller visualisering och analys av big data. Detta blogginlägg talar om fyra sätt att använda dem tillsammans.

Hadoop är ett störande Java-baserat programmeringsramverk som stöder bearbetning av stora datamängder i en distribuerad datormiljö, medan R är ett programmeringsspråk och mjukvarumiljö för statistisk beräkning och grafik. R-språket används ofta bland statistiker och databearbetare för att utveckla statistisk programvara och utföra dataanalys. Inom områdena interaktiv dataanalys, statistik för allmänt ändamål och förutsägbar modellering har R vunnit massiv popularitet på grund av sin kapacitet för klassificering, kluster och ranking.

KM





Hadoop och R kompletterar varandra ganska bra när det gäller visualisering och analys av big data.

Använda R och Hadoop

Det finns fyra olika sätt att använda Hadoop och R tillsammans:



1. RHadoop

RHadoop är en samling av tre R-paket: rmr, rhdfs och rhbase. rmr-paketet ger Hadoop MapReduce-funktionalitet i R, rhdfs ger HDFS-filhantering i R och rhbase ger HBase-databashantering inifrån R. Var och en av dessa primära paket kan användas för att analysera och hantera Hadoop-ramdata bättre.

2. ORK



ORCH står för Oracle R Connector för Hadoop. Det är en samling R-paket som tillhandahåller relevanta gränssnitt för att arbeta med Hive-tabeller, Apache Hadoop-beräkningsinfrastrukturen, den lokala R-miljön och Oracle-databastabeller. Dessutom tillhandahåller ORCH förutsägbara analytiska tekniker som kan tillämpas på data i HDFS-filer.

datumdatatyp SQL-server

3. RIP

RHIPE är ett R-paket som ger ett API för att använda Hadoop. RHIPE står för R och Hadoop Integrated Programming Environment, och är i huvudsak RHadoop med ett annat API.

Fyra. Hadoop-strömning

Hadoop Streaming är ett verktyg som tillåter användare att skapa och köra jobb med alla körbara filer som mapparen och / eller reduceraren. Med hjälp av strömningssystemet kan man utveckla fungerande Hadoop-jobb med tillräckligt med kunskap om Java för att skriva två skalskript som fungerar tillsammans.

Kombinationen av R och Hadoop framstår som ett måste-verktygslåda för människor som arbetar med statistik och stora datamängder. Men vissa Hadoop-entusiaster har höjt en röd flagga när de hanterar extremt stora Big Data-fragment. De hävdar att fördelen med R inte är dess syntax utan det uttömmande biblioteket med primitiver för visualisering och statistik. Dessa bibliotek är i grunden icke-distribuerade, vilket gör datainhämtning till en tidskrävande affär. Detta är en inneboende brist med R, och om du väljer att förbise det kan R och Hadoop i tandem fortfarande göra underverk.

Låt oss nu se en demo:

Har du en fråga till oss? Vänligen nämna dem i kommentarfältet så återkommer vi till dig.

Relaterade inlägg:

vilka är de sex sätten att använda detta nyckelord