Hadoop är ett störande Java-baserat programmeringsramverk som stöder bearbetning av stora datamängder i en distribuerad datormiljö, medan R är ett programmeringsspråk och mjukvarumiljö för statistisk beräkning och grafik. R-språket används ofta bland statistiker och databearbetare för att utveckla statistisk programvara och utföra dataanalys. Inom områdena interaktiv dataanalys, statistik för allmänt ändamål och förutsägbar modellering har R vunnit massiv popularitet på grund av sin kapacitet för klassificering, kluster och ranking.
Hadoop och R kompletterar varandra ganska bra när det gäller visualisering och analys av big data.
Använda R och Hadoop
Det finns fyra olika sätt att använda Hadoop och R tillsammans:
1. RHadoop
RHadoop är en samling av tre R-paket: rmr, rhdfs och rhbase. rmr-paketet ger Hadoop MapReduce-funktionalitet i R, rhdfs ger HDFS-filhantering i R och rhbase ger HBase-databashantering inifrån R. Var och en av dessa primära paket kan användas för att analysera och hantera Hadoop-ramdata bättre.
2. ORK
ORCH står för Oracle R Connector för Hadoop. Det är en samling R-paket som tillhandahåller relevanta gränssnitt för att arbeta med Hive-tabeller, Apache Hadoop-beräkningsinfrastrukturen, den lokala R-miljön och Oracle-databastabeller. Dessutom tillhandahåller ORCH förutsägbara analytiska tekniker som kan tillämpas på data i HDFS-filer.
datumdatatyp SQL-server
3. RIP
RHIPE är ett R-paket som ger ett API för att använda Hadoop. RHIPE står för R och Hadoop Integrated Programming Environment, och är i huvudsak RHadoop med ett annat API.
Fyra. Hadoop-strömning
Hadoop Streaming är ett verktyg som tillåter användare att skapa och köra jobb med alla körbara filer som mapparen och / eller reduceraren. Med hjälp av strömningssystemet kan man utveckla fungerande Hadoop-jobb med tillräckligt med kunskap om Java för att skriva två skalskript som fungerar tillsammans.
Kombinationen av R och Hadoop framstår som ett måste-verktygslåda för människor som arbetar med statistik och stora datamängder. Men vissa Hadoop-entusiaster har höjt en röd flagga när de hanterar extremt stora Big Data-fragment. De hävdar att fördelen med R inte är dess syntax utan det uttömmande biblioteket med primitiver för visualisering och statistik. Dessa bibliotek är i grunden icke-distribuerade, vilket gör datainhämtning till en tidskrävande affär. Detta är en inneboende brist med R, och om du väljer att förbise det kan R och Hadoop i tandem fortfarande göra underverk.
Låt oss nu se en demo:
Har du en fråga till oss? Vänligen nämna dem i kommentarfältet så återkommer vi till dig.
Relaterade inlägg:
vilka är de sex sätten att använda detta nyckelord