Idag är den mest populära termen i IT-världen ”Hadoop”. Inom en kort tidsperiod Hadoop har vuxit massivt och har visat sig vara användbart för en stor samling olika projekt. Hadoop-samhället utvecklas snabbt och har en framträdande roll i sitt ekosystem.
Här är en titt på de viktiga Hadoop-verktygen som används för att hantera Big Data.
om uttalande i SQL-fråga
Ambari är ett Apache-projekt som stöds av Hortonworks. Det erbjuder ett webbaserat GUI (grafiskt användargränssnitt) med guiden manus för att ställa in kluster med de flesta standardkomponenter. Ambari tillhandahåller, hanterar och övervakar alla kluster av Hadoop-jobb.
De HDFS , distribueras under Apache-licens erbjuder en grundläggande ram för att dela upp datainsamlingar mellan flera noder. I HDFS delas de stora filerna upp i block, där flera noder håller alla block från en fil. Filsystemet är utformat på ett sätt att blanda fel tolerans med hög genomströmning. HDFS-blocken laddas för att upprätthålla en stadig streaming. De lagras vanligtvis inte för att minimera latens.
HBase är ett kolumnorienterat databashanteringssystem som körs ovanpå HDFS. HBase-applikationer är skrivna i Java, ungefär som MapReduce-applikationen. Den består av en uppsättning tabeller där varje tabell innehåller rader och kolumner som en traditionell databas. När data hamnar i den stora tabellen lagrar HBase data, söker i dem och delar automatiskt tabellen över flera noder så att MapReduce-jobb kan köra den lokalt. HBase erbjuder en begränsad garanti för vissa lokala förändringar. Ändringarna som sker i en enda rad kan lyckas eller misslyckas samtidigt.
Om du redan är flytande med SQL kan du utnyttja Hadoop med hjälp av Bikupa . Hive utvecklades av vissa personer på Facebook. Apache Hive reglerar processen för att extrahera bitar från alla filer i HBase. Den stöder analys av stora datamängder som lagras i Hadoop's HDFS och kompatibla filsystem. Det tillhandahåller också ett SQL-liknande språk som kallas HSQL (HiveSQL) som kommer in i filerna och extraherar de nödvändiga utdragen för koden.
Apache Sqoop är speciellt utformad för att effektivt överföra bulkdata från traditionella databaser till Hive eller HBase. Det kan också användas för att extrahera data från Hadoop och exportera det till externa strukturerade datalagrar som relationsdatabaser och företagsdatalager. Sqoop är ett kommandoradsverktyg som kartlägger mellan tabellerna och datalagringslagret och översätter tabellerna till en konfigurerbar kombination av HDFS, HBase eller Hive.
När den lagrade informationen är synlig för Hadoop, Apache Pig dyker in i data och kör koden som är skriven på sitt eget språk, kallad Pig Latin. Pig Latin är fylld med abstraktioner för hantering av data. Pig levereras med standardfunktioner för vanliga uppgifter som genomsnitt av data, arbete med datum eller för att hitta skillnader mellan strängar. Gris tillåter också användaren att skriva språk på egen hand, kallad UDF (User Defined Function), när standardfunktionerna saknas.
Djurvakt är en central tjänst som underhåller, konfigurerar information, ger ett namn och tillhandahåller distribuerad synkronisering över ett kluster. Det inför en filsystemlik hierarki i klustret och lagrar alla metadata för maskinerna, så att vi kan synkronisera de olika maskinernas arbete.
NoSQL
Vissa Hadoop-kluster integreras med NoSQL datalager som har sina egna mekanismer för att lagra data i ett kluster av noder. Detta gör det möjligt för dem att lagra och hämta data med alla funktioner i NoSQL-databasen, varefter Hadoop kan användas för att schemalägga dataanalysjobb i samma kluster.
Mahout är utformad för att implementera ett stort antal algoritmer, klassificeringar och filtrering av dataanalys till Hadoop-klustret. Många av standardalgoritmerna som K-betyder, Dirichelet, parallellt mönster och Bayesianska klassificeringar är redo att köras på data med en Hadoop-stilkarta och minska.
Lucene, skrivet i Java och enkelt integrerat med Hadoop, är en naturlig följeslagare för Hadoop. Det är ett verktyg som är avsett för indexering av stora block med ostrukturerad text. Lucene hanterar indexeringen medan Hadoop hanterar de distribuerade frågorna över klustret. Lucene-Hadoop-funktioner utvecklas snabbt när nya projekt utvecklas.
Euro är ett serialiseringssystem som buntar data tillsammans med ett schema för att förstå det. Varje paket har en JSON-datastruktur. JSON förklarar hur data kan analyseras. Rubriken på JSON specificerar strukturen för data, där behovet av att skriva extra taggar i data för att markera fälten kan undvikas. Utdata är betydligt mer kompakt än de traditionella format som XML.
Ett jobb kan förenklas genom att dela upp det i steg. När vi bryter in projektet till flera Hadoop-jobb, Oozie börjar bearbeta dem i rätt ordning. Det hanterar arbetsflödet enligt DAG (Directed Acyclic Graph) och det finns inget behov av snabb övervakning.
GIS-verktyg
Att arbeta med geografiska kartor är ett stort jobb för kluster som kör Hadoop. GIS ( Geografiskt informations-system ) verktyg för Hadoop-projekt har anpassat de bästa Java-baserade verktygen för att förstå geografisk information som kan köras med Hadoop. Databaserna kan nu hantera geografiska frågor med hjälp av koordinater och koderna kan distribuera GIS-verktygen.
Att samla all data är lika med att lagra och analysera det. Apache Flume skickar ”specialagenter” för att samla information som kommer att lagras i HDFS. Den information som samlas in kan vara loggfiler, Twitter API eller webbplatsskrot. Dessa data kan kedjas och analyseras.
Gnista är nästa generation som i stort sett fungerar som Hadoop som bearbetar data som lagras i minnet. Målet är att göra dataanalys snabbt att köra och skriva med en allmän utförandemodell. Detta kan optimera godtyckliga operatörsdiagram och stödja in-memory computing, vilket gör det möjligt att fråga data snabbare än diskbaserade motorer som Hadoop.
SQL på Hadoop
När det krävs att köra en snabb ad hoc-fråga om all data i klustret kan ett nytt Hadoop-jobb skrivas, men det tar lite tid. När programmerare började göra detta oftare kom de med verktyg skrivna på det enkla språket i SQL. Dessa verktyg ger snabb åtkomst till resultaten.
Apache Drill
Apache Drill tillhandahåller ad-hoc-frågor med låg latens till många och varierande datakällor, inklusive kapslade data. Drill, inspirerad av Googles Dremel, är utformad för att skala till 10 000 servrar och fråga petabytes med data på några sekunder.
Dessa är de viktigaste Hadoop-verktygen för att knäcka Big Data!
Har du en fråga till oss? Vänligen nämna dem i kommentarfältet så återkommer vi till dig.
Relaterade inlägg:
Praktiska skäl att lära sig Hadoop 2.0