INTRODUKTION TILL APACHE HIVE

Apache Hive är ett Data Warehousing-paket byggt ovanpå Hadoop och används för dataanalys. Hive riktar sig till användare som är bekväma med SQL. Det liknar SQL och kallas HiveQL, används för att hantera och fråga frågor om strukturerad data. Apache Hive används för att abstrakta Hadoops komplexitet. Det här språket gör det också möjligt för traditionella kart- / reduceringsprogrammerare att ansluta sina anpassade mappar och reducerare. Det populära med Hive är att det inte finns något behov av att lära sig Java.

Hive, ett ramverk för datalagring med öppen källkod för peta-byte-skala baserat på Hadoop, utvecklades av Data Infrastructure Team på Facebook. Hive är också en av de tekniker som används för att tillgodose kraven på Facebook. Hive är mycket populärt bland alla användare internt på Facebook och används för att köra tusentals jobb på klustret med hundratals användare för ett brett utbud av applikationer. Hive-Hadoop-klustret på Facebook lagrar mer än 2PB rådata och laddar regelbundet 15 TB data dagligen.

Låt oss titta på några av dess funktioner som gör den populär och användarvänlig:

apache gnista jämfört med hadoop mapreduce

Tillåter programmerare att ansluta anpassade mappar och reducerare.
Har datalagerinfrastruktur.
Ger verktyg för att möjliggöra enkel data ETL.
Definierar SQL-liknande frågespråk som heter QL.

Användningsfall för Apache Hive - Facebook:

Hive Use Case - Facebook

Innan Facebook implementerade Hive stod Facebook inför många utmaningar eftersom storleken på data som genererades ökade eller snarare exploderade, vilket gjorde det riktigt svårt att hantera dem. Den traditionella RDBMS klarade inte pressen och som ett resultat såg Facebook efter bättre alternativ. För att lösa detta överhängande problem försökte Facebook initialt att använda Hadoop MapReduce, men med svårigheter att programmera och obligatorisk kunskap i SQL gjorde det till en opraktisk lösning. Hive tillät dem att övervinna de utmaningar de stod inför.

Med Hive kan de nu utföra följande:

Bord kan delas upp och skopas
Schema flexibilitet och utveckling
JDBC / ODBC-drivrutiner finns tillgängliga
Hive-tabeller kan definieras direkt i HDFS
Extensible - Typer, format, funktioner och skript

Användningsfall för bikupor inom sjukvården:

Var ska jag använda bikupan?

Apache Hive kan användas på följande platser:

Data Mining
Loggbehandling
Dokumentindexering
Kundinriktad affärsinformation
Prediktiv modellering
Hypotes Testing

Hive Arkitektur:

Hive består av följande huvudkomponenter:

Metastore - För att lagra metadata.
JDBC / ODBC - Query Compiler and Execution Engine för att konvertera SQL-frågor till en sekvens av MapReduce.
SerDe och ObjectInspectors - För dataformat och typer.
UDF / UDAF - För användardefinierade funktioner.
Kunder - Liknar MySQL-kommandoraden och ett webbgränssnitt.

Komponenter i bikupan:

Metastore:

Metastore lagrar informationen om tabellerna, partitionerna, kolumnerna i tabellerna. Det finns tre sätt att lagra i Metastore: Embedded Metastore, Local Metastore och Remote Metastore. För det mesta kommer Remote Metastore att användas i produktionsläge.

hur man installerar php på windows

Begränsningar av bikupan:

Hive har följande begränsningar och kan inte användas under sådana omständigheter:

Inte utformad för online-transaktionsbehandling.
Ger acceptabel latens för interaktiv datasökning.
Erbjuder inte frågor i realtid och uppdateringar på radnivå.
Latency för Hive-frågor är i allmänhet mycket hög.

Har du en fråga till oss? Nämn dem i kommentarfältet så återkommer vi till dig.

Relaterade inlägg:

Hive-kommandon

Introduktion till Apache Hive

Apache Hive är ett Data Warehousing-paket byggt ovanpå Hadoop och används för dataanalys. Hive riktar sig till användare som är bekväma med SQL.

Användningsfall för Apache Hive - Facebook:

Användningsfall för bikupor inom sjukvården:

Var ska jag använda bikupan?

Hive Arkitektur:

Komponenter i bikupan:

Begränsningar av bikupan:

Kategorier

Popular Articles

Hur konverterar jag matrislista till matris i Java

Allt du behöver veta om Tom PHP

Vad är Azure? - En introduktion till Microsoft Azure Cloud

Vad är AngularJS Bootstrap och hur man använder det praktiskt?

Vad är HTML-metataggar? Är det verkligen nödvändigt?

Vad är ett index i SQL?

Vad är skillnaden mellan metodöverbelastning och överstyrning?

Allt du behöver veta om identifierare i Java

Maven Tutorial: Allt du behöver veta för att komma igång

Ansible Tutorial - Lär dig att skriva Ansible Playbooks

Hur man implementerar BlockingQueue-gränssnittet i Java

Hur startar jag en EC2-instans från en anpassad AMI?