Introduktion till Apache Hive

Apache Hive är ett Data Warehousing-paket byggt ovanpå Hadoop och används för dataanalys. Hive riktar sig till användare som är bekväma med SQL.

Apache Hive är ett Data Warehousing-paket byggt ovanpå Hadoop och används för dataanalys. Hive riktar sig till användare som är bekväma med SQL. Det liknar SQL och kallas HiveQL, används för att hantera och fråga frågor om strukturerad data. Apache Hive används för att abstrakta Hadoops komplexitet. Det här språket gör det också möjligt för traditionella kart- / reduceringsprogrammerare att ansluta sina anpassade mappar och reducerare. Det populära med Hive är att det inte finns något behov av att lära sig Java.





Hive, ett ramverk för datalagring med öppen källkod för peta-byte-skala baserat på Hadoop, utvecklades av Data Infrastructure Team på Facebook. Hive är också en av de tekniker som används för att tillgodose kraven på Facebook. Hive är mycket populärt bland alla användare internt på Facebook och används för att köra tusentals jobb på klustret med hundratals användare för ett brett utbud av applikationer. Hive-Hadoop-klustret på Facebook lagrar mer än 2PB rådata och laddar regelbundet 15 TB data dagligen.

Låt oss titta på några av dess funktioner som gör den populär och användarvänlig:



apache gnista jämfört med hadoop mapreduce
  • Tillåter programmerare att ansluta anpassade mappar och reducerare.
  • Har datalagerinfrastruktur.
  • Ger verktyg för att möjliggöra enkel data ETL.
  • Definierar SQL-liknande frågespråk som heter QL.

Användningsfall för Apache Hive - Facebook:

Hive Use Case - Facebook

Innan Facebook implementerade Hive stod Facebook inför många utmaningar eftersom storleken på data som genererades ökade eller snarare exploderade, vilket gjorde det riktigt svårt att hantera dem. Den traditionella RDBMS klarade inte pressen och som ett resultat såg Facebook efter bättre alternativ. För att lösa detta överhängande problem försökte Facebook initialt att använda Hadoop MapReduce, men med svårigheter att programmera och obligatorisk kunskap i SQL gjorde det till en opraktisk lösning. Hive tillät dem att övervinna de utmaningar de stod inför.

Med Hive kan de nu utföra följande:



  • Bord kan delas upp och skopas
  • Schema flexibilitet och utveckling
  • JDBC / ODBC-drivrutiner finns tillgängliga
  • Hive-tabeller kan definieras direkt i HDFS
  • Extensible - Typer, format, funktioner och skript

Användningsfall för bikupor inom sjukvården:

Var ska jag använda bikupan?

Apache Hive kan användas på följande platser:

  • Data Mining
  • Loggbehandling
  • Dokumentindexering
  • Kundinriktad affärsinformation
  • Prediktiv modellering
  • Hypotes Testing

Hive Arkitektur:

Hive består av följande huvudkomponenter:

  • Metastore - För att lagra metadata.
  • JDBC / ODBC - Query Compiler and Execution Engine för att konvertera SQL-frågor till en sekvens av MapReduce.
  • SerDe och ObjectInspectors - För dataformat och typer.
  • UDF / UDAF - För användardefinierade funktioner.
  • Kunder - Liknar MySQL-kommandoraden och ett webbgränssnitt.

Komponenter i bikupan:

Metastore:

Metastore lagrar informationen om tabellerna, partitionerna, kolumnerna i tabellerna. Det finns tre sätt att lagra i Metastore: Embedded Metastore, Local Metastore och Remote Metastore. För det mesta kommer Remote Metastore att användas i produktionsläge.

hur man installerar php på windows

Begränsningar av bikupan:

Hive har följande begränsningar och kan inte användas under sådana omständigheter:

  • Inte utformad för online-transaktionsbehandling.
  • Ger acceptabel latens för interaktiv datasökning.
  • Erbjuder inte frågor i realtid och uppdateringar på radnivå.
  • Latency för Hive-frågor är i allmänhet mycket hög.

Har du en fråga till oss? Nämn dem i kommentarfältet så återkommer vi till dig.

Relaterade inlägg:

Hive-kommandon