Toppkommunikommandon med exempel i HQL



Den här bloggen diskuterar Hive-kommandon med exempel i HQL. SKAPA, DROP, TRUNCATE, ALTER, SHOW, BESKRIV, ANVÄND, LADDA, INSÄTTA, GÅ MED och många fler Hive-kommandon

I det här blogginlägget ska vi diskutera de bästa Hive-kommandona med exempel. Dessa Hive-kommandon är mycket viktiga att skapa grunden för .

Edureka 2019 Tech Career Guide är ute! De hetaste jobbrollerna, exakta inlärningsvägar, industrisyn och mer i guiden. Ladda ner nu.

Vad är Hive?

Apache Hive är ett datalagersystem som är byggt för att fungera på Hadoop. Den används för att fråga och hantera stora datamängder som finns i distribuerad lagring. Innan hon blev ett open source-projekt av Apache Hadoop, har Hive sitt ursprung i Facebook. Det tillhandahåller en mekanism för att projicera strukturen på data i Hadoop och att fråga dessa data med ett SQL-liknande språk som heter HiveQL (HQL).





Hive används för att tabellerna i Hive liknar tabeller i en relationsdatabas. Om du är bekant med SQL är det en cakewalk. Många användare kan samtidigt fråga informationen med Hive-QL.

Vad är HQL?

Hive definierar ett enkelt SQL-liknande frågespråk för att fråga och hantera stora datamängder som kallas Hive-QL (HQL). Det är enkelt att använda om du känner till SQL Language. Hive tillåter programmerare som är bekanta med språket att skriva det anpassade MapReduce-ramverket för att utföra mer sofistikerad analys.



Användning av bikupa:

1. Apache Hive distribuerad lagring.

2. Hive tillhandahåller verktyg för att möjliggöra enkel datauttag / omvandling / belastning (ETL)

3. Den tillhandahåller strukturen i en mängd olika dataformat.



4. Genom att använda Hive kan vi komma åt filer som är lagrade i Hadoop Distribuerade filsystem (HDFS används för att fråga och hantera stora datamängder som finns i) eller i andra datalagringssystem som Apache HBase.

Begränsningar av bikupan:

& bull Hive är inte designat för online-transaktionsbehandling (OLTP), det används endast för online analytisk bearbetning.

& bull Hive stöder överskrivning eller gripande av data, men inte uppdateringar och raderingar.

& bull I Hive stöds inte underfrågor.

Varför används Hive trots Pig?

Följande är anledningarna till att Hive används trots Pigs tillgänglighet:

  • Hive-QL är en deklarativ språkrad SQL, PigLatin är ett dataflödespråk.
  • Gris: ett dataflöde språk och miljö för att utforska mycket stora datamängder.
  • Hive: ett distribuerat datalager.

Komponenter i bikupan:

Metastore:

Hive lagrar schemat för Hive-tabellerna i en Hive Metastore. Metastore används för att hålla all information om de tabeller och partitioner som finns i lagret. Som standard körs metastore i samma process som Hive-tjänsten och standardmetastore är DerBy Database.

SerDe:

Serializer, Deserializer ger instruktioner om hur man behandlar en post.

Hive-kommandon:

Datadefinitionsspråk (DDL)

DDL-uttalanden används för att bygga och modifiera tabeller och andra objekt i databasen.

DDL-kommando Fungera
SKAPA Den används för att skapa en tabell eller databas
SHOW Den används för att visa databas, tabell, egenskaper osv
ÅLDER Den används för att göra ändringar i den befintliga tabellen
BESKRIVA Den beskriver tabellkolumnerna
STYMPA Används för att permanent avkorta och ta bort tabellraderna
RADERA Raderar tabelldata, men kan återställas

Gå till Hive-skalet genom att ge kommandot sudo-bikupan och ange kommandot 'skapa databas namn> ’ för att skapa den nya databasen i bikupan.

Skapa Hive-databas med hjälp av Hive-kommandon

För att lista ut databaserna i Hive-lageret anger du kommandot ” visa databaser ”.

Databasen skapas på en standardplats för Hive-lagret. I Cloudera lagrar Hive-databasen i en / användare / bikupa / lager.

Kommandot att använda databasen är ANVÄNDA SIG AV

Kopiera ingångsdata till HDFS från lokal med kommandot kopia från lokalt.

hur konverterar man dubbel till int

När vi skapar en tabell i bikupan skapas den på standardplatsen för bikupelagret. - “/ user / hive / warehouse”, efter skapandet av tabellen kan vi flytta data från HDFS till bikupetabell.

Följande kommando skapar en tabell med platsen “/user/hive/warehouse/retail.db”

Notera : retail.db är databasen som skapats i Hive-lagret.

Beskriva ger information om schemat i tabellen.

Data Manipulation Language (DML)

DML-uttalanden används för att hämta, lagra, modifiera, radera, infoga och uppdatera data i databasen.

Exempel:

LOAD, INSERT Uttalanden.

Syntax:

LOAD data inpath in table [tablename]

Load-operationen används för att flytta data till motsvarande Hive-tabell. Om nyckelordet lokal är specificerat, kommer sedan i lastkommandot att ge den lokala filsystemets sökväg. Om nyckelordet local inte anges måste vi använda HDFS-sökvägen för filen.

Här är några exempel på kommandot LOAD data LOCAL

Efter att ha laddat in data i Hive-tabellen kan vi använda Data Manipulation Statements eller aggregerade funktioner hämta data.

Exempel för att räkna antalet poster:

Räknar aggregerad funktion används räkna det totala antalet poster i en tabell.

'Skapa extern' tabell:

De skapa externt nyckelord används för att skapa en tabell och ger en plats där tabellen kommer att skapas, så att Hive inte använder en standardplats för den här tabellen. Ett EXTERN tabellen pekar på vilken HDFS-plats som helst för dess lagring, snarare än standardlagring.

vad är flera arv i Java

Infoga kommando:

De Föra in kommandot används för att ladda datatabellen. Inlägg kan göras till en tabell eller en partition.

& bull INSERT OVERWRITE används för att skriva över befintliga data i tabellen eller partitionen.

& bull INSERT INTO används för att lägga till data i befintlig data i en tabell. (Obs: INSERT INTO syntax är arbete från version 0.8)

Exempel på kommandot 'Partitioned By' och 'Clustered By':

”Delad av 'Används för att dela upp bordet i partitionen och kan delas in i skopor med hjälp av' Clustered By 'Kommando.

När vi infogar data Hive-kastfel är det dynamiska partitionsläget strikt och dynamisk partition inte aktiverad (av Jeffdresshead webbplats ). Så vi måste ställa in följande parametrar i Hive-skal.

ställa in hive.exec.dynamic.partition = true

För att aktivera dynamiska partitioner är det som standard falskt

ställa in hive.exec.dynamic.partition.mode = icke-strikt

Partitionering görs efter kategori och kan delas in i skopor med kommandot 'Clustered By'.

Uttrycket 'Drop Table' tar bort data och metadata för en tabell. När det gäller externa tabeller raderas endast metadata.

Uttrycket 'Drop Table' tar bort data och metadata för en tabell. När det gäller externa tabeller raderas endast metadata.

Ladda data lokal inpath 'aru.txt' i tabellnamn och sedan kontrollerar vi medarbetare1-tabellen med hjälp av Välj * från kommandot tabellnamn

För att räkna antalet poster i tabellen med hjälp av Välj räkna(*) från txnrecords

Aggregering:

Välj antal (DISTINCT-kategori) från tabellnamn

Detta kommando räknar den olika kategorin i tabellen 'cate'. Här finns tre olika kategorier.

Anta att det finns en annan tabellkate där f1 är fältnamnet på kategorin.

Gruppering:

Gruppkommando används för att gruppera resultatuppsättningen med en eller flera kolumner.

Välj kategori, summa (belopp) från txt-poster grupp för kategori

Den beräknar mängden av samma kategori.

Resultatet en tabell lagras i en annan tabell.

Skapa tabellnamnnamn som välj * från gammaltabellnamn

vad är sammanhangsfilter i tablå

Gå med i kommandot:

Här skapas ytterligare en tabell i namnet 'Mails'

Gå med i operationen :

En anslutningsoperation utförs för att kombinera fält från två tabeller genom att använda värden som är gemensamma för var och en.

Vänster yttre anslutning :

Resultatet av en vänster yttre koppling (eller helt enkelt vänster koppling) för tabellerna A och B innehåller alltid alla poster för 'vänster' tabellen (A), även om kopplingsvillkoret inte hittar någon matchande post i tabellen 'rätt' (B).

Höger yttre anslutning :

En höger yttre koppling (eller höger koppling) liknar en vänster yttre koppling, förutom med omvänd behandling av borden. Varje rad från 'höger' -tabellen (B) visas i den sammanfogade tabellen minst en gång.

Fullständig anslutning :

Den sammanfogade tabellen kommer att innehålla alla poster från båda tabellerna och fylla i NULL för saknade matchningar på vardera sidan.

När du väl är klar med bikupan kan vi använda quit-kommandot för att lämna bikupan.

Avslutar från bikupan

Hive är bara en del av det stora pusslet som heter Big Data och Hadoop. Hadoop är mycket mer än bara Hive. Klicka nedan för att se vilka andra färdigheter du bör behärska i Hadoop.

Har du en fråga till oss? Vänligen nämna det i kommentarfältet så återkommer vi till dig.

Relaterade inlägg:

7 sätt Big Data Training kan förändra din organisation

Hive-datamodeller