Hive-datamodeller



Hive-datamodellerna innehåller följande komponenter som databaser, tabeller, partitioner och skopor eller kluster.Hive stöder primitiva typer som heltal, flottör, dubbel och strängar.

Hive är ett datalagersystem för Hadoop som underlättar enkel datasammanfattning, ad hoc-frågor och analys av stora datamängder som lagras i Hadoop-kompatibla filsystem. Hive strukturerar data i väl förstådda databaskoncept som tabeller, rader, kolumner och partitioner. Den stöder primitiva typer som heltal, flottör, dubbel och strängar. Hive stöder också Associative Arrays, Lists, Structs, och Serialize och Deserialized API används för att flytta data in och ut ur tabeller.





r maskininlärning som exempel

Låt oss titta på Hive-datamodeller i detalj

Hive-datamodeller:

Hive-datamodellerna innehåller följande komponenter:



  • Databaser
  • Tabeller
  • Partitioner
  • Skopor eller kluster

Partitioner:

Partition betyder att dela en tabell i grovkornade delar baserat på värdet av en partitionskolumn, till exempel ”data”. Detta gör det snabbare att göra frågor på dataskivor

python __init__

Hive-datamodeller

Så, vad är funktionen för partition? Partitionstangenterna bestämmer hur data lagras. Här definierar varje unikt värde i partitionsnyckeln en partition av tabellen. Partitionerna är uppkallade efter datum för bekvämlighet. Det liknar 'Block Splitting' i HDFS.



Skopor:

Skopor ger extra struktur för de data som kan användas för effektiva frågor. En sammanfogning av två tabeller som läggs i samma kolumner, inklusive kopplingskolumnen, kan implementeras som en kopplingssida på kartan. Bucketing med använt ID innebär att vi snabbt kan utvärdera en användarbaserad fråga genom att köra den på ett randomiserat urval av den totala uppsättningen användare.

Har du en fråga till oss? Vänligen nämna dem i kommentarfältet så återkommer vi till dig.

Relaterade inlägg:

vad är en blockchain-utvecklare?

Hjälpsamma bikupekommandon