Hive är ett datalagersystem för Hadoop som underlättar enkel datasammanfattning, ad hoc-frågor och analys av stora datamängder som lagras i Hadoop-kompatibla filsystem. Hive strukturerar data i väl förstådda databaskoncept som tabeller, rader, kolumner och partitioner. Den stöder primitiva typer som heltal, flottör, dubbel och strängar. Hive stöder också Associative Arrays, Lists, Structs, och Serialize och Deserialized API används för att flytta data in och ut ur tabeller.
r maskininlärning som exempel
Låt oss titta på Hive-datamodeller i detalj
Hive-datamodeller:
Hive-datamodellerna innehåller följande komponenter:
- Databaser
- Tabeller
- Partitioner
- Skopor eller kluster
Partitioner:
Partition betyder att dela en tabell i grovkornade delar baserat på värdet av en partitionskolumn, till exempel ”data”. Detta gör det snabbare att göra frågor på dataskivor
python __init__
Så, vad är funktionen för partition? Partitionstangenterna bestämmer hur data lagras. Här definierar varje unikt värde i partitionsnyckeln en partition av tabellen. Partitionerna är uppkallade efter datum för bekvämlighet. Det liknar 'Block Splitting' i HDFS.
Skopor:
Skopor ger extra struktur för de data som kan användas för effektiva frågor. En sammanfogning av två tabeller som läggs i samma kolumner, inklusive kopplingskolumnen, kan implementeras som en kopplingssida på kartan. Bucketing med använt ID innebär att vi snabbt kan utvärdera en användarbaserad fråga genom att köra den på ett randomiserat urval av den totala uppsättningen användare.
Har du en fråga till oss? Vänligen nämna dem i kommentarfältet så återkommer vi till dig.
Relaterade inlägg:
vad är en blockchain-utvecklare?