Apache Drill är branschens första schemafria SQL Engine. Drill är inte världens första frågemotor, men det är den första som hittar den fina balansen mellan flexibilitet och hastighet. Drill är utformad för att skala till flera tusen noder och fråga petabyte med data med interaktiva hastigheter som BI / Analytics-miljöer kräver.
Det kan integreras med flera datakällor som Hive, HBase, MongoDB, filsystem, RDBMS. Inmatningsformat som Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence-filer och många andra kan också användas i Drill med lätthet.
Varför Apache Drill?
Den största fördelen med Apache Drill är att den kan upptäcka schemat i farten när du frågar efter data. Dessutom kan det fungera med dina BI-verktyg som Tableau, Qlikview, MicroStrategy etc för bättre analys.
Här är ett citat från en branschanalytiker som sammanfattar värdet av Apache Drill:
”Drill handlar inte bara om SQL-on-Hadoop. Det handlar om SQL-on-pretty-much-anything, omedelbart och utan formalitet. ”
- Andrew Burst, Gigaom Research, januari 2015
Drillbit är Apache Drills daemon som körs på varje nod i klustret. Den använder ZooKeeper för all kommunikation i kluster- och maintaisn-klustermedlemskapet. Det ansvarar för att acceptera förfrågningar från klienten, bearbeta frågorna och skicka resultat till klienten. Drillbiten som tar emot begäran från klienten kallas ”förman”. Den genererar körplanen, körningsfragmenten skickas till andra drillbits som körs i klustret.
En ytterligare fördel är att installationen och installationen av borren är ganska enkel. Låt oss lära oss att installera Apache Drill.
Det första steget är att ladda ner borrpaketet.
hur man initierar ett objekt i python
Kommando: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
Kommando: tjära -xvf apache-drill-1.5.0.tar.gz
Kommando: ls
Ställ sedan in miljövariablerna i .bashrc-filen.
Kommando: sudo gedit .bashrc
exportera DRILL_HOME = / home / edureka / apache-drill-1.5.0
exportera PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin
Detta kommando uppdaterar ändringarna:
Kommando: källa .bashrc
Gå nu till drill conf-katalogen och redigera drill-override.conf-filen med kluster-id och zookeeper-värd och port, vi kör den på ett lokalt kluster.
Kommando: cd apache-drill-1.5.0
Kommando: sudo gedit conf / drill-override.conf
Som standard kommer DRILL_MAX_DIRECT_MEMORY att vara 8 GB i drill-env.sh, och vi måste behålla det enligt det minne vi har.
Kommando: sudo gedit conf / drill-env.sh
För att installera drill endast i en enda nod kan du använda inbäddat läge, där det körs lokalt. Det startar automatiskt drillbit-tjänsten när du kör det här kommandot.
Kommando: ./fack / borrinbäddad
Du kan köra en enkel fråga för att kontrollera installationen.
Kommando: välj * från sys.optioner WHERE typ = ‘SYSTEM’ och namn som “säkerhet%”
För att kontrollera webbkonsolen för Apache Drill måste vi gå till localhost: 8047 i webbläsaren.
Du kan också köra din fråga från fliken Fråga.
För att köra drill i distribuerat läge måste du redigera kluster-ID och lägga till ZooKeeper-information i drill-override.conf enligt nedan.
Då måste vi starta ZooKeeper-tjänsten på varje nod. Därefter måste du starta drillbit-tjänsten på varje nod med det här kommandot.
Kommando: ./bin/drillbit.sh start
Kommando: jps
hur man kontrollerar palindrom i java
Nu använder vi kommandot nedan för att starta borrskalet.
Nu kan vi utföra våra frågor på klustret i distribuerat läge.
Detta är det första blogginlägget i en tvådelad Apache Drill-bloggserie. Den andra bloggen i serien kommer snart.
Har du en fråga till oss? Nämn dem i kommentarsektionen så återkommer vi till dig.
Relaterade inlägg: