Drilling Down On Apache Drill, New-Age Query Engine



Den här Apache Drill-handboken ger dig all information du behöver för att komma igång med Apache Drill-frågemotorn, användning med Hadoop, Big Data & Apache Spark.

Apache Drill är branschens första schemafria SQL Engine. Drill är inte världens första frågemotor, men det är den första som hittar den fina balansen mellan flexibilitet och hastighet. Drill är utformad för att skala till flera tusen noder och fråga petabyte med data med interaktiva hastigheter som BI / Analytics-miljöer kräver.





Det kan integreras med flera datakällor som Hive, HBase, MongoDB, filsystem, RDBMS. Inmatningsformat som Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence-filer och många andra kan också användas i Drill med lätthet.

Varför Apache Drill?

Den största fördelen med Apache Drill är att den kan upptäcka schemat i farten när du frågar efter data. Dessutom kan det fungera med dina BI-verktyg som Tableau, Qlikview, MicroStrategy etc för bättre analys.



Här är ett citat från en branschanalytiker som sammanfattar värdet av Apache Drill:

”Drill handlar inte bara om SQL-on-Hadoop. Det handlar om SQL-on-pretty-much-anything, omedelbart och utan formalitet. ”

- Andrew Burst, Gigaom Research, januari 2015



Drillbit är Apache Drills daemon som körs på varje nod i klustret. Den använder ZooKeeper för all kommunikation i kluster- och maintaisn-klustermedlemskapet. Det ansvarar för att acceptera förfrågningar från klienten, bearbeta frågorna och skicka resultat till klienten. Drillbiten som tar emot begäran från klienten kallas ”förman”. Den genererar körplanen, körningsfragmenten skickas till andra drillbits som körs i klustret.

Drillbits-Apache-Drill

En ytterligare fördel är att installationen och installationen av borren är ganska enkel. Låt oss lära oss att installera Apache Drill.

Det första steget är att ladda ner borrpaketet.

hur man initierar ett objekt i python

Kommando: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Kommando: tjära -xvf apache-drill-1.5.0.tar.gz

Kommando: ls

Ställ sedan in miljövariablerna i .bashrc-filen.

Kommando: sudo gedit .bashrc

exportera DRILL_HOME = / home / edureka / apache-drill-1.5.0

exportera PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Detta kommando uppdaterar ändringarna:

Kommando: källa .bashrc

Gå nu till drill conf-katalogen och redigera drill-override.conf-filen med kluster-id och zookeeper-värd och port, vi kör den på ett lokalt kluster.

Kommando: cd apache-drill-1.5.0

Kommando: sudo gedit conf / drill-override.conf

Som standard kommer DRILL_MAX_DIRECT_MEMORY att vara 8 GB i drill-env.sh, och vi måste behålla det enligt det minne vi har.

Kommando: sudo gedit conf / drill-env.sh

För att installera drill endast i en enda nod kan du använda inbäddat läge, där det körs lokalt. Det startar automatiskt drillbit-tjänsten när du kör det här kommandot.

Kommando: ./fack / borrinbäddad

Du kan köra en enkel fråga för att kontrollera installationen.

Kommando: välj * från sys.optioner WHERE typ = ‘SYSTEM’ och namn som “säkerhet%”

För att kontrollera webbkonsolen för Apache Drill måste vi gå till localhost: 8047 i webbläsaren.

Du kan också köra din fråga från fliken Fråga.

För att köra drill i distribuerat läge måste du redigera kluster-ID och lägga till ZooKeeper-information i drill-override.conf enligt nedan.

Då måste vi starta ZooKeeper-tjänsten på varje nod. Därefter måste du starta drillbit-tjänsten på varje nod med det här kommandot.

Kommando: ./bin/drillbit.sh start

Kommando: jps

hur man kontrollerar palindrom i java

Nu använder vi kommandot nedan för att starta borrskalet.

Nu kan vi utföra våra frågor på klustret i distribuerat läge.

Detta är det första blogginlägget i en tvådelad Apache Drill-bloggserie. Den andra bloggen i serien kommer snart.

Har du en fråga till oss? Nämn dem i kommentarsektionen så återkommer vi till dig.

Relaterade inlägg:

Borra ner på Apache Drill del 2

Apache Spark mot Hadoop MapReduce