Apache Flink: Nästa generations Big Data Analytics-ramverk för databehandling av ström och batch



Lär dig allt om Apache Flink och skapa ett Flink-kluster i den här bloggen. Flink stöder realtids- och batchbehandling och är ett måste för Big Data-teknik för Big Data Analytics.

Apache Flink är en öppen källkodsplattform för databehandling av distribuerad ström och batch. Den kan köras på Windows, Mac OS och Linux OS. I det här blogginlägget ska vi diskutera hur du konfigurerar Flink-kluster lokalt. Det liknar Spark på många sätt - det har API: er för graf- och maskininlärningsprocesser som Apache Spark - men Apache Flink och Apache Spark är inte exakt samma.





För att ställa in Flink-kluster måste du ha Java 7.x eller högre installerat på ditt system. Eftersom jag har installerat Hadoop-2.2.0 i slutet på CentOS (Linux) har jag laddat ner Flink-paketet som är kompatibelt med Hadoop 2.x. Kör under kommandot för att ladda ner Flink-paketet.

Kommando: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Ta bort filen för att få flink-katalogen.

Kommando: tar -xvf Nedladdningar / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Kommando: ls

Lägg till Flink-miljövariabler i .bashrc-filen.

Kommando: sudo gedit .bashrc

c ++ sorteringsmatris i stigande ordning

Du måste köra kommandot nedan så att ändringarna i .bashrc-filen aktiveras

Kommando: källa .bashrc

Gå nu till flink-katalogen och starta klustret lokalt.

Kommando: cd hefty-1.0.0

Kommando: bin / start-local.sh

När du har startat klustret kommer du att kunna se en ny daemon JobManager som körs.

Kommando: jps

hur man klonar objekt i Java

Öppna webbläsaren och gå till http: // localhost: 8081 för att se Apache Flink webbgränssnitt.

Låt oss köra ett enkelt ordräkningsexempel med Apache Flink.

Innan du kör exemplet installerar du netcat på ditt system (sudo yum install nc).

Kör nu kommandot nedan i en ny terminal.

Kommando: nc -lk 9000

Kör kommandot nedan i flinkterminalen. Detta kommando kör ett program som tar den streamade datan som inmatning och utför ordräkningsåtgärder på den streamade data.

Kommando: bin / flink run-exempel / streaming / SocketTextStreamWordCount.jar – värdnamn localhost –port 9000

På webbgränssnittet kommer du att kunna se ett jobb i driftläge.

Kör under kommandot i en ny terminal, detta kommer att skriva ut data som streamas och bearbetas.

Kommando: tail -f log / flink - * - jobmanager - *. ut

Gå nu till terminalen där du startade netcat och skriv något.

I det ögonblick du trycker på Enter-knappen på ditt nyckelord efter att du har skrivit in data på netcat-terminalen kommer ordräkningen att användas på dessa data och utskriften kommer att skrivas ut här (flink's jobmanager log) inom millisekunder!

Inom en mycket kort tidsperiod kommer data att streamas, bearbetas och skrivas ut.

Det finns mycket mer att lära sig om Apache Flink. Vi kommer att beröra andra Flink-ämnen i vår kommande blogg.

tablå desktop 9 kvalificerad medarbetare

Har du en fråga till oss? Nämn dem i kommentarsektionen så återkommer vi till dig.

Relaterade inlägg:

Apache Falcon: Ny datahanteringsplattform för Hadoop-ekosystemet