APACHE FLINK: NÄSTA GENERATIONS BIG DATA ANALYTICS FRAMEWORK

Apache Flink är en öppen källkodsplattform för databehandling av distribuerad ström och batch. Den kan köras på Windows, Mac OS och Linux OS. I det här blogginlägget ska vi diskutera hur du konfigurerar Flink-kluster lokalt. Det liknar Spark på många sätt - det har API: er för graf- och maskininlärningsprocesser som Apache Spark - men Apache Flink och Apache Spark är inte exakt samma.

För att ställa in Flink-kluster måste du ha Java 7.x eller högre installerat på ditt system. Eftersom jag har installerat Hadoop-2.2.0 i slutet på CentOS (Linux) har jag laddat ner Flink-paketet som är kompatibelt med Hadoop 2.x. Kör under kommandot för att ladda ner Flink-paketet.

Kommando: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Command-Apache-Flink

Ta bort filen för att få flink-katalogen.

Kommando: tar -xvf Nedladdningar / flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Kommando: ls

Lägg till Flink-miljövariabler i .bashrc-filen.

Kommando: sudo gedit .bashrc

c ++ sorteringsmatris i stigande ordning

Du måste köra kommandot nedan så att ändringarna i .bashrc-filen aktiveras

Kommando: källa .bashrc

Gå nu till flink-katalogen och starta klustret lokalt.

Kommando: cd hefty-1.0.0

Kommando: bin / start-local.sh

När du har startat klustret kommer du att kunna se en ny daemon JobManager som körs.

Kommando: jps

hur man klonar objekt i Java

Öppna webbläsaren och gå till http: // localhost: 8081 för att se Apache Flink webbgränssnitt.

Låt oss köra ett enkelt ordräkningsexempel med Apache Flink.

Innan du kör exemplet installerar du netcat på ditt system (sudo yum install nc).

Kör nu kommandot nedan i en ny terminal.

Kommando: nc -lk 9000

Kör kommandot nedan i flinkterminalen. Detta kommando kör ett program som tar den streamade datan som inmatning och utför ordräkningsåtgärder på den streamade data.

Kommando: bin / flink run-exempel / streaming / SocketTextStreamWordCount.jar – värdnamn localhost –port 9000

På webbgränssnittet kommer du att kunna se ett jobb i driftläge.

Kör under kommandot i en ny terminal, detta kommer att skriva ut data som streamas och bearbetas.

Kommando: tail -f log / flink - * - jobmanager - *. ut

Gå nu till terminalen där du startade netcat och skriv något.

I det ögonblick du trycker på Enter-knappen på ditt nyckelord efter att du har skrivit in data på netcat-terminalen kommer ordräkningen att användas på dessa data och utskriften kommer att skrivas ut här (flink's jobmanager log) inom millisekunder!

Inom en mycket kort tidsperiod kommer data att streamas, bearbetas och skrivas ut.

Det finns mycket mer att lära sig om Apache Flink. Vi kommer att beröra andra Flink-ämnen i vår kommande blogg.

tablå desktop 9 kvalificerad medarbetare

Har du en fråga till oss? Nämn dem i kommentarsektionen så återkommer vi till dig.

Relaterade inlägg:

Apache Falcon: Ny datahanteringsplattform för Hadoop-ekosystemet

Apache Flink: Nästa generations Big Data Analytics-ramverk för databehandling av ström och batch

Lär dig allt om Apache Flink och skapa ett Flink-kluster i den här bloggen. Flink stöder realtids- och batchbehandling och är ett måste för Big Data-teknik för Big Data Analytics.

Kategorier

Popular Articles

Länkad lista i C: Hur implementerar jag en länkad lista i C?

Scrum vs Agile: Vad är skillnaden?

8 skäl att lära sig PMI-ACP

Vad är kock? - Ett verktyg som används för konfigurationshantering

Puppet Tutorial - One Stop Solution For Configuration Management

Allt du behöver veta om egenskaper i PHP

Olika typer av blockchain och varför vi behöver dem

World Cup 2018: 5 Game Changing Technologies in Football

Hur implementerar jag valssortering i Java?

Topp 10 fördelar med artificiell intelligens

Hur installerar jag PHP på Windows?

DevOps är varken en metod eller ett verktyg, det är en kultur