Big Data och ETL är familjen



I den här bloggen kommer vi att se förhållandet mellan Big Data och ETL. Talend är verktyget som används i stor utsträckning för att ansluta Big Data och ETL.

Big Data har verkligen blivit tillräckligt hypad under senare tid, så som de skickliga yrkesverksamma som kommer med kunskap om det. Att inte använda dina primära färdigheter och börja från noll är inte alltid ett enkelt jobb. Att använda dina fyrkantiga snitt och anpassa dig till studsarna gör dock underverk för dig. Bingo, vi pratar om att lära sig Big Data med ETL-teknik.





ETL-utvecklare som utformar arbetsflöden för datatransformation kan mycket väl använda verktyg och översätta arbetsflöden till Hadoop-jobb. Hadoop är en öppen källkodsram som används i stor utsträckning för att bearbeta BigData med MapReduce-programmet (vilket är en annan öppen källkodsteknik som hjälper till att bearbeta stora mängder data på Hadoop). För det mesta kan det vara utmanande att hitta skickliga resurser i Big Data.

Om en ETL-utvecklare måste hitta de IP-adresser som har gjort mer än en miljon förfrågningar på bankens webbplats, måste han skriva ett MapReduce-jobb som behandlar webbloggdata som lagras i Hadoop . Med framstegen inom ETL-teknik kan en jobbutvecklare dock använda ETL-standardverktygen för att skapa ett ETL-flöde som kan läsa data från flera källor i Hadoop (Files, Hive, HBase), gå med, aggregera, filtrera och transformera data för att hitta ett svar på frågan om IP-adresser.



omfångsupplösningsoperatör c ++

Talend är det enda grafiska användargränssnittsverktyget som är tillräckligt kapabelt för att 'översätta' ett ETL-jobb till ett MapReduce-jobb. Således utförs Talend ETL-jobb som ett MapReduce-jobb på Hadoop och får stora datarbetet gjort på några minuter. Detta är en nyckelinnovation som hjälper till att minska inträdesbarriärerna i Big Data-teknik och gör det möjligt för ETL-jobbutvecklare (nybörjare och avancerade) att i större utsträckning utföra Data Warehouse-avlastning.

Livet i Big Data-staden är mycket lättare med Talend runt

Ett grafiskt abstraktionsskikt ovanpå Hadoop-applikationer - detta gör livet så mycket enklare i Big Data-världen.



Vad Talend har att säga: ”I linje med vår historia som innovatör och ledare inom open source-dataintegration är Talend den första leverantören som erbjuder en ren öppen källkodslösning för att möjliggöra stor dataintegration . Talend Open Studio för Big Data, genom att lägga till en lättanvänd grafisk utvecklingsmiljö ovanpå kraftfulla Hadoop-applikationer, gör hantering av stora data tillgänglig för fler företag och fler utvecklare än någonsin tidigare.

Med sin eclipse-baserade grafiska arbetsyta möjliggör Talend Open Studio för Big Data utvecklare och datavetare att utnyttja Hadoop-laddning och bearbetningsteknik som HDFS, HBase, Hive och Pig utan att behöva skriva Hadoop-ansökan koda. Genom att helt enkelt välja grafiska komponenter från en palett, ordna och konfigurera dem kan du skapa Hadoop-jobb. Till exempel:

  1. Ladda data till HDFS (Hadoop Distribuerat filsystem)
  2. Använda sig av Hadoop Pig för att transformera data i HDFS
  3. Ladda data i en Hadoop Hive baserat datalager
  4. Utför ELT (extrahera, ladda, transformera) aggregeringar i Hive
  5. Inflytande Sqoop att integrera relationsdatabaser och Hadoop

Hadoop-applikationer, sömlöst integrerade inom några minuter med Talend.

För att Hadoop-applikationer ska vara riktigt tillgängliga för din organisation måste de integreras smidigt i dina totala dataflöden. Talend Open Studio för Big Data är det perfekta verktyget för att integrera Hadoop-applikationer i din bredare dataarkitektur. Talend tillhandahåller fler inbyggda anslutningskomponenter än någon annan tillgänglig dataintegrationslösning, med mer än 800 kontakter som gör det enkelt att läsa från eller skriva till alla större filformat, databaser eller paketerade företagstillämpningar. I Talend Open Studio för stora data kan du till exempel använda dra och släpp-konfigurerbara komponenter för att skapa dataintegrationsflöden som flyttar data från avgränsade loggfiler till Hadoop Hive, utför operationer i Hive och extraherar data från Hive till en MySQL-databas (eller Oracle, Sybase, SQL Server och så vidare).

Vill du se hur lätt det kan vara att arbeta med avancerade Hadoop-applikationer?

Inget behov av att vänta - Talend Open Studio för Big Data är en programvara med öppen källkod, gratis att ladda ner och används under en Apache-licens.

Prata i stan

Talend har varit enVisionär i Magic Quadrant for Data Integration Toolssedan 2009. Nyligen har de också blivit pionjärer inom datakvalitet och MDM-området samt alla ingredienser för att laga en fantastisk Big Data-maträtt.

De hävdar att: 'Big Data Integration ökar prestanda och skalbarhet med 45 procent i din organisation'.

Endast Talend 5.5 (och högre) tillåter utvecklare att generera Hadoop-kod med hög prestanda utan att behöva vara expert på MapReduce eller Pig.

För några månader tillbaka sa en av artikeln från Talend: ”Adoption of Hadoop skyrocketing and companies large and small are kämpar för att hitta tillräckligt med kunniga Hadoop-utvecklare för att möta denna växande efterfrågan”. Endast Talend 5.5 tillåter alla dataintegreringsutvecklare att använda en visuell utvecklingsmiljö för att generera inbyggd, högpresterande och mycket skalbar Hadoop-kod. Detta låser upp en stor pool av utvecklingsresurser som nu kan bidra till stora dataprojekt. Dessutom håller Talend sig i framkant av den nya utvecklingen i Hadoop som gör det möjligt för stora dataanalysprojekt att driva kundinteraktion i realtid.

Talend for Big Data kan hjälpa till att förstå organisationer genom att samla in datauppsättningar från heterogena källsystem - som tredje part, API: er och sociala nätverksflöden - och omvandla dessa data till en visuell bild av resan från slut till slut.

Vare sig det är bankindustri, läkemedel, e-handel, försäkring - Talend kan integrera data i vilken skala som helst med en enkel blandning med Hadoop som visar sig vara den mest avancerade tekniken för att möta efterfrågan från nutid och framtid.

Använd fall runt om i världen

Från marknadsföringskampanj till kundservice inom banksektorn till upptäckt av bedrägerier finns stora data överallt.

Med mer än 800 + kontakter ensam i sin öppen källkodsupplaga, hävdar det att den är den största mest stödda plattformen för att ansluta till någonting och kan hämta allt.

Med det förändrade mönstret och inriktat mot NoSQL, Open Source, Hadoop, skulle valet av att lära sig Big Data och ETL-stil med Talend vara det mest logiska beslutet för alla som hanterar data i vilken form som helst och när som helst.

Sammanfattningsvis är ETL-verktyg långt ifrån passé. De är centrala i Big Data-ekosystemet och spelar en avgörande roll för att möjliggöra dataanalys.

Det är därför Talend lyser och säger 'Zero to Big Data without Coding, in under 10 minutes'.

Har du en fråga till oss? Nämn dem i kommentarsektionen så återkommer vi till dig.

Relaterade inlägg: