Informatica ETL: En nybörjarguide för att förstå ETL med Informatica PowerCenter



Förstå begreppen Informatica ETL och de olika stadierna i ETL-processen och öva ett användningsfall som involverar anställdas databas.

Syftet med Informatica ETL är att förse användarna, inte bara en process för att extrahera data från källsystem och ta med dem till datalagret, utan också ge användarna en gemensam plattform för att integrera sina data från olika plattformar och applikationer.Detta har lett till en ökad efterfrågan på .Innan vi pratar om Informatica ETL, låt oss först förstå varför vi behöver ETL.

Varför behöver vi ETL?

Varje företagdessa dagar måste bearbeta stora uppsättningar data från olika källor. Dessa uppgifter måste bearbetas för att ge insiktsfull information för att fatta affärsbeslut. Men ofta har sådana data följande utmaningar:





  • Stora företag genererar mycket data och en sådan stor bit av data kan vara i vilket format som helst. De skulle vara tillgängliga i flera databaser och i många ostrukturerade filer.
  • Dessa uppgifter måste samlas in, kombineras, jämföras och få dem att fungera som en sömlös helhet. Men de olika databaserna kommunicerar inte bra!
  • Många organisationer har implementerat gränssnitt mellan dessa databaser, men de stod inför följande utmaningar:
    • Varje par databaser kräver ett unikt gränssnitt.
    • Om du ändrar en databas kan många gränssnitt behöva uppgraderas.

Nedan kan du se de olika databaserna i en organisation och deras interaktioner:

Olika datamängder av en organisation - Informatica - ETL - Edureka

Olika databaser som används av olika avdelningar i en organisation



Olika interaktioner mellan databaserna i en organisation

vad är tostring-metoden i java

Som sett ovan kan en organisation ha olika databaser i sina olika avdelningar och interaktionen mellan dem blir svår att implementera eftersom olika interaktionsgränssnitt måste skapas för dem. För att övervinna dessa utmaningar är den bästa möjliga lösningen genom att använda begreppen Dataintegration vilket gör att data från olika databaser och format kan kommunicera med varandra. Nedanstående figur hjälper oss att förstå hur dataintegreringsverktyget blir ett vanligt gränssnitt för kommunikation mellan de olika databaserna.

Olika databaser anslutna via dataintegration



Men det finns olika processer tillgängliga för att utföra dataintegration. Bland dessa processer är ETL den mest optimala, effektiva och pålitliga processen. Genom ETL kan användaren inte bara ta in data från olika källor utan de kan utföra de olika operationerna på data innan de lagrar dessa data till slutmålet.

Bland de olika tillgängliga ETL-verktygen som finns på marknaden är Informatica PowerCenter marknadens ledande dataintegrationsplattform. Efter att ha testat på nästan 500 000 kombinationer av plattformar och applikationer, fungerar Informatica PowerCenter inter med det bredaste möjliga utbudet av olika standarder, system och applikationer. Låt oss nu förstå stegen i Informatica ETL-processen.

Informatik ETL | Informatica Architecture | Informatica PowerCenter-handledning | Edureka

Denna Edureka Informatica-handledning hjälper dig att förstå grunden för ETL med hjälp av Informatica Powercenter i detalj.

Steg i Informatica ETL-process:

Innan vi går till de olika stegen som är involverade i Informatica ETL, Låt oss få en översikt över ETL. I ETL är Extraction där data extraheras från homogena eller heterogena datakällor, Transformation där data transformeras för lagring i rätt format eller struktur i syfte att fråga och analysera och ladda där data laddas in i den slutliga måldatabasen. operativ datalager, datamarknad eller datalager. Bilden nedan hjälper dig att förstå hur Informatica ETL-processen sker.

ETL-processöversikt

Som framgår ovan kan Informatica PowerCenter ladda data från olika källor och lagra dem i ett enda datalager. Låt oss nu titta på stegen som är involverade i Informatica ETL-processen.

Det finns huvudsakligen fyra steg i Informatica ETL-processen, låt oss nu förstå dem djupare:

  1. Extrahera eller fånga
  2. Skrubba eller rengör
  3. Omvandla
  4. Ladda och indexera

1. Extrahera eller fånga: Som framgår av bilden nedan är Capture eller Extract det första steget i Informatica ETL-processen.Det är processen att få en ögonblicksbild av den valda delmängden data från källan, som måste laddas in i datalagret. En ögonblicksbild är en skrivskyddad statisk vy av data i databasen. Extraktprocessen kan vara av två typer:

  • Fullständigt extrakt: Datan extraheras helt från källsystemet och det finns ingen anledning att hålla reda på ändringar av datakällan sedan den senaste framgångsrika utvinningen.
  • Inkrementellt extrakt: Detta kommer bara att fånga ändringar som har inträffat sedan senaste fullständiga utdrag.

Fas 1: Extrahera eller fånga

2. Skrubba eller rengör: Detta är processen att rengöra data som kommer från källan med hjälp av olika mönsterigenkänning och AI-tekniker för att uppgradera kvaliteten på data som tas fram. Vanligtvis är fel som felstavningar, felaktiga datum, felaktig fältanvändning, felaktiga adresser, saknad data, dubblettdata, inkonsekvensermarkeras och sedan korrigeras eller tas borti detta steg. Även operationer som avkodning, omformatering, tidsstämpling, konvertering, nyckelgenerering, sammanslagning, feldetektering / loggning, lokalisering av saknade data görs i detta steg. Som framgår av bilden nedan är detta det andra steget i Informatica ETL-processen.

Fas 2: Skurning eller rengöring av data

3. Transformera: Som framgår av bilden nedan är detta det tredje och mest väsentliga steget i Informatica ETL-processen. Transformationer är operationen för att konvertera data från källsystemets format till Data Warehouse-skelettet. En transformation används i princip för att representera en uppsättning regler som definierar dataflödet och hur data laddas in i målen. För att veta mer om Transformation, kolla in Transformationer i Informatica Blogg.

Fas 3: Transformation

4. Ladda och indexera: Detta är det sista steget i Informatica ETL-processen, vilket framgår av bilden nedan. I det här steget placerar vi transformerade data i lagret och skapar index för data. Det finns två huvudtyper av datalastning tillgänglig baserat på belastningsprocessen .:

  • Full- eller bulkbelastning :Dataladdningsprocessen när vi gör det allra första gången. Jobbet extraherar hela datamängden från en källtabell och laddas till måldatalagret efter att de nödvändiga transformationerna har tillämpats. Det kommer att vara ett engångsjobb efter att ändringar ensam kommer att fångas som en del av ett inkrementellt utdrag.
  • Inkrementell belastning eller Uppdatera belastning : Endast de modifierade uppgifterna kommer att uppdateras i mål följt av full belastning. Ändringarna kommer att fångas genom att jämföra skapat eller modifierat datum med det senaste kördatumet för jobbet.Endast de modifierade data extraheras från källan och kommer att uppdateras i målet utan att det påverkar befintlig data.

Fas 4: Ladda och indexera

Om du har förstått Informatica ETL-processen är vi nu i en bättre position för att uppskatta varför Informatica är den bästa lösningen i sådana fall.

Funktioner i Informatica ETL:

För all dataintegration och ETL-operationer har Informatica försett oss med Informatica PowerCenter . Låt oss nu se några viktiga funktioner i Informatica ETL:

  • Ger möjlighet att ange ett stort antal transformationsregler med ett GUI.
  • Skapa program för att omvandla data.
  • Hantera flera datakällor.
  • Stöder datautvinning, rengöring, aggregering, omorganisation, omvandling och belastning.
  • Genererar automatiskt program för dataextraktion.
  • Snabb laddning av måldatalager.

Nedan följer några av de typiska scenarierna där Informatica PowerCenter används:

  1. Datamigrering:

Ett företag har köpt en ny ansökan om leverantörsreskontra för sin kontofack. PowerCenter kan flytta befintlig kontodata till den nya applikationen. Figuren nedan hjälper dig att förstå hur du kan använda Informatica PowerCenter för datamigrering. Informatica PowerCenter kan enkelt bevara datainkomst för skatt, redovisning och andra lagligt föreskrivna ändamål under datamigreringsprocessen.

Datamigrering från en äldre redovisningsapplikation till en ny applikation

  1. Applikationsintegration:

Låt oss säga att företag-A köper företag-B. För att uppnå fördelarna med konsolideringen måste Company-B: s faktureringssystem integreras i Company-A: s faktureringssystem, vilket enkelt kan göras med Informatica PowerCenter. Figuren nedan hjälper dig att förstå hur du kan använda Informatica PowerCenter för integration av applikationer mellan företagen.

Integrera applikation mellan företag

  1. Datalagring

Typiska åtgärder som krävs i datalager är:

  • Kombinera information från många källor tillsammans för analys.
  • Flytta data från många databaser till datalageret.

Alla ovanstående typiska fall kan enkelt utföras med Informatica PowerCenter. Nedan kan du se att Informatica PowerCenter används för att kombinera data från olika typer av databaser som Oracle, SalesForce, etc. och ta det till ett gemensamt datalager skapat av Informatica PowerCenter.

Data Från olika databaser integrerade i ett gemensamt datalager

  1. Middleware

Låt oss säga att en detaljhandelsorganisation använder SAP R3 för sina Retail-applikationer och SAP BW som sitt datalager. En direkt kommunikation mellan dessa två applikationer är inte möjlig på grund av bristen på ett kommunikationsgränssnitt. Informatica PowerCenter kan dock användas som mellanprogram mellan dessa två applikationer. På bilden nedan kan du se arkitekturen för hur Informatica PowerCenter används som mellanprogram mellan SAP R / 3 och SAP BW. Applikationerna från SAP R / 3 överför sina data till ABAP-ramverket som sedan överför dem tillSAP Point of Sale (POS) och SAPBills of Services (BOS). Informatica PowerCenter hjälper till att överföra data från dessa tjänster till SAP Business Warehouse (BW).

Informatica PowerCenter som Middleware i SAP Retail Architecture

Medan du har sett några viktiga funktioner och typiska scenarier för Informatica ETL, hoppas jag att du förstår varför Informatica PowerCenter är det bästa verktyget för ETL-processen. Låt oss nu se ett användningsfall av Informatica ETL.

Användningsfall: Sammanfoga två tabeller för att få en enda detaljerad tabell

Låt oss säga att du vill tillhandahålla avdelningsvis transport till dina anställda eftersom avdelningarna finns på olika platser. För att göra detta måste du först veta vilken avdelning varje anställd tillhör och avdelningens plats. Uppgifterna om anställda lagras emellertid i olika tabeller och du måste koppla informationen till avdelningen till en befintlig databas med information om alla anställda. För att göra detta kommer vi först att ladda båda tabellerna i Informatica PowerCenter, utföra Source Qualifier Transformation på data och slutligen ladda detaljerna till Target Database.Låt oss börja:

Steg 1 : Öppna PowerCenter Designer.

Nedan finns hemsidan för Informatica PowerCenter Designer.

Låt oss nu ansluta till förvaret. Om du inte har konfigurerat dina arkiv eller står inför några problem kan du kolla in vårt Blogg.

Steg 2: Högerklicka på ditt arkiv och välj anslutningsalternativ.

När du klickar på anslutningsalternativet kommer du att bli ombedd med nedanstående skärm och be om ditt användarnamn och lösenord för förvaret.

När du har anslutit till ditt arkiv måste du öppna din arbetsmapp enligt nedan:

Du kommer att uppmanas att fråga namnet på din kartläggning. Ange namnet på din kartläggning och klicka på OK (jag har namngett det som m-MEDARBETARE ).

Steg 3: Låt oss nu ladda tabellerna från databasen, börja med att ansluta till databasen. För att göra detta, välj fliken Källor och alternativet Importera från databas enligt nedan:

När du klickar på Importera från databas kommer du att uppmanas på skärmen som nedan och frågar detaljerna i din databas och dess användarnamn och lösenord för anslutning (jag använder Oracle-databasen och HR-användaren).

Klicka på Anslut för att ansluta till din databas.

Steg 4: Som jag vill gå med i MEDARBETARE och AVDELNING väljer jag dem och klickar på OK.
Källorna kommer att synas på din mappdesigners arbetsyta enligt nedan.

Steg 5: På samma sätt ladda måltabellen till kartläggningen.

Steg 6: Låt oss nu länka källkvalificatorn och måltabellen. Högerklicka på en tom plats på arbetsytan och välj Autolink enligt nedan:

Nedan är kartläggningen länkad av Autolink.

Steg 7: Eftersom vi behöver länka båda tabellerna till källkvalificatorn, välj kolumnerna i avdelningstabellen och släpp den i källkvalificatorn enligt nedan:

Släpp kolumnvärdena i Source Qualifier SQ_EMPLOYEES .

Nedan följer den uppdaterade källkvalificatorn.

Steg 8: Dubbelklicka på Source Qualifier för att redigera transformationen.

Du kommer att redigera Transformation pop-up som visas nedan. Klicka på fliken Egenskaper.

Steg 9: Under fliken Egenskaper klickar du på fältet Värde i raden UserDefined Join.

Du får följande SQL Editor:

Steg 10: Stiga på MEDARBETARE.DEPARTMENT_ID = AVDELNING.DEPARTMENT_ID som villkor för att gå med i båda tabellerna i SQL-fältet och klicka på OK.

Steg 11: Klicka nu på SQL Query-raden för att generera SQL för anslutning enligt nedan:

Du får följande SQL Editor, klicka på Generera SQL-alternativet.

Följande SQL genereras för det villkor som vi angav i föregående steg. Klicka på OK.

Steg 12: Klicka på Apply och OK.

Nedan är den färdiga kartläggningen.

Vi har slutfört utformningen av hur data måste överföras från källan till målet. Den faktiska överföringen av data är dock ännu inte hänt och för det måste vi använda PowerCenter Workflow Design. Genomförandet av arbetsflödet leder till överföring av data från källan till målet. Om du vill veta mer om arbetsflöde, se vår Informatica-handledning: Arbetsflöde Blogg

Steg 13: Let us startar nu Workflow Manager genom att klicka på W-ikonen enligt nedan:

Nedan finns hemsidan för designer för arbetsflöde.

Steg 14: Låt oss nu skapa ett nytt arbetsflöde för vår kartläggning. Klicka på fliken Arbetsflöde och välj Skapa alternativ.

Du får popup-fönstret nedan. Ange namnet på ditt arbetsflöde och klicka på OK.

Steg 15 : När ett arbetsflöde har skapats får vi Start-ikonen i Workflow Manager-arbetsytan.

Låt oss nu lägga till en ny session i arbetsytan enligt nedan genom att klicka på sessionsikonen och klicka på arbetsytan:

Klicka på arbetsytan för att placera session-ikonen.

Steg 16: När du lägger till sessionen måste du välja den mappning du skapat och sparat i ovanstående steg. (Jag hade sparat det som m-MEDARBETARE).

pivot och unpivot i sql

Nedan finns arbetsytan efter att ha lagt till sessionsikonen.

Steg 17 : Nu när du har skapat en ny session måste vi länka den till startuppgiften. Vi kan göra det genom att klicka på ikonen Länkuppgift som visas nedan:

Klicka först på Start-ikonen och sedan på Session-ikonen för att skapa en länk.

Nedan finns ett anslutet arbetsflöde.

Steg 18: Nu när vi har slutfört designen, låt oss starta arbetsflödet. Klicka på fliken Arbetsflöde och välj Starta arbetsflödesalternativ.

Workflow manager startar Workflow Monitor.

Steg 19 : När vi har startat arbetsflödet startar Workflow Manager automatisktochlåter dig övervaka körningen av ditt arbetsflöde. Nedan kan du se Workflow Monitor visar status för ditt workflow.

Steg 20: För att kontrollera status för arbetsflödet högerklickar du på arbetsflödet och väljer Hämta egenskaper som visas nedan:

Välj fliken Källa / målstatistik.

Nedan ser du antalet rader som har överförts mellan källan och målet efter transformation.

Du kan också verifiera ditt resultat genom att kontrollera din måltabell enligt nedan.

Jag hoppas att denna Informatica ETL-blogg var till hjälp för att bygga din förståelse för begreppen ETL med hjälp av Informatica och har skapat tillräckligt intresse för att du ska lära dig mer om Informatica.

Om du tyckte att den här bloggen var till hjälp kan du också kolla in vår bloggserie Informatica Tutorial , Informatica Tutorial: Att förstå Informatica 'Inside Out' och Informatica Transformations: The Heart and Soul of Informatica PowerCenter . Om du letar efter information om Informatica-certifiering kan du kolla vår blogg Informatica-certifiering: Allt som finns att veta .

Om du redan har bestämt dig för att börja på Informatica som en karriär, skulle jag rekommendera dig att titta på vår kurssida. Informatica-certifieringsutbildningen på Edureka kommer att göra dig till en expert inom Informatica genom live instruktörsledda sessioner och praktisk träning med användningsfall.