Python Pandas handledning: Lär dig pandor för dataanalys



I den här Python Pandas-självstudien lär du dig de olika funktionerna i Pandas. Det innehåller också ett användningsfall där du kan analysera data med Pandas.

I den här bloggen kommer vi att diskutera dataanalys med Pandas i Python.I dag, är en het skicklighet i branschen som överträffade PHP 2017 och C # 2018 när det gäller total popularitet och användning.Innan man pratar om Panda, måste man förstå begreppet Numpy arrays. Varför? Eftersom Pandas är ett program med öppen källkod som byggs ovanpå . I denna Python Pandas-handledning tar jag dig igenom följande ämnen, som kommer att fungera som grundläggande för de kommande bloggarna:

Låt oss börja. :-)





Vad är Python Pandas?

Pandas används för datamanipulation, analys och rengöring. Python-pandor är väl lämpade för olika typer av data, till exempel:

  • Tabelldata med heterogent typade kolumner
  • Beställda och oordnade tidsseriedata
  • Godtycklig matrisdata med rad- och kolumnetiketter
  • Omärkt data
  • Någon annan form av observations- eller statistiska datamängder

Hur installerar jag Pandas?

För att installera Python Pandas, gå till din kommandorad / terminal och skriv 'pip install pandas' eller om du har anaconda installerat i ditt system, skriv bara in 'conda install pandas'. När installationen är klar, gå till din IDE (Jupyter, PyCharm etc.) och importera den helt enkelt genom att skriva: “importera pandor som pd”



Gå vidare i Python pandas tutorial, låt oss ta en titt på några av dess operationer:

Python Pandas-operationer

Med Python-pandor kan du utföra många operationer med serier, dataramar, saknade data, gruppera efter osv. Några av de vanliga operationerna för datamanipulation listas nedan:



PandasOperations - Python Pandas handledning - Edureka

Låt oss nu förstå alla dessa operationer en efter en.

Skärning av dataramen

För att utföra skivning av data behöver du en dataram. Oroa dig inte, dataramen är en tvådimensionell datastruktur och ett vanligaste pandaobjekt. Så låt oss först skapa en dataram.

binär till decimal java-kod

Se koden nedan för dess implementering i PyCharm:

importera pandor som pd XYZ_web = {'Dag': [1,2,3,4,5,6], 'Besökare': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) print (df)

Produktion :

Bounce_Rate Dagbesökare 0 20 1 1000 1 20 2700 2 23 3 6000 3 15 4 1000 4 10 5400 5 34 6350

Koden ovan kommer att konvertera en ordlista till en pandadata ram tillsammans med index till vänster. Låt oss nu skära en viss kolumn från denna dataram. Se bilden nedan:

skriva ut (df.huvud (2))

Produktion:

Bounce_Rate Day Besökare 0 20 1 1000 1 20 2700

På samma sätt, om du vill ha de två sista raderna med data, skriv in kommandot nedan:

tryck (df. stjärt (2))

Produktion:

Bounce_Rate Day Besökare 4 10 5400 5 34 6350

Nästa i Python Pandas-handledning, låt oss utföra sammanslagning och anslutning.

Sammanfoga och gå med

Vid sammanslagning kan du slå samman två dataramar för att bilda en enda dataram. Du kan också bestämma vilka kolumner du vill göra gemensamma. Låt mig implementera det praktiskt, först kommer jag att skapa tre dataramar, som har några nyckel-värdepar och sedan slå samman dataramarna. Se koden nedan:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Produktion:

importera pandor som pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, index = [2005, 2006,2007,2008]) sammanslagna = pd.merge (df1, df2) tryck (sammanslagna)

Som du kan se ovan har de två dataramarna gått samman i en enda dataram. Nu kan du också ange den kolumn som du vill göra gemensam. Till exempel vill jag att kolumnen 'HPI' ska vara vanlig och för allt annat vill jag ha separata kolumner. Så, låt mig implementera det praktiskt:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) sammanslagna = pd.merge (df1, df2, on = 'HPI') utskrift (sammanslagna)

Produktion:

IND_GDP Int_Rate Low_Tier_HPI Arbetslöshet 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Låt oss sedan förstå sammanfogning i python pandas tutorial. Det är ännu en bekväm metod att kombinera två olika indexerade dataramar till ett enda dataram för resultat. Detta liknar ganska 'samgå' -operationen, förutom att anslutningsoperationen kommer att vara i 'index' istället för 'kolumner'. Låt oss genomföra det praktiskt.

generera en slumpmässig sträng Java
df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Arbetslöshet': [1,3,5,6]}, index = [2001, 2003,2004,2004]) gick med = df1. gå med (df2) skriva ut (gå med)

Produktion:

IND_GDP Int_Rate Low_Tier_HPI Arbetslöshet 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Som du kan se i ovanstående produktion, år 2002 (index), finns inget värde kopplat till kolumnerna 'låg_nivå_HPI' och 'arbetslöshet', därför har den skrivit ut NaN (inte ett nummer). Senare 2004 är båda värdena tillgängliga, därför har respektive värden skrivits ut.

Du kan gå igenom denna inspelning av Python Pandas tutorial där vår instruktör har förklarat ämnena på ett detaljerat sätt med exempel som hjälper dig att förstå detta koncept bättre.

Python för dataanalys | Python Pandas handledning | Python-utbildning | Edureka


Gå vidare i Python pandas tutorial, låt oss förstå hur vi sammanfogar två datadata ramar.

Sammankoppling

Sammankoppling limer i grunden samman dataframarna. Du kan välja den dimension som du vill sammanfoga. För det använder du bara “pd.concat” och skickar i listan med dataframar för att sammanfoga. Tänk på exemplet nedan.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

Produktion:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Som du kan se ovan är de två dataframarna limmade i en enda dataram, där indexet börjar från 2001 ända fram till 2008. Därefter kan du också ange axel = 1 för att gå med, slå ihop eller avbryta längs kolumnerna. Se koden nedan:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], axel = 1) tryck (concat)

Produktion:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80,0 50,0 2,0 NaN NaN NaN 2002 90,0 45,0 1,0 NaN NaN NaN 2003 70,0 45,0 2,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2005 NaN NaN NaN 80,0 50,0 2,0 2006 NaN NaN NaN 90,0 45,0 1,0 2007 NaN NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Som du kan ovan finns det massor av saknade värden. Detta händer eftersom dataframarna inte hade värden för alla index du vill sammanfoga på. Därför bör du se till att du har all information som stämmer korrekt när du går med eller sammanfogar på axeln.

Ändra index

Nästa i handledning för pythonpandor förstår vi hur man ändrar indexvärden i en dataram. Låt oss till exempel skapa en dataram med några nyckelvärdepar i en ordlista och ändra indexvärdena. Tänk på exemplet nedan:

Låt oss se hur det faktiskt händer:

importera pandor som pd df = pd.DataFrame ({'Dag': [1,2,3,4], 'Besökare': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Day', inplace = True) utskrift (df)

Produktion:

Bounce_Rate Besökares dag 1 20 200 2 45 100 3 60 230 4 10 300

Som du kan se i utdata ovan har indexvärdet ändrats i förhållande till kolumnen 'Dag'.

Ändra kolumnrubrikerna

Låt oss nu ändra kolumnrubrikerna i denna python-pandahandledning. Låt oss ta samma exempel, där jag kommer att ändra kolumnrubriken från 'Besökare' till 'Användare'. Så, låt mig implementera det praktiskt.

importera pandor som pd df = pd.DataFrame ({'Dag': [1,2,3,4], 'Besökare': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (kolumner = {'Besökare': 'Användare'}) skriv ut (df)

Produktion:

Bounce_Rate-daganvändare 0 20 1200 1 45 2100 2 60 3230 3 10 4300

Som du ser ovan har kolumnrubriken 'Besökare' ändrats till 'Användare'. Nästa i Python Pandas tutorial, låt oss utföra data munging.

Data Munging

I Data munging kan du konvertera en viss data till ett annat format. Om du till exempel har en .csv-fil kan du konvertera den till .html eller något annat dataformat också. Så, låt mig genomföra detta praktiskt.

importera pandor som pd land = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-arbetslöshetAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

När du har kört den här koden skapas en HTML-fil med namnet “edu.html”. Du kan kopiera filens sökväg direkt och klistra in den i din webbläsare som visar data i ett HTML-format. Se skärmdumpen nedan:


Låt oss ta en titt på ett användningsfall som talar om den globala ungdomsarbetslösheten.

Python Pandas handledning: Använd fall för att analysera ungdomsarbetslöshetsdata

Problemförklaring :Du får en dataset som består av andelen arbetslösa ungdomar globalt från 2010 till 2014. Du måste använda denna dataset och hitta förändringen i procentandelen ungdomar för varje land från 2010-2011.

algoritmsortering c ++

Låt oss först förstå datauppsättningen som innehåller kolumnerna som landnamn, landskod och året från 2010 till 2014. Nu använder vi pandor och använder “pd.read_csv” för att läsa .csv-filformatfilen.
Se skärmdumpen nedan:

Låt oss gå vidare och utföra dataanalys där vi kommer att ta reda på den procentuella förändringen hos de arbetslösa ungdomarna mellan 2010 och 2011. Då kommer vi att visualisera detsamma med bibliotek, som är ett kraftfullt bibliotek för visualisering i Python. Den kan användas i Python-skript, shell, webbapplikationsservrar och andra GUI-verktygssatser. Du kan läsa mer här:

Låt oss nu implementera koden i PyCharm:

importera pandor som pd importera matplotlib.pyplot som plt från matplotlib import style style.use ('fivethirtyeight') land = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-arbetslöshetAPI_ILO_country_YU.csv', index_col = 0) df huvud (5) df = df.set_index (['Landskod']) sd = sd.reindex (kolumner = ['2010', '2011']) db = sd.diff (axel = 1) db.plot (typ = 'bar') plt.show ()

Som du kan se ovan har jag utfört analysen på de fem bästa raderna i landets dataram. Därefter har jag definierat ett indexvärde som ”Landskod” och sedan indexerar jag kolumnen till 2010 och 2011. Sedan har vi ytterligare en dataram db, som skriver ut skillnaden mellan de två kolumnerna eller procentuell förändring av arbetslösa ungdomar från 2010 till 2011. Slutligen har jag plottat en barplot med hjälp av Matplotlib-biblioteket i Python.


Nu om du märkte i ovanstående plot, i Afghanistan (AFG) mellan 2010 och 2011, har det varit en ökning av arbetslösa ungdomar på cirka 0,25%. I Angola (AGO) finns det en negativ trend som innebär att andelen arbetslösa ungdomar har minskats. På samma sätt kan du utföra analyser på olika datauppsättningar.

Jag hoppas att min blogg på 'Python Pandas Tutorial' var relevant för dig. För att få fördjupad kunskap om python tillsammans med dess olika applikationer kan du registrera dig för live av Edureka med 24/7 support och livstidsåtkomst.

Har du en fråga till oss? Vänligen nämna det i kommentarsektionen i denna 'Python Pandas tutorial' -blogg så återkommer vi till dig så snart som möjligt.