Data Science Tutorial - Lär dig datavetenskap från Scratch!



Den här handledningen för datavetenskap är perfekt för dem som vill ha en övergång till datavetenskapsdomänen. Den innehåller alla datavetenskapliga saker med en karriärväg.

Vill du börja din karriär som Data Scientist, men vet inte var du ska börja? Du är på rätt plats! Hej killar, välkommen till den här fantastiska datavetenskapens självstudieblogg, det ger dig en kickstart i datavetenskapens värld. För att få fördjupad kunskap om datavetenskap kan du anmäla dig till live av Edureka med support dygnet runt och livstidsåtkomst. Låt oss titta på vad vi ska lära oss idag:

    1. Varför datavetenskap?
    2. Vad är datavetenskap?
    3. Vem är en datavetare?
    4. Jobbtrender
    5. Hur löser jag ett problem inom datavetenskap?
    6. Datavetenskapliga komponenter
    7. Data Scientists jobbroller





Varför datavetenskap?

Det har sagts att Data Scientist är det 21: a århundradets sexigaste jobb. Varför? För de senaste åren har företag lagrat sina data. Och detta görs av varje företag, det har plötsligt lett till dataexplosion. Data har blivit den vanligaste saken idag.

Men vad ska du göra med dessa uppgifter? Låt oss förstå detta med ett exempel:



Säg, du har ett företag som tillverkar mobiltelefoner. Du släppte din första produkt och den blev en enorm hit. Varje teknik har ett liv, eller hur? Så nu är det dags att komma på något nytt. Men du vet inte vad som bör förnyas för att uppfylla användarnas förväntningar, som väntar ivrigt på din nästa release?

Någon, i ditt företag kommer med en idé om att använda användargenererad feedback och välja saker som vi anser att användarna förväntar sig i nästa release.

Kommer inom datavetenskap, du använder olika data miningstekniker som sentimentanalys etc och får önskat resultat.



Det är inte bara detta, du kan fatta bättre beslut, du kan minska dina produktionskostnader genom att komma ut på effektiva sätt och ge dina kunder vad de faktiskt vill!

Med detta finns det otaliga fördelar som Data Science kan leda till, och därför har det blivit absolut nödvändigt för ditt företag att ha ett Data Science Team.Krav som dessa ledde till 'Data Science' som ämne idag, och därför skriver vi den här bloggen på Data Science Tutorial för dig. :)

Data Science Tutorial: Vad är datavetenskap?

Termen Data Science har nyligen dykt upp med utvecklingen av matematisk statistik och dataanalys. Resan har varit fantastisk, vi har åstadkommit så mycket idag inom datavetenskap.

Under de närmaste åren kommer vi att kunna förutsäga framtiden enligt forskare från MIT. De har redan nått en milstolpe för att förutsäga framtiden med sin fantastiska forskning. De kan nu förutsäga vad som kommer att hända i nästa filmscen, med sin maskin! På vilket sätt? Tja, det kan vara lite komplicerat för dig att förstå från och med nu, men oroa dig inte i slutet av den här bloggen, du får också ett svar på det.

När vi kom tillbaka, pratade vi om datavetenskap, det är också känt som datadriven vetenskap, som använder vetenskapliga metoder, processer och system för att utvinna kunskap eller insikter från data i olika former, dvs.

Vad är dessa metoder och processer, är vad vi ska diskutera i denna datavetenskapliga handledning idag.

Framåt, vem stormar all denna hjärna, eller vem praktiserar datavetenskap? A Data Scientist .

Vem är en datavetare?

Som du kan se på bilden är en Data Scientist mästare i alla branscher! Han borde vara skicklig i matematik, han bör följa affärsområdet och bör också ha stora datavetenskapliga färdigheter. Rädd? Var inte. Även om du måste vara bra på alla dessa områden, men även om du inte är det, är du inte ensam! Det finns inget sådant som 'en komplett datavetare'. Om vi ​​pratar om att arbeta i en företagsmiljö fördelas arbetet mellan team där varje team har sin egen expertis. Men saken är att du borde vara skicklig på minst ett av dessa områden. Även om dessa färdigheter är nya för dig, slappna av! Det kan ta tid, men dessa färdigheter kan utvecklas och tro mig att det vore värt den tid du kommer att investera. Varför? Låt oss titta på jobbtrenderna.

vad är sammanhangsfilter i tablå

Datavetenskapens jobbtrender

Tja, grafen säger allt, inte bara det finns många lediga jobb för en datavetare, men jobben är också välbetalda! Och nej, vår blogg täcker inte lönesiffrorna, google!

Tja, vi vet nu, att lära sig datavetenskap är faktiskt vettigt, inte bara för att det är mycket användbart, men också att du har en bra karriär inom den inom en snar framtid.

Låt oss börja vår resa med att lära oss datavetenskap nu och börja med,

Hur löser jag ett problem inom datavetenskap?

Så nu ska vi diskutera hur man ska närma sig ett problem och lösa det med datavetenskap. Problem inom datavetenskap löses med algoritmer. Men den största saken att bedöma är vilken algoritm som ska användas och när den ska användas?

I grund och botten finns det 5 typer av problem som du kan möta inom datavetenskap.

Låt oss ta upp var och en av dessa frågor och tillhörande algoritmer en efter en:

Är detta A eller B?

Med den här frågan syftar vi på problem som har ett kategoriskt svar, som i problem som har en fast lösning kan svaret antingen vara ja eller nej, 1 eller 0, intresserad, kanske eller inte intresserad.

Till exempel:

F. Vad kommer du att ha, te eller kaffe?

Här kan du inte säga att du vill ha en cola! Eftersom frågan endast erbjuder te eller kaffe, och därför kan du bara svara på en av dessa.

När vi bara har två typer av svar, dvs. ja eller nej, 1 eller 0, kallas det 2 - Klassklassificering. Med mer än två alternativ kallas det Multi Class Classification.

Sammanfattningsvis, när du stöter på frågor, vars svar är kategoriskt, kommer du inom datavetenskap att lösa dessa problem med hjälp av klassificeringsalgoritmer.

Nästa problem i denna Data Science Tutorial, som du kan stöta på, kanske något liknande,

Är det konstigt?

Frågor som dessa handlar om mönster och kan lösas med Anomaly Detection algoritmer.

Till exempel:

Försök koppla problemet 'är det konstigt?' till detta diagram,

Vad är konstigt i ovanstående mönster? Den röda killen, eller hur?

Närhelst det finns ett mönsteravbrott flaggar algoritmen den specifika händelsen som vi kan granska. En verklig världsapplikation av denna algoritm har implementerats av kreditkortsföretag där i, alla ovanliga transaktioner av en användare flaggas för granskning. Därför implementera säkerhet och minska människans ansträngningar för övervakning.

Låt oss titta på nästa problem i denna Data Science-handledning, var inte rädd, behandlar matematik!

Hur mycket eller hur många?

De av er, som inte gillar matematik, är lättade! Regressionsalgoritmer är här!

Så när det finns ett problem som kan kräva siffror eller numeriska värden löser vi det med hjälp av regressionsalgoritmer.

Till exempel:

Vad blir temperaturen i morgon?

Eftersom vi förväntar oss ett numeriskt värde i svaret på detta problem kommer vi att lösa det med hjälp av regressionsalgoritmer.

Låt oss gå vidare i denna Data Science-handledning, diskutera nästa algoritm,

Hur är detta organiserat?

Anta att du har lite data, nu har du ingen aning om hur du kan vara meningsfull med dessa uppgifter. Därav frågan, hur är detta organiserat?

Du kan lösa det med klusteralgoritmer. Hur löser de dessa problem? Låt oss se:

Klusteralgoritmer grupperar data i termer av vanliga egenskaper. Till exempel i ovanstående diagram är punkterna organiserade baserat på färger. På samma sätt, vare sig det är data, försöker klusteralgoritmer att uppfatta vad som är vanligt mellan dem och därmed 'kluster' dem tillsammans.

Nästa och sista typ av problem i denna Data Science-handledning som du kan stöta på är,

Vad ska jag göra därefter?

När du stöter på ett problem, där din dator måste fatta ett beslut baserat på den utbildning du har gett det, involverar det förstärkningsalgoritmer.

Till exempel:

Ditt temperaturkontrollsystem, när det måste bestämma om det ska sänka temperaturen i rummet eller öka det.

Hur fungerar dessa algoritmer?

Dessa algoritmer är baserade på mänsklig psykologi. Vi gillar att bli uppskattade, eller hur? Datorer implementerar dessa algoritmer och förväntar sig att de uppskattas när de tränas. På vilket sätt? Låt oss se.

I stället för att lära datorn vad du ska göra låter du den bestämma vad den ska göra, och i slutet av den åtgärden ger du antingen en positiv eller en negativ feedback. I stället för att definiera vad som är rätt och vad som är fel i ditt system, låter du ditt system 'bestämma' vad du ska göra och i slutändan ge feedback.

Det är precis som att träna din hund. Du kan inte kontrollera vad din hund gör, eller hur? Men du kan skälla honom när han gör fel. På samma sätt kanske att klappa honom på ryggen när han gör vad som förväntas.

Låt oss tillämpa denna förståelse i exemplet ovan, föreställ dig att du tränar temperaturkontrollsystemet, så när nej. av människor i rummet ökar måste det vidtas en åtgärd som vidtas av systemet. Sänk antingen temperaturen eller öka den. Eftersom vårt system inte förstår någonting tar det ett slumpmässigt beslut, antar att det ökar temperaturen. Därför ger du en negativ feedback. Med detta förstår datorn när antalet människor ökar i rummet, aldrig öka temperaturen.

På samma sätt för andra åtgärder ska du ge feedback.För varje feedback ditt system lär sig och därmed blir mer exakt i sitt nästa beslut kallas denna typ av lärande förstärkningslärande.

Nu innefattar algoritmerna som vi lärde oss ovan i denna datavetenskapliga handledning en vanlig 'inlärningsmetod'. Vi får maskinen att lära sig rätt?

anonym klass i java]

Vad är maskininlärning?

Det är en typ av artificiell intelligens som gör datorerna kapabla att lära sig på egen hand utan att uttryckligen programmeras. Med maskininlärning kan maskiner uppdatera sin egen kod när de stöter på en ny situation.

Avslutande i denna datavetenskapstudie vet vi nu att datavetenskap stöds av maskininlärning och dess algoritmer för dess analys. Hur vi gör analysen, var gör vi det. Data Science har vidare några komponenter som hjälper oss att ta itu med alla dessa frågor.

Innan det låt mig svara på hur MIT kan förutsäga framtiden, för jag tror att ni kanske kan berätta om det nu. Så utbildade forskare i MIT sin modell med filmer och datorerna lärde sig hur människor reagerar eller hur de agerar innan de gör en handling.

När du till exempel handskas med någon tar du handen ur fickan eller kanske lutar dig på personen. I grund och botten finns det en 'pre action' kopplad till allt vi gör. Datorn med hjälp av filmer utbildades på dessa 'pre-action'. Och genom att observera fler och fler filmer kunde deras datorer sedan förutsäga vad karaktärens nästa handling kunde vara.

Lätt är det inte? Låt mig kasta ytterligare en fråga till dig då i denna datavetenskapliga handledning! Vilken algoritm för maskininlärning måste de ha implementerat i detta?

Datavetenskapliga komponenter

1. Datamängder

Vad kommer du att analysera om? Data, eller hur? Du behöver mycket data som kan analyseras, dessa data matas till dina algoritmer eller analytiska verktyg. Du får dessa uppgifter från olika tidigare undersökningar.

2. R Studio

R är ett programmeringsspråk och programvarumiljö för öppen källkod för statistisk beräkning och grafik som stöds av R-stiftelsen. R-språket används i en IDE som heter R Studio.

Varför används det?

  • Programmering och statistiskt språk
    • Förutom att det används som ett statistiskt språk kan det också användas som ett programmeringsspråk för analytiska ändamål.
  • Dataanalys och visualisering
    • Förutom att vara ett av de mest dominerande analysverktygen är R också ett av de mest populära verktygen som används för datavisualisering.
  • Enkelt och lätt att lära sig
    • R är ett enkelt och lätt att lära sig, läsa och skriva

  • Gratis och öppen källkod
    • R är ett exempel på en FLOSS (Free / Libre och Open Source Software) vilket innebär att man fritt kan distribuera kopior av denna programvara, läsa dess källkod, ändra den, etc.

R Studio var tillräckligt för analys tills våra datamängder blev enorma, även ostrukturerade samtidigt. Denna typ av data kallades Big Data.

3. Big Data

Big data är termen för en samling datauppsättningar så stora och komplexa att det blir svårt att bearbeta med hjälp av databashanteringsverktyg eller traditionella databehandlingsapplikationer.

Nu för att tämja dessa data var vi tvungna att komma med ett verktyg, för ingen traditionell programvara kunde hantera denna typ av data, och därför kom vi med Hadoop.

4. Hadoop

Hadoop är ett ramverk som hjälper oss att Lagra och bearbeta stora datamängder parallellt och på distributions sätt.

Låt oss fokusera på butiken och bearbeta en del av Hadoop.

Lagra

Lagringsdelen i Hadoop hanteras av HDFS dvs Hadoop Distribuerade filsystem. Det ger hög tillgänglighet i ett distribuerat ekosystem. Så som det fungerar är så här, bryter den inkommande informationen i bitar och distribuerar dem till olika noder i ett kluster, vilket möjliggör distribuerad lagring.

Bearbeta

MapReduce är hjärtat i Hadoop-bearbetningen. Algoritmerna gör två viktiga uppgifter, kartlägger och reducerar. Kartläggarna delar upp uppgiften i mindre uppgifter som bearbetas parallellt. En gång gör alla kartläggare sin del av arbetet, de sammanställer sina resultat och sedan reduceras dessa resultat till ett enklare värde genom reduceringsprocessen. För att lära dig mer om Hadoop kan du gå igenom vår .

Om vi ​​använder Hadoop som vår lagring i Data Science blir det svårt att bearbeta ingången med R Studio på grund av dess oförmåga att prestera bra i distribuerad miljö, därför har vi Spark R.

5. Gnista R

Det är ett R-paket som ger ett lätt sätt att använda Apache Spark med R. Varför ska du använda det över traditionella R-applikationer? Eftersom det ger en distribuerad dataramimplementering som stöder operation som val, filtrering, aggregering etc men på stora datamängder.

Ta en andning nu! Vi är klara med den tekniska delen i denna datavetenskapliga handledning, låt oss titta på det ur ditt jobbperspektiv nu. Jag tror att du nu skulle ha googlat lönerna för en datavetare, men låt oss ändå diskutera de jobbroller som är tillgängliga för dig som datavetare.

Data Scientists jobbroller

Några av de framstående Data Scientist-titlarna är:

  • Data Scientist
  • Dataingenjör
  • Dataarkitekt
  • Dataadministratör
  • Dataanalytiker
  • Affärsanalytiker
  • Data / Analytics Manager
  • Business Intelligence Manager

Payscale.com-diagrammet i denna Data Science-handledning nedan visar den genomsnittliga datavetenskapslönen efter färdigheter i USA och Indien.

Tiden är mogen för kompetens inom datavetenskap och Big Data Analytics för att dra nytta av de karriärmöjligheter som finns inom Data Science. Detta leder oss till slutet av handledningen på Data Science. Jag hoppas att den här bloggen var informativ och gav mervärde för dig. Nu är det dags att komma in i Data Science-världen och bli en framgångsrik Data Scientist.

Edureka har en speciellt kuraterad vilket hjälper dig att få expertis inom maskininlärningsalgoritmer som K-Means Clustering, Decision Trees, Random Forest, Naive Bayes. Du lär dig också begreppen statistik, tidsserier, textbrytning och en introduktion till djupt lärande. Nya satser för denna kurs börjar snart !!

Har du en fråga till oss i Data Science Tutorial? Vänligen nämna det i kommentarfältet så återkommer vi till dig.