Vad är datavetenskap? En nybörjarguide för datavetenskap

Datavetenskap är framtiden för artificiell intelligens. Lär dig vad som är datavetenskap, hur kan det tillföra värde till ditt företag och dess olika livscykelfaser.

När världen gick in i big data-eran ökade också behovet av lagring. Det var den viktigaste utmaningen och angelägenheten för företagsindustrin fram till 2010. Huvudfokus låg på att bygga en ram och lösningar för att lagra data. När Hadoop och andra ramar framgångsrikt har löst problemet med lagring har fokus flyttats till bearbetning av dessa data. Datavetenskap är den hemliga såsen här. Alla idéer som du ser i Hollywood sci-fi-filmer kan faktiskt bli verklighet av Data Science. Datavetenskap är framtiden för artificiell intelligens. Därför är det mycket viktigt att förstå vad som är datavetenskap och hur kan det tillföra värde till ditt företag.

Edureka 2019 Tech Career Guide är ute! De hetaste jobbrollerna, exakta inlärningsvägar, industrisyn och mer i guiden. Ladda ner nu.

I den här bloggen kommer jag att täcka följande ämnen.





I slutet av denna blogg kommer du att kunna förstå vad som är datavetenskap och dess roll för att utvinna meningsfulla insikter från de komplexa och stora datamängderna runt omkring oss.För att få fördjupad kunskap om datavetenskap kan du anmäla dig till live av Edureka med support dygnet runt och livstidsåtkomst.

Vad är datavetenskap?

Datavetenskap är en blandning av olika verktyg, algoritmer och maskininlärningsprinciper med målet att upptäcka dolda mönster från rådata. Men hur skiljer sig detta från vad statistiker har gjort i flera år?



Svaret ligger i skillnaden mellan att förklara och förutsäga.

Data Analyst v / s Data Science - Edureka

Som du kan se från ovanstående bild, en dataanalytikerförklarar vanligtvis vad som händer genom att behandla datahistoriken. Å andra sidan gör Data Scientist inte bara den undersökande analysen för att upptäcka insikter från den, utan använder också olika avancerade maskininlärningsalgoritmer för att identifiera förekomsten av en viss händelse i framtiden. En dataforskare kommer att titta på data från många vinklar, ibland vinklar som inte tidigare varit kända.



Så, Data Science används främst för att fatta beslut och förutsägelser med användning av prediktiv kausalanalys, förskrivningsanalys (prediktiv plus beslutsvetenskap) och maskininlärning.

  • Prediktiv kausalanalys - Om du vill ha en modell som kan förutsäga möjligheterna för en viss händelse i framtiden måste du använda prediktiv kausalanalys. Säg, om du tillhandahåller pengar på kredit är det ett bekymmer för dig att sannolikheten för att kunder gör framtida kreditbetalningar i tid. Här kan du bygga en modell som kan utföra prediktiv analys på kundens betalningshistorik för att förutsäga om framtida betalningar kommer att ske i tid eller inte.
  • Förskrivningsanalys: Om du vill ha en modell som har intelligensen att ta egna beslut och förmågan att modifiera den med dynamiska parametrar, behöver du verkligen receptbelagd analys för den. Detta relativt nya område handlar om att ge råd. Med andra ord förutsäger det inte bara en rad föreskrivna åtgärder och associerade resultat.
    Det bästa exemplet för detta är Googles självkörande bil som jag också diskuterade tidigare. Uppgifterna som samlas in av fordon kan användas för att träna självkörande bilar. Du kan köra algoritmer på dessa data för att få intelligens till den. Detta gör att din bil kan fatta beslut som när du ska svänga, vilken väg du ska ta,när man ska sakta ner eller påskynda.
  • Maskininlärning för att göra förutsägelser - Om du har transaktionsdata från ett finansföretag och behöver bygga en modell för att bestämma den framtida trenden är maskininlärningsalgoritmer det bästa alternativet. Detta faller under paradigmet för övervakat lärande. Det kallas övervakat eftersom du redan har de data som du kan träna dina maskiner på. Exempelvis kan en modell för upptäckt av bedrägerier utbildas med hjälp av en historisk historia av bedrägliga inköp.
  • Maskininlärning för mönsterupptäckt - Om du inte har de parametrar som du kan göra förutsägelser för, måste du ta reda på de dolda mönstren i datasetet för att kunna göra meningsfulla förutsägelser. Det här är inget annat än den utan tillsyn, eftersom du inte har några fördefinierade etiketter för gruppering. Den vanligaste algoritmen som används för mönsterupptäckt är Clustering.
    Låt oss säga att du arbetar i ett telefonbolag och att du måste skapa ett nätverk genom att placera torn i en region. Sedan kan du använda klustringstekniken för att hitta de tornplatser som säkerställer att alla användare får optimal signalstyrka.

Låt oss se hur andelen ovan beskrivna tillvägagångssätt skiljer sig åt både för dataanalys och datavetenskap. Som du kan se på bilden nedan, dataanalysinnehåller beskrivande analys och förutsägelse i viss utsträckning. Å andra sidan handlar datavetenskap mer om Predictive Causal Analytics och Machine Learning.

överbelastning och åsidosättande i Java

Data Science Analytics - Edureka

Nu när du vet vad Data Science exakt är, låt oss nu ta reda på anledningen till att det behövdes i första hand.

Varför datavetenskap?

  • Traditionellt var den information som vi hade mestadels strukturerad och liten i storlek, som kunde analyseras med enkla BI-verktyg.Till skillnad från data itraditionella system som mestadels var strukturerade, idag är de flesta uppgifter ostrukturerade eller halvstrukturerade. Låt oss titta på datatrenderna i bilden nedan som visar att mer än 80% av uppgifterna kommer att vara strukturerade till 2020.
    Flöde av ostrukturerad data - Edureka
    Dessa data genereras från olika källor som ekonomiska loggar, textfiler, multimediaformulär, sensorer och instrument. Enkla BI-verktyg kan inte bearbeta denna enorma volym och mängd data. Det är därför vi behöver mer komplexa och avancerade analytiska verktyg och algoritmer för att bearbeta, analysera och dra meningsfulla insikter ur det.

Detta är inte den enda anledningen till att Data Science har blivit så populär. Låt oss gräva djupare och se hur Data Science används på olika domäner.

  • Vad sägs om du kunde förstå dina kunders exakta krav från den befintliga informationen som kundens tidigare webbhistorik, köphistorik, ålder och inkomst. Utan tvekan hade du också all denna information tidigare, men nu med den stora mängden och mångfalden av data kan du träna modeller mer effektivt och rekommendera produkten till dina kunder med mer precision. Skulle det inte vara fantastiskt eftersom det kommer att ge fler affärer till din organisation?
  • Låt oss ta ett annat scenario för att förstå datavetenskapens roll i beslutsfattande.Vad sägs om din bil hade intelligensen att köra dig hem? De självkörande bilarna samlar live data från sensorer, inklusive radar, kameror och lasrar för att skapa en karta över omgivningen. Baserat på dessa uppgifter krävs beslut som när man ska påskynda, när man ska påskynda, när man ska köra om, var man ska ta en sväng - med avancerade maskininlärningsalgoritmer.
  • Låt oss se hur datavetenskap kan användas i prediktiv analys. Låt oss ta väderprognoser som ett exempel. Data från fartyg, flygplan, radar, satelliter kan samlas in och analyseras för att bygga modeller. Dessa modeller kommer inte bara att förutsäga vädret utan också hjälpa till att förutsäga förekomsten av eventuella naturkatastrofer. Det hjälper dig att vidta lämpliga åtgärder i förväg och rädda många dyrbara liv.

Låt oss titta på infografiken nedan för att se alla domäner där Data Science skapar sitt intryck.

Data Science Use Cases - Edureka

Vem är en datavetare?

Det finns flera definitioner tillgängliga på Data Scientists. Med enkla ord är en datavetare en som utövar datavetenskapens konst.Termen 'Data Scientist' har varitmyntade efter att ha övervägt det faktum att en datavetare hämtar mycket information från de vetenskapliga områdena och tillämpningarna, oavsett om det är statistik eller matematik.

Vad gör en datavetare?

Dataforskare är de som knakar komplexa dataproblem med sin starka expertis inom vissa vetenskapliga discipliner. De arbetar med flera element relaterade till matematik, statistik, datavetenskap etc (även om de kanske inte är experter på alla dessa områden).De använder mycket av den senaste tekniken för att hitta lösningar och nå slutsatser som är avgörande för en organisations tillväxt och utveckling. Dataforskare presenterar data i en mycket mer användbar form jämfört med rådata tillgängliga från strukturerade såväl som ostrukturerade former.

Om du vill veta mer om en datavetare kan du hänvisa till den här artikeln på

När vi går vidare, kan vi nu diskutera BI. Jag är säker på att du kanske har hört talas om Business Intelligence (BI) också. Data Science förväxlas ofta med BI. Jag kommer att säga lite koncist och tydligtkontraster mellan de två som hjälper dig att få en bättre förståelse. Låt oss ta en titt.

Business Intelligence (BI) vs Data Science

  • Business Intelligence (BI) analyserar i grunden tidigare data för att hitta eftertanke och insikt för att beskriva affärstrender. Här låter BI dig ta data från externa och interna källor, förbereda den, köra frågor på den och skapa instrumentpaneler för att svara på frågor somkvartalsvis intäktsanalyseller affärsproblem. BI kan utvärdera effekterna av vissa händelser inom en snar framtid.
  • Datavetenskap är ett mer framåtblickande tillvägagångssätt, ett utforskande sätt med fokus på att analysera tidigare eller aktuella data och förutsäga framtida resultat i syfte att fatta välgrundade beslut. Den svarar på de öppna frågorna om 'vad' och 'hur' händelser inträffar.

Låt oss titta på några kontrasterande funktioner.

Funktioner Business Intelligence (BI) Datavetenskap
DatakällorStrukturerad
(Vanligtvis SQL, ofta datalager)
Både strukturerad och ostrukturerad

(loggar, molndata, SQL, NoSQL, text)

Närma sigStatistik och visualiseringStatistik, maskininlärning, grafanalys, neurospråklig programmering (NLP)
FokusFörr och nuNuvarande och framtid
VerktygPentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R.

Det här handlade om vad som är datavetenskap, nu ska vi förstå datavetenskapens livscykel.

Ett vanligt misstag i Data Science-projekt är att rusa in i datainsamling och analys utan att förstå kraven eller ens utforma affärsproblemet ordentligt. Därför är det mycket viktigt för dig att följa alla faser under hela datavetenskapens livscykel för att säkerställa att projektet fungerar smidigt.

Datavetenskapens livscykel

Här är en kort översikt över huvudfaserna i datavetenskapens livscykel:

Datavetenskapens livscykel - Edureka


Upptäckt av datavetenskap - EdurekaFas 1 — Discovery:
Innan du börjar projektet är det viktigt att förstå de olika specifikationerna, kraven, prioriteringarna och den budget som krävs. Du måste ha förmågan att ställa rätt frågor.Här bedömer du om du har de resurser som krävs när det gäller människor, teknik, tid och data för att stödja projektet.I denna fas måste du också utforma affärsproblemet och formulera initiala hypoteser (IH) för att testa.

Datavetenskapsförberedelse - Edureka

Fas 2 — Dataförberedelse: I den här fasen behöver du analytisk sandlåda där du kan utföra analyser under hela projektets varaktighet. Du måste utforska, förbehandla och konditionera data innan du modellerar. Vidare kommer du att utföra ETLT (extrahera, transformera, ladda och transformera) för att få data in i sandlådan. Låt oss ta en titt på flödet för statistisk analys nedan.

Datavetenskapens livscykel
Du kan använda R för datarengöring, transformation och visualisering. Detta hjälper dig att upptäcka avvikelserna och skapa en relation mellan variablerna.När du har rengjort och förberett data är det dags att göra utforskandeanalyspå det. Låt oss se hur du kan uppnå det.

Fas 3 — Modellplanering: Datavetenskaplig modellplanering - Edureka Här bestämmer du metoderna och teknikerna för att rita sambandet mellan variabler.Dessa relationer kommer att utgöra basen för algoritmerna som du kommer att implementera i nästa fas.Du kommer att tillämpa Exploratory Data Analytics (EDA) med hjälp av olika statistiska formler och visualiseringsverktyg.

Låt oss ta en titt på olika verktyg för modellplanering.

Verktyg för modellplanering inom datavetenskap - Edureka

  1. R har en komplett uppsättning modelleringsfunktioner och ger en bra miljö för att bygga tolkningsmodeller.
  2. SQL-analystjänster kan utföra analyser i databaser med vanliga datautvinningsfunktioner och grundläggande förutsägbara modeller.
  3. SAS / TILLGÅNG kan användas för att komma åt data från Hadoop och används för att skapa repeterbara och återanvändbara modellflödesdiagram.

Även om det finns många verktyg på marknaden men R är det mest använda verktyget.

Nu när du har fått inblick i arten av dina data och har bestämt algoritmerna som ska användas. I nästa steg kommer dutillämpaalgoritmen och bygg upp en modell.

Datavetenskapsmodellbyggnad - EdurekaFas 4 — Modellbyggnad: I denna fas kommer du att utveckla datamängder för tränings- och teständamål. Här yDu måste överväga om dina befintliga verktyg räcker för att köra modellerna eller om det behöver en mer robust miljö (som snabb och parallell bearbetning). Du kommer att analysera olika inlärningstekniker som klassificering, association och kluster för att bygga modellen.

Du kan uppnå modellbyggnad med följande verktyg.

Modellbyggnadsverktyg i datavetenskap

Fas 5 — Operationalize: Datavetenskap operationaliserar - Edureka I denna fas levererar du slutrapporter, genomgångar, kod och tekniska dokument.Dessutom genomförs ibland också ett pilotprojekt i en realtidsmiljö i produktionen. Detta ger dig en tydlig bild av prestanda och andra relaterade begränsningar i liten skala innan full distribution.


Kommunikation inom datavetenskap - EdurekaFas 6 — Kommunicera resultat:
Nu är det viktigt att utvärdera om du har lyckats uppnå ditt mål som du hade planerat i den första fasen. Så i den sista fasen identifierar du alla viktiga resultat, kommunicerar till intressenterna och bestämmer om resultatenprojektet är en framgång eller ett misslyckande baserat på kriterierna som utvecklats i fas 1.

Nu ska jag ta en fallstudie för att förklara de olika faserna som beskrivs ovan.

Fallstudie: diabetesförebyggande

Vad händer om vi kan förutsäga förekomsten av diabetes och vidta lämpliga åtgärder i förväg för att förhindra det?
I detta användningsfall kommer vi att förutsäga förekomsten av diabetes med användning av hela livscykeln som vi diskuterade tidigare. Låt oss gå igenom de olika stegen.

skillnad mellan html och xml

Steg 1:

  • Först,vi samlar in data baserat på sjukdomshistoriaav patienten som diskuteras i fas 1. Du kan hänvisa till provdata nedan.

Datavetenskapsexempeldata - Edureka

  • Som du kan se har vi de olika attributen som nämns nedan.

Attribut:

  1. npreg - Antal gravida gånger
  2. glukos - Plasmaglukoskoncentration
  3. bp - Blodtryck
  4. hud - Triceps hudveck tjocklek
  5. bmi - Body mass index
  6. ped - Stamträningsfunktion för diabetes
  7. ålder - Ålder
  8. inkomst - Inkomst

Steg 2:

  • När vi väl har data måste vi städa och förbereda data för dataanalys.
  • Dessa data har många inkonsekvenser som saknade värden, tomma kolumner, abrupta värden och felaktigt dataformat som måste rengöras.
  • Här har vi organiserat data i en enda tabell under olika attribut - vilket gör att den ser mer strukturerad ut.
  • Låt oss ta en titt på exempeluppgifterna nedan.

Datavetenskap inkonsekventa data - Edureka

Dessa uppgifter har många inkonsekvenser.

  1. I kolumnen npreg , 'En' är skrivet iord,medan det ska vara i numerisk form som 1.
  2. I kolumn bp ett av värdena är 6600 vilket är omöjligt (åtminstone för människor) eftersom bp inte kan gå upp till ett så stort värde.
  3. Som du kan se Inkomst kolumnen är tom och ger ingen mening att förutsäga diabetes. Därför är det överflödigt att ha det här och bör tas bort från bordet.
  • Så vi kommer att rensa och förbehandla dessa data genom att ta bort outliers, fylla upp nollvärdena och normalisera datatypen. Om du kommer ihåg är detta vår andra fas som är förbehandling av data.
  • Slutligen får vi de rena data som visas nedan som kan användas för analys.

Datavetenskap konsekvent data - Edureka

Steg 3:

Låt oss nu göra en analys som diskuterades tidigare i fas 3.

  • Först laddar vi in ​​data i den analytiska sandlådan och tillämpar olika statistiska funktioner på den. Till exempel har R funktioner som beskriver vilket ger oss antalet saknade värden och unika värden. Vi kan också använda sammanfattningsfunktionen som ger oss statistisk information som medelvärde, median, intervall, min och maxvärden.
  • Sedan använder vi visualiseringstekniker som histogram, linjediagram, rutor för att få en rättvisande bild av distributionen av data.

Datavetenskaplig visualisering - Edureka

Steg 4:

Nu, baserat på insikter från föregående steg, passar bäst beslutsträdet bäst för denna typ av problem. Låt oss se hur?

  • Sedan har vi redan de viktigaste attributen för analys som npreg, bmi , etc., så kommer vi att användaövervakad inlärningsteknik för att bygga enmodell här.
  • Vidare har vi särskilt använt beslutsträd eftersom det tar hänsyn till alla attribut på en gång, som de som har ettlinjära förhållanden liksom de som har ett icke-linjärt förhållande. I vårt fall har vi en linjär relation mellan npreg och ålder, Det icke-linjära förhållandet mellan npreg och ped .
  • Beslutsträdsmodeller är också mycket robusta eftersom vi kan använda olika kombinationer av attribut för att skapa olika träd och sedan äntligen implementera den med maximal effektivitet.

Låt oss ta en titt på vårt beslutsträd.

Design träddatauppsättning

hur man skapar instrumentpanel i kraft bi

Här är den viktigaste parametern nivån av glukos, så det är vår rotnod. Nu bestämmer den aktuella noden och dess värde nästa viktiga parameter som ska tas. Det fortsätter tills vi får resultatet när det gäller pos eller neg . Pos betyder att tendensen att ha diabetes är positiv och neg betyder att tendensen att ha diabetes är negativ.

Om du vill lära dig mer om genomförandet av beslutsträdet, hänvisa den här bloggen

Steg 5:

I den här fasen kommer vi att köra ett litet pilotprojekt för att kontrollera om våra resultat är lämpliga. Vi kommer också att leta efter prestationsbegränsningar om några. Om resultaten inte är korrekta måste vi planera om och bygga om modellen.

Steg 6:

När vi har genomfört projektet framgångsrikt delar vi utdata för fullständig distribution.

Att vara datavetare är lättare sagt än gjort. Så låt oss se vad allt du behöver för att vara en datavetare.En datavetare kräver i grunden färdigheterfrån tre huvudområden som visas nedan.

Datavetenskapliga färdigheter - Edureka

Som du kan se i bilden ovan måste du förvärva olika hårda färdigheter och mjuka färdigheter. Du måste vara bra på statistik och matematik att analysera och visualisera data. Naturligtvis, Maskininlärning utgör hjärtat av datavetenskap och kräver att du är bra på det. Du måste också ha en solid förståelse för domän du arbetar för att förstå affärsproblemen tydligt. Din uppgift slutar inte här. Du bör kunna implementera olika algoritmer som kräver bra kodning Kompetens. Slutligen, när du har fattat vissa viktiga beslut är det viktigt för dig att leverera dem till intressenterna. Så bra kommunikation kommer definitivt lägga brownie poäng till dina färdigheter.

Jag uppmanar dig att se denna videohandledning för datavetenskap som förklarar vad som är datavetenskap och allt vi har diskuterat i bloggen. Fortsätt, njut av videon och berätta vad du tycker.

Vad är datavetenskap? Data Science Course - Data Science Tutorial For Nybörjare | Edureka

Denna Edureka Data Science-kursvideo tar dig igenom behovet av datavetenskap, vad är datavetenskap, data science use cases för företag, BI vs datavetenskap, dataanalysverktyg, datavetenskapens livscykel tillsammans med en demo.

I slutändan blir det inte fel att säga att framtiden tillhör dataforskarna. Det förutspås att det vid slutet av året 2018 kommer att finnas ett behov av cirka en miljon datavetare. Mer och mer data ger möjligheter att driva viktiga affärsbeslut. Det kommer snart att förändra vårt sätt att se på världen som är fördjupad med data omkring oss. Därför bör en datavetare vara mycket skicklig och motiverad att lösa de mest komplexa problemen.

Jag hoppas att du tyckte om att läsa min blogg och förstod vad som är Data Science.Kolla in vår här kommer det med instruktörsledad live-utbildning och verklig projektupplevelse.