Statistik för maskininlärning: En nybörjarguide



Denna artikel om statistik för maskininlärning är en omfattande guide om olika begrepp os statistik med exempel.

Att förstå data och kunna skapa värde ur det är decenniets skicklighet. Machine Learning är en sådan kärnkompetens som hjälper företag att uppfylla den. Men för att komma igång måste du bygga dina fundament rätt. Så i den här artikeln kommer jag att täcka några grundläggande begrepp och ge dig riktlinjer för att börja din resa inom maskininlärning. Så i denna artikel om statistik för maskininlärning kommer följande ämnen att diskuteras:

  1. Sannolikhet
  2. Statistik
  3. Linjär algebra

Sannolikhet och statistik för maskininlärning:





Vad är sannolikhet?

Sannolikhet kvantifierar sannolikheten för att en händelse inträffar. Till exempel, om du rullar en rättvis, opartisk matris, är sannolikheten för ett att slå upp är 1/6 . Nu, om du undrar why? Då är svaret ganska enkelt!

Detta beror på att det finns sex möjligheter och alla är lika troliga (rättvis dö). Därför kan vi lägga till 1 + 1 + 1 + 1 + 1 + 1 = 6. Men eftersom vi är intresserade av händelse där 1 dyker upp . Det finns bara ett sätt händelsen kan inträffa. Därför,



Sannolikheten för att 1 dyker upp = 1/6

Liknande är fallet med alla andra siffror eftersom alla händelser är lika troliga. Enkelt, eller hur?

Tja, en frekvent definition av sannolikhet för detta exempel skulle låta som - sannolikheten för att 1 dyker upp är förhållandet mellan antalet gånger 1 dyker upp till det totala antalet gånger munstycket rullades om munstycket rullades ett oändligt antal gånger.Hur är det vettigt?



Låt oss göra det mer intressant. Tänk på de två fallen - du rullade en rättvis form 5 gånger. I ett fall är nummersekvensen som dyker upp - [1,4,2,6,4,3]. I det andra fallet får vi - [2,2,2,2,2,2]. Vilken tror du är mer sannolik?

Båda är lika troliga. Verkar konstigt, eller hur?

Tänk nu på ett annat fall där alla 5 rullarna i varje fall är självständig . Det betyder att den ena rullen inte påverkar den andra. I det första fallet, när 6 dyker upp, hade den ingen aning om att 2 dök upp före den. Därför är alla 5 rullarna lika troliga.

På samma sätt kan de raka 2 i det andra fallet förstås som en sekvens av oberoende händelser. Och alla dessa händelser är lika troliga. Sammantaget, eftersom vi har samma tärningar, sannolikheten för att ett visst antal dyker upp i fall ett är detsamma som fall två. Därefter, i den här artikeln om statistik för maskininlärning, låt oss förstå termen Oberoende.

Oberoende

Två händelser A och B sägs vara oberoende om förekomsten av A inte påverkar händelse B . Till exempel, om du slänger ett mynt och rullar en form, har resultatet av formen ingen effekt på om myntet visar huvuden eller svansarna. Också för två oberoende händelser A och B , den sannolikheten att A och B kan förekomma tillsammans . Så om du till exempel vill ha sannolikheten att mynt visar huvuden och dör visar 3.

P (A och B) = P (A) * P (B)

Därför är P = & frac12 (sannolikheten för att huvuden dyker upp) * ⅙ (sannolikheten att 3 dyker upp) = 1/12

I det föregående exemplet, för båda fallen, P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

vad är en konstruktör i python

Låt oss nu prata om händelser som inte är oberoende. Tänk på följande tabell:

Fet Inte fetma
HjärtproblemFyra femfemton
Inga hjärtproblem1030

En undersökning av 100 personer genomfördes. 60 hade hjärtproblem och 40 hade inte. Av de 60 som har hjärtproblem var 45 överviktiga. Av de 40 utan hjärtproblem var 10 överviktiga. Om någon frågar dig -

  1. Vad är sannolikheten för hjärtproblem?
  2. Vad är sannolikheten för att få hjärtproblem och inte bli fet?

Svaret på de första frågorna är enkelt - 60/100. För den andra skulle det vara 15/100. Tänk nu på den tredje frågan - En person valdes slumpmässigt. Han befanns ha hjärtsjukdom. Vad är sannolikheten för att han är överviktig?

Tänk nu på informationen du får - Det är känt att han har hjärtsjukdom. Därför kan han inte vara från de 40 som inte har hjärtsjukdom. Det finns bara 60 möjliga alternativ (den översta raden i tabellen). Nu, bland dessa minskade möjligheter, är sannolikheten att han är överviktig 45/60. Nu, när du har vetat vad som är oberoende händelser, låt oss förstå nästa villkor i den här artikeln om statistik för maskininlärning.

Villkorliga sannolikheter

För att förstå villkorliga sannolikheter, låt oss fortsätta vår diskussion med exemplet ovan. Statusen för att vara överviktig och statusen att ha drabbats av hjärtproblem är inte oberoende. Om övervikt inte påverkade hjärtproblemen, skulle antalet överviktiga och icke-överviktiga fall för personer med hjärtproblem ha varit detsamma.

Vi fick också att personen hade hjärtproblem och vi var tvungna att ta reda på sannolikheten för att han är överviktig. Så, sannolikheten, i detta fall, sägs vara villkorad av det faktum att han har hjärtproblem. Om sannolikheten för att händelse A inträffar är beroende av händelse B, representerar vi den som

P (A | B)

Nu finns det en teorem som hjälper oss att beräkna denna villkorliga sannolikhet. Det kallas Bayes regel .

P (A | B) = P (A och B) / P (B)

Du kan kontrollera denna sats genom att ansluta exemplet vi just diskuterat. Om du har förstått hittills kan du komma igång med följande - Naive Bayes . Den använder villkorliga sannolikheter för att klassificera om ett e-postmeddelande är en skräppost eller inte. Det kan utföra många andra klassificeringsuppgifter. Men i huvudsak är villkorlig sannolikhet kärnan i .

Statistik:

Statistik är används för att sammanfatta och dra slutsatser om ett stort antal datapunkter. I datavetenskap och maskininlärning kommer du ofta att stöta på följande terminologi

  • Centralåtgärder
  • Distributioner (särskilt normalt)

Centralitetsmått och mått på spridning

Betyda:

Menar är bara en genomsnitt av siffror . För att få reda på medelvärdet måste du summera siffrorna och dela det med antalet siffror. Till exempel är medelvärdet av [1,2,3,4,5] 15/5 = 3.

mean-statistics-for-machine-learning

Median:

Median är mittelement i en uppsättning siffror när de är ordnade i stigande ordning. Till exempel är siffrorna [1,2,4,3,5] ordnade i stigande ordning [1,2,3,4,5]. Den mellersta av dessa är 3. Därför är medianen 3. Men vad händer om antalet siffror är jämnt och därför inte har något mittnummer? I så fall tar du genomsnittet av de två mellanliggande siffrorna. För en sekvens av 2n-siffror i stigande ordning, medelvärde nth och (n + 1)thnummer för att få medianen. Exempel - [1,2,3,4,5,6] har medianen (3 + 4) / 2 = 3,5

Läge:

Läget är helt enkelt vanligaste numret i en uppsättning siffror . Till exempel är läget för [1,2,3,3,4,5,5,5] 5.

Variation:

Varians är inte ett centralt mått. Det mäter hur dina data sprids runt medelvärdet . Det kvantifieras som

xär medelvärdet av N-tal. Du tar en punkt, subtraherar medelvärdet, tar kvadraten för denna skillnad. Gör detta för alla N-siffror och genomsnitt dem. Kvadratroten till variansen kallas standardavvikelsen. Därefter, i den här artikeln om statistik för maskininlärning, låt oss förstå normal distribution.

Normal distribution

Distribution hjälper oss förstå hur våra uppgifter sprids . I ett urval av åldrar kan vi till exempel ha ungdomar mer än äldre vuxna och därmed mindre åldersvärden mer än större värden. Men hur definierar vi en distribution? Tänk på exemplet nedan

Y-axeln representerar densiteten. Läget för denna fördelning är 30 eftersom det är toppen och därmed oftast. Vi kan också hitta medianen. Median ligger vid den punkt på x-axeln där hälften av arean under kurvan täcks. Området under någon normalfördelning är 1 eftersom summan av sannolikheten för alla händelser är 1. Till exempel,

skillnad mellan forskarutbildning och magisterexamen

Median i ovanstående fall är cirka 4. Detta innebär att arean under kurvan före 4 är densamma som efter 4. Överväg ett annat exempel

Vi ser tre normala fördelningar. De blå och röda har samma medelvärde. Den röda har större variation. Därför är den mer utspridd än den blå. Men eftersom området måste vara 1 är toppen av den röda kurvan kortare än den blå kurvan för att hålla området konstant.

Hoppas att du förstod den grundläggande statistiken och normala distributioner. Nu, nästa i den här artikeln om statistik för maskininlärning, låt oss lära oss om linjär algebra.

Linjär algebra

Modern AI skulle inte vara möjlig utan linjär algebra. Det utgör kärnan i Djup lärning och har använts även i enkla algoritmer som . Låt oss komma igång utan ytterligare fördröjning.

Du måste känna till vektorer. De är ett slags geometriska framställningar i rymden. Till exempel har en vektor [3,4] 3 enheter längs x-axeln och 4 enheter längs y-axeln. Tänk på följande bild -

Vektor d1 har 0,707 enheter längs x-axeln och 0,707 enheter längs y-axeln. En vektor har en dimension. Det har nödvändigtvis en storlek och en riktning. Till exempel,

Ovanstående bild har en vektor (4,3). Dess storlek är 5 och den gör 36,9 grader med x-axeln.

Vad är en matris nu? Matris är ett flerdimensionellt antal siffror. Vad används det till? Vi ser framåt. Men först, låt oss titta på hur den används.

Matris

En matris kan ha många dimensioner. Låt oss överväga en tvådimensionell matris. Den har rader (m) och kolumner (n). Därför har den m * n-element.

php konvertera array till objekt

Till exempel,

Denna matris har 5 rader och 5 kolumner. Låt oss kalla det A. Därför är A (2,3) posten i andra raden och tredje kolumnen som är 8.

Nu när du vet vad som är en matris, kan vi titta på de olika funktionerna i matrisen.

Matrixoperationer

Tillägg av matriser

Två matriser av samma mått kan läggas till. Tillägget sker elementmässigt.

Scalar Multiplikation

En matris kan multipliceras med en skalär kvantitet. En sådan multiplikation leder till att varje post i matrisen multipliceras med skalären. En skalär är bara ett tal

Matrix Transpose

Matrix transponera är enkelt. För en matris A (m, n), låt A 'vara dess transponering. Sedan

A '(i, j) = A (j, i)

Till exempel,

Matrixmultiplikation

Detta är förmodligen lite knepigt än andra operationer. Innan vi dyker in i det, låt oss definiera punktprodukt mellan två vektorer.

Tänk på vektorn X = [1,4,6,0] och vektorn Y = [2,3,4,5]. Då definieras punktprodukt mellan X och Y som

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Så det är elementvis multiplikation och addition. Nu,låt oss betrakta två matriser A (m, n) och B (n, k), där m, n, k är dimensioner och därmed heltal. Vi definierar matrixmultiplikation som

I exemplet ovan erhålls det första elementet i produkten (44) av punktprodukten från den första raden i den vänstra matrisen med den första kolumnen i den högra matrisen. På samma sätt erhålls 72 med punktprodukten från den första raden i den vänstra matrisen med den andra kolumnen i den högra matrisen.

Observera att för den vänstra matrisen ska antalet kolumner vara lika med antalet rader i den högra kolumnen. I vårt fall finns produkten AB men inte BA eftersom m inte är lika med k. För två matriser A (m, n) och B (n, k) definieras produkten AB och produktens dimension är (m, k) (de yttersta dimensionerna av (m, n), (n, k )). Men BA definieras inte om inte m = k.

Med detta kommer vi till ett slut på den här artikeln om Statistics for Machine Learning. Jag hoppas att ni har förstått en del av maskininlärningsjargongen. Det slutar dock inte här. För att vara säker på att du är branschklar kan du kolla in Edurekas kurser om datavetenskap och AI. De kan hittas