Vilka är förutsättningarna för maskininlärning?



Denna blogg om förutsättningar för maskininlärning hjälper dig att förstå de grundläggande begreppen du behöver veta innan du börjar med maskininlärning.

Maskininlärning är utan tvekan den mest efterfrågade tekniken i eran! Om du är en nybörjare som börjar med maskininlärning är det viktigt att du känner till förutsättningarna för maskininlärning. Den här bloggen hjälper dig att förstå de olika begreppen som du behöver veta innan du börjar med maskininlärning.

För att få fördjupad kunskap om artificiell intelligens och maskininlärning kan du anmäla dig till live av Edureka med 24/7 support och livstidsåtkomst.





Här är en lista med ämnen omfattas av den här bloggen:

  1. Förutsättningar för maskininlärning
  2. Förstå maskininlärning med ett användningsfall

Förutsättningar för maskininlärning

Att komma igång medMaskininlärning du måste känna till följande begrepp:



  1. Statistik
  2. Linjär algebra
  3. Kalkyl
  4. Sannolikhet
  5. Programmeringsspråk

Statistik

Statistik innehåller verktyg som kan användas för att få lite resultat av data. Det finns beskrivande statistik som används för att omvandla rådata till viss viktig information. Inferentiell statistik kan också användas för att få viktig information från ett urval av data istället för att använda fullständig dataset.

För att lära dig mer om Statistik du kan gå igenom följande bloggar:

Linjär algebra

Linjära algebraffärermed vektorer, matriser och linjära transformationer. Det är mycket viktigt vid maskininlärning eftersom det kan användas för att omvandla och utföra operationer på datamängden.



Kalkyl

Calculus är ett viktigt fält i matematik och det spelar en integrerad roll i många maskininlärningsalgoritmer. Datauppsättning med flera funktioner äranvänds för att bygga maskininlärningsmodeller eftersom funktioner är flera flervariabla kalkyler spelar en viktig roll för att bygga en maskininlärningsmodell. Integrationer och differentiering är ett måste.

Sannolikhet

Sannolikhet hjälper till att förutsäga sannolikheten för händelser, det hjälper oss att resonera att situationen kan eller inte kan hända igen. För maskininlärning är sannolikheten a fundament.

Mathematics

hur man kompilerar i java

För att lära dig mer om sannolikhet kan du gå igenom detta Blogg.

Programmeringsspråk

Det är viktigt att känna till programmeringsspråk som R och Python för att kunna genomföra hela maskininlärningsprocessen. Python och R erbjuder båda inbyggda bibliotek som gör det väldigt enkelt att implementera maskininlärningsalgoritmer.

Förutom att ha grundläggande programmeringskunskap är det också viktigt att du vet hur du extraherar, bearbetar och analyserar data. Detta är en av de viktigaste färdigheterna som behövs för maskininlärning.

För att lära dig mer om programmeringen språk för maskininlärning kan du gå igenom följande bloggar:

  1. De bästa Python-biblioteken för datavetenskap och maskininlärning

Användningsfall för maskininlärning

Maskininlärning handlar om att skapa en algoritm som kan lära sig av data för att göra en förutsägelse som vilken typ av objekt som finns i bilden, eller rekommendationsmotorn, den bästa kombinationen av läkemedel för att bota viss sjukdom eller skräppostfiltrering.

Maskininlärning bygger på matematiska förutsättningar och om du vet varför matematik används i maskininlärning blir det roligt. Du måste veta matematiken bakom de funktioner du ska använda och vilken modell som är lämplig för data och varför.

vad är ett uttag i java

Så låt oss börja med ett intressant problem med att förutsäga huspriser, med en dataset som innehåller en historia med olika funktioner och priser, för nu kommer vi att överväga bostadsytans yta i kvadratmeter och priserna.

Nu har vi en datamängd som innehåller två kolumner som visas nedan:

Det måste finnas en viss korrelation mellan dessa två variabler för att ta reda på att vi kommer att behöva bygga en modell som kan förutsäga huspriset, hur kan vi göra det?

Låt oss diagram dessa data och se hur det ser ut:

Här är X-axeln priset per kvadratmeter bostadsyta och Y-axeln är husets pris. Om vi ​​plottar alla datapunkter får vi ett spridningsdiagram som kan representeras av en linje som visas i figuren ovan och om vi matar in några data kommer det sedan att förutsäga något resultat. Helst måste vi hitta en linje som skär de maximala datapunkterna.

Här försöker vi skapa en linje som kallas:

Y = mX + c

Denna metod för att förutsäga det linjära förhållandet mellan målet (beroende variabel) och prediktorvariabel (oberoende variabel) kallas linjär regression. Det gör att vi kan studera och sammanfatta en relation mellan två variabler.

  • X = Oberoende variabel
  • Y = Beroende variabel
  • c = y-skärning
  • m = Slop of line

Om vi ​​betraktar ekvationen har vi värden för X som är en oberoende variabel, så allt vi behöver göra är att beräkna värden för m och c för att förutsäga värdet på Y.

Så hur hittar vi dessa variabler?

För att hitta dessa variabler kan vi prova en massa värden och försöka ta reda på en rad som skär det maximala antalet datapunkter. Men hur kan vi hitta den bästa passformen?

Så för att hitta den bäst passande linjen kan vi använda minsta kvadratfelfunktionen som hittar felet mellan det verkliga värdet på y och det förutspådda värdet y`.

Funktionen med minsta kvadraterna kan representeras med följande ekvation:

Med den här funktionen kan vi ta reda på felet för varje förutsagd datapunkt genom att jämföra det med datapunktens faktiska värde. Du tar sedan summeringen av alla dessa fel och kvadrerar dem för att ta reda på avvikelsen i förutsägelsen.

Om vi ​​lägger till den tredje axeln i vår graf som innehåller alla möjliga felvärden och plottar den i 3-dimensionellt utrymme, kommer det att se ut så här:

I bilden ovan skulle de ideala värdena vara i den nedre svarta delen som kommer att förutsäga priserna nära den faktiska datapunkten. Nästa steg är att hitta bästa möjliga värden för m och c. Detta kan göras med hjälp av optimeringstekniken som kallas gradientnedstigning.

Gradientnedstigning är en iterativ metod, där vi börjar med att initialisera en uppsättning värden för våra variabler och förbättra dem långsamt genom att minimera felet mellan det verkliga värdet och det förutspådda värdet.

Om vi ​​praktiskt taget tror att lägenhetspriserna egentligen inte bara beror på priset per kvadratmeter, så finns det många faktorer som antalet sovrum, badrum etc. Om vi ​​betraktar dessa funktioner också kommer ekvationen att se något ut så här

vad är en instans Java

Y = b0 + b1x1 + b2x2 + & hellip .. + bnxn + c

Detta är multilinjär regression, detta tillhör linjär algebra, här kan vi använda matriser av storlek mxn där m är funktioner och n är datapunkter.

Låt oss överväga en annan situation där vi kan använda sannolikheten för att hitta husets skick för att klassificera ett hus baserat på om det är i gott eller dåligt skick. För att detta ska fungera måste vi använda en teknik som kallas Logistisk regression som fungerar på sannolikheten för händelser som representeras av en sigmoidfunktion.

I den här artikeln behandlade vi förutsättningarna för maskininlärning och hur de tillämpas vid maskininlärning. Så i grund och botten består den av statistik, kalkyl, linjär algebra och sannolikhetsteori. Calculus har tekniker som används för optimering, linjär algebra har algoritmer som kan fungera på stora datamängder, med sannolikhet kan vi förutsäga sannolikheten för händelser och statistik hjälper oss att dra nytta av insikter från urvalet av datamängder.

Nu när du känner till förutsättningarna för maskininlärning är jag säker på att du är nyfiken på att lära dig mer. Här är några bloggar som hjälper dig att komma igång med datavetenskap:

Om du vill anmäla dig till en fullständig kurs om artificiell intelligens och maskininlärning har Edureka en speciell kurator som kommer att göra dig skicklig i tekniker som Supervised Learning, Oövervakat lärande och Natural Language Processing. Det inkluderar utbildning om de senaste framstegen och tekniska tillvägagångssätten inom artificiell intelligens och maskininlärning som djupinlärning, grafiska modeller och förstärkningslärande.