I , baseras en modells prestanda på dess förutsägelser och hur väl den generaliseras mot osedda, oberoende data. Ett sätt att mäta modellens noggrannhet är att hålla redogörelse för bias och varians i modellen. I den här artikeln lär vi oss hur bias-varians spelar en viktig roll för att bestämma modellens äkthet. Följande ämnen diskuteras i den här artikeln:
- Oreducerbart fel
- Vad är bias i maskininlärning?
- Varians i en maskininlärningsmodell?
- Hur påverkar det maskininlärningsmodellen?
- Bias-variation avvägning
- Totalt fel
Oreducerbart fel
Alla modeller i utvärderas baserat på förutsägelsefelet på en ny oberoende, osedd datamängd. Fel är inget annat än skillnaden mellan den faktiska utgången och den förutsagda utgången. För att beräkna felet gör vi en summering av reducerbart och irreducerbart fel a.k.a bias-variansnedbrytning.
Oåterkalleligt fel är inget annat än de fel som inte kan minskas oavsett något som du använder i modellen. Det orsakas av ovanliga variabler som har ett direkt inflytande på utgångsvariabeln. Så för att göra din modell effektiv sitter vi kvar med det reducerbara felet som vi behöver optimera till varje pris.
Ett reducerbart fel har två komponenter - Bias och variation , förekomst av fördomar och varians påverkar modellens noggrannhet på flera sätt som overfitting, underfitting , etc.Låt oss ta en titt på bias och varians för att förstå hur man hanterar det reducerbara felet i .
Vad är bias i maskininlärning?
Bias är i princip hur långt vi har förutsagt värdet från det verkliga värdet. Vi säger att förspänningen är för hög om de genomsnittliga förutsägelserna är långt ifrån de faktiska värdena.
En hög förspänning kommer att få algoritmen att missa ett dominerande mönster eller förhållande mellan ingångs- och utgångsvariablerna. När förspänningen är för hög antas det att modellen är ganska enkel och inte förstår komplexiteten hos datamängden för att bestämma förhållandet och därmed,orsakar underfitting.
Varians i en maskininlärningsmodell?
På en oberoende, osedd datamängd eller en valideringsuppsättning. När en modell inte fungerar lika bra som med den utbildade datamängden finns det en möjlighet att modellen har en varians. Det berättar i princip hur spridda de förutsagda värdena är från de faktiska värdena.
En hög varians i en datamängd innebär att modellen har tränat med mycket brus och irrelevanta data. Således orsakar överanpassning i modellen. När en modell har hög varians blir den mycket flexibel och gör fel förutsägelser för nya datapunkter. Eftersom den har anpassat sig till datapunkterna i träningssatsen.
Låt oss också försöka förstå begreppet bias-varians matematiskt. Låt variabeln som vi förutspår vara Y och de andra oberoende variablerna vara X. Låt oss anta att det finns ett samband mellan de två variablerna så att:
Y = f (X) + e
I ovanstående ekvation, här är är det uppskattade felet med ett medelvärde 0. När vi gör en klassificering med algoritmer som linjär regression , , etc, kommer det förväntade kvadratfelet vid punkt x att vara:
err (x) = Bias2+ Varians + irreducerbart fel
Låt oss också förstå hur Bias-variationen kommer att påverka a Maskininlärning modellens prestanda.
Hur påverkar det maskininlärningsmodellen?
Vi kan placera förhållandet mellan biasvarians i fyra kategorier som listas nedan:
- High Variance-High Bias - Modellen är inkonsekvent och också felaktig i genomsnitt
- Låg variation-hög förspänning - Modellerna är konsekventa men låga i genomsnitt
- High Variance-Low Bias - Något exakt men inkonsekvent i genomsnitt
- Låg varians-låg förspänning - Det är det perfekta scenariot, modellen är i genomsnitt konsekvent och korrekt.
Även om det är ganska tydligt att upptäcka bias och varians i en modell. En modell med hög varians har lågt träningsfel och högt valideringsfel. Och vid hög förspänning kommer modellen att ha högt träningsfel och valideringsfel är detsamma som träningsfel.
Även om detektering verkar enkelt är den verkliga uppgiften att minska den till ett minimum. I så fall kan vi göra följande:
- Lägg till fler inmatningsfunktioner
- Mer komplexitet genom att införa polynomfunktioner
- Minska normaliseringstiden
- Få mer träningsdata
Nu när vi vet vad som är bias och varians och hur det påverkar vår modell, låt oss ta en titt på en bias-varians avvägning.
Bias-variation avvägning
Att hitta rätt balans mellan bias och varians i modellen kallas Bias-Variance avvägning. Det är i grunden ett sätt att se till att modellen varken är överanpassad eller underutrustad.
Om modellen är för enkel och har mycket få parametrar kommer den att drabbas av hög förspänning och låg varians. Å andra sidan, om modellen har ett stort antal parametrar, kommer den att ha hög varians och låg förspänning. Denna kompromiss bör resultera i en perfekt balanserad relation mellan de två. Helst är låg förspänning och låg varians målet för alla maskininlärningsmodeller.
Totalt fel
I alla modeller för maskininlärning fungerar en bra balans mellan förspänning och varians som ett perfekt scenario när det gäller förutsägbar noggrannhet och undvikande av överanpassning, underutrustning helt. En optimal balans mellan förspänning och varians, i termer av algoritmkomplexitet, kommer att säkerställa att modellen aldrig är överanpassad eller underutrustad alls.
Det genomsnittliga kvadratfelet i en statistisk modell betraktas som summan av kvadratisk bias och varians och varians av fel. Allt detta kan sättas in i ett totalfel där vi har en bias, varians och irreducible error i en modell.
Låt oss förstå hur vi kan minska det totala felet med hjälp av en praktisk implementering.
Vi har skapat en linjär regressionsklassificering i Linjär regression i maskininlärning artikel om Edureka med användning av diabetesuppsättningen i datamängdsmodulen för scikit lär bibliotek.
När vi utvärderade klassificeringens medelkvadratfel fick vi ett totalt fel runt 2500.
För att minska det totala felet matade vi in mer data till klassificeraren och i gengäld reducerades medelkvadratfelet till 2000.
Det är en enkel implementering av att minska det totala felet genom att mata in mer träningsdata till modellen. På samma sätt kan vi använda andra tekniker för att minska felet och upprätthålla en balans mellan förspänning och varians för en effektiv maskininlärningsmodell.
Detta leder oss till slutet av den här artikeln där vi har lärt oss Bias-Variance i Machine Learning med dess implementering och användningsfall. Jag hoppas att du är tydlig med allt som har delats med dig i denna handledning.
Om du tyckte att den här artikeln om ”Bias-Variance In Machine Learning” är relevant, kolla in ett pålitligt online-lärande företag med ett nätverk med mer än 250 000 nöjda elever spridda över hela världen.
aktivitets livscykel för Android
Vi är här för att hjälpa dig med varje steg på din resa och komma med en läroplan som är utformad för studenter och yrkesverksamma som vill vara en . Kursen är utformad för att ge dig ett försprång till Python-programmering och träna dig för både kärn- och avancerade Python-koncept tillsammans med olika tycka om , , etc.
Om du stöter på några frågor är du välkommen att ställa alla dina frågor i kommentarsektionen i 'Bias-Variance In Machine Learning' så svarar vårt team gärna.