SQL för datavetenskap: en enda lösning för nybörjare



Det här blogginlägget om SQL for Data Science hjälper dig att förstå hur SQL kan användas för att lagra, komma åt och hämta data för att utföra dataanalys.

Sedan den tid Data Science har rankats som nummer 1 för att vara det mest lovande jobbet i eran, försöker vi alla gå med i loppet av . Det här blogginlägget om SQL for Data Science hjälper dig att förstå hur SQL kan användas för att lagra, komma åt och hämta data för att utföra dataanalys.

Här är en lista över ämnen som kommer att vara omfattas av den här bloggen:





    1. Varför behövs SQL för datavetenskap?
    2. Vad är SQL?
    3. Grunderna i SQL
    4. Installerar MySQL
    5. Praktisk

Varför behövs SQL för datavetenskap?

Visste du att vi genererar mer än 2,5 miljon byte data varje dag? Denna takt med datagenereringen är anledningen till populariteten hos avancerade tekniker som Datavetenskap , , och så vidare.

Att härleda användbara insikter från data är vad som kallas Data Science. Datavetenskap innebär att extrahera, bearbeta och analysera massor av data. För närvarande är det vi behöver som kan användas för att lagra och hantera denna stora mängd data.



Vad är datavetenskap - Edureka

Det är här SQL kommer in.

SQL kan användas för att lagra, komma åt och extrahera stora mängder data för att genomföra hela datavetenskapsprocessen smidigare.



Vad är SQL?

SQL som står för Structured Query Language är ett frågespråk som syftar till att hantera relationsdatabaser.

Men vad är egentligen en relationsdatabas?

En relationsdatabas är en grupp med väldefinierade tabeller från vilka data kan nås, redigeras, uppdateras och så vidare utan att databastabellerna behöver ändras. SQL är standarden (API) för relationsdatabaser.

När vi kommer tillbaka till SQL kan SQL-programmering användas för att utföra flera åtgärder på data som att fråga, infoga, uppdatera, ta bort databasposter. Exempel på relationsdatabaser som använder SQL inkluderar MySQL Database, Oracle, etc.

Om du vill lära dig mer om SQL kan du gå igenom följande bloggar:

  1. Förstå SQL-datatyper - Allt du behöver veta om SQL-datatyper
  2. SKAPA TABELL i SQL - Allt du behöver veta om att skapa tabeller i SQL

Innan vi börjar med en demo om SQL, låt oss bekanta oss med de grundläggande SQL-kommandona.

Grunderna i SQL

SQL tillhandahåller en uppsättning enkla kommandon för att modifiera datatabeller, låt oss gå igenom några av de grundläggande SQL-kommandona:

  • SKAPA DATABAS - skapar en ny databas
  • SKAPA BORD - skapar en ny tabell
  • SÄTT IN I - infogar nya data i en databas
  • VÄLJ - extraherar data från en databas
  • UPPDATERING - uppdaterar data i en databas
  • RADERA - raderar data från en databas
  • ALTER DATABASE - ändrar en databas
  • ALTER TABELL - ändrar en tabell
  • SLÄPP BORD - raderar ett bord
  • SKAPA INDEX - skapar ett index för att söka i ett element
  • DROP INDEX - raderas ett index

För att bättre förstå SQL, låt oss installera MySQL och se hur du kan spela med data.

Installerar MySQL

Installera MySQL är en enkel uppgift. Här är en steg för steg guide som hjälper dig att installera MySQL på ditt system.

När du är klar med installationen MySQL, följ nedanstående avsnitt för en enkel demo som visar hur du kan infoga, manipulera och ändra data.

SQL For Data Science - MySQL Demo

I denna demonstration kommer vi att se hur man skapar databaser och bearbetar dem. Detta är en demonstration på nybörjarnivå för att komma igång med dataanalys på SQL.

Så låt oss komma igång!

använd python i visual studio

Steg 1: Skapa en SQL-databas

En SQL-databas är ett lagringslager där data kan lagras i ett strukturerat format. Låt oss nu skapa en databas med hjälp av MySQL :

SKAPA DATABAS edureka ANVÄND edureka

I koden ovan finns två SQL-kommandon:

Notera : SQL-kommandon definieras med stora bokstäver och ett semikolon används för att avsluta ett SQL-kommando.

  1. SKAPA DATABAS: Detta kommando skapar en databas som heter 'edureka'

  2. ANVÄNDNING: Detta kommando används för att aktivera databasen. Här aktiverar vi databasen 'edureka'.

Steg 2: Skapa en tabell med nödvändiga datafunktioner

Att skapa en tabell är lika enkelt som att skapa en databas. Du måste bara definiera variablerna eller funktionerna i tabellen med deras respektive datatyper. Låt oss se hur detta kan göras:

SKAPA TABELLleksaker (TID INTEGER INTE NULL PRIMÄR NYCKEL AUTO_INCREMENT, Artikelnamn TEXT, Pris INTEGER, Antal INTEGER)

I kodavsnittet ovan inträffar följande saker:

  1. Använd kommandot “CREATE TABLE” för att skapa en tabell som heter leksaker.
  2. Leksakstabellen innehåller fyra funktioner, nämligen TID (transaktions-ID), artikelnamn, pris och kvantitet.
  3. Varje variabel definieras med deras respektive datatyper.
  4. TID-variabeln deklareras som en primär nyckel. En primär nyckel anger i princip en variabel som kan lagra ett unikt värde.

Du kan ytterligare kontrollera detaljerna i den definierade tabellen genom att använda följande kommando:

BESKRIV leksaker

Steg 3: Infoga data i tabellen

Nu när vi har skapat en tabell kan vi fylla i den med några värden. Tidigare i den här bloggen nämnde jag hur du kan lägga till data i en tabell genom att bara använda ett enda kommando, dvs INSERT INTO.

Låt oss se hur detta görs:

INSÄTTA I Leksaker VÄRDEN (NULL, 'Train', 550, 88) INSÄTTA I Leksaker VÄRDEN (NULL, 'Hotwheels_car', 350, 80) INSÄTTA I Leksaker VÄRDEN (NULL, 'Magic_Pencil', 70, 100) INSÄTTA I Leksaker VÄRDEN (NULL, 'Magic_Pencil', 70, 100) NULL, 'Dog_house', 120, 54) INSÄTTA I Leksaker VÄRDEN (NULL, 'Skateboard', 700, 42) INSÄTTA I Leksaker VÄRDEN (NULL, 'GI Joe', 300, 120)

I kodavsnittet ovan infogade vi helt enkelt 6 observationer i vår ”leksaker” -tabell med kommandot INSERT INTO. För varje observation, inom parentes, har jag angett värdet på varje variabel eller funktion som definierades när tabellen skapades.

TID-variabeln är inställd på NULL eftersom den automatiskt ökar från 1.

Låt oss nu visa all data som finns i vår tabell. Detta kan göras med kommandot nedan:

vad är paketet i java
VÄLJ * FRÅN leksaker


Steg 4: Ändra datainmatningarna

Låt oss säga att du bestämde dig för att höja priset på G.I. Joe eftersom det ger dig många kunder. Hur skulle du uppdatera priset på variabeln i en databas?

Det är enkelt, använd bara kommandot nedan:

UPPDATERA leksaker SET Pris = 350 VAR TID = 6

Med UPDATE-kommandot kan du ändra alla värden / variabler som är lagrade i tabellen. Med SET-parametern kan du välja en viss funktion och WHERE-parametern används för att identifiera variabeln / värdet som du vill ändra. I ovanstående kommando har jag uppdaterat priset på datainmatningen vars TID är 6 (G.I. Joe).

Låt oss nu se den uppdaterade tabellen:

VÄLJ * FRÅN leksaker

Du kan också ändra vad du vill ska visas genom att bara hänvisa till de kolumner du vill visa. Till exempel visar kommandot nedan bara namnet på leksaken och dess respektive pris:

VÄLJ Artikelnamn, Pris FRÅN leksaker

Steg 5: Hämta data

Så efter att ha infogat och modifierat det är det äntligen dags att extrahera och hämta informationen enligt företagets krav. Det är här data kan hämtas för ytterligare dataanalys och datamodellering.

Observera att det är ett enkelt exempel för att komma igång med SQL, men i verkliga scenarier är data mycket mer komplicerade och stora i storlek. Trots detta förblir SQL-kommandona fortfarande desamma och det är det som gör SQL så enkelt och begripligt. Det kan bearbeta komplexa datamängder med en uppsättning enkla SQL-kommandon.

Låt oss nu hämta data med ett par modifieringar. Se koden nedan och försök förstå vad den gör utan att titta på utdata:

VÄLJ * FRÅN leksaker GRÄNS 2

Du gissade det! Den visar de två första observationerna som finns i min tabell.

Låt oss prova något mer intressant.

VÄLJ * FRÅN leksaker BESTÄLL PÅ Pris ASC

Som visas i figuren är värdena ordnade med avseende på stigande ordning på prisvariabeln. Om du vill leta efter de tre mest köpta artiklarna, vad skulle du göra?

Det är verkligen enkelt!

VÄLJ * FRÅN leksaker BESTÄLL PÅ Antal BESKRIVNING 3

Låt oss prova en till.

VÄLJ * FRÅN leksaker VAR Pris> 400 BESTÄLL EFTER Pris ASC


Den här frågan extraherar detaljerna i leksaker vars pris är mer än 400 och ordnar produktionen i stigande ordning på priset.

Så det är så du kan bearbeta data med hjälp av SQL. Nu när du känner till grunderna i SQL för datavetenskap är jag säker på att du är nyfiken på att lära dig mer. Här är några bloggar för att komma igång:

  1. Vad är datavetenskap? En nybörjarguide för datavetenskap
  2. MySQL-handledning - En nybörjarguide för att lära dig MySQL

Om du vill anmäla dig till en fullständig kurs om artificiell intelligens och maskininlärning har Edureka en speciell kurator som kommer att göra dig skicklig i tekniker som Supervised Learning, Oövervakat lärande och Natural Language Processing. Det inkluderar utbildning om de senaste framstegen och tekniska tillvägagångssätten inom artificiell intelligens och maskininlärning som djupinlärning, grafiska modeller och förstärkningslärande.