Taligenkänning Python: Hur översätter man tal till text?



Denna blogg täcker begreppet taligenkänning i python med ett exempelprogram som översätter tal till text med hjälp av taligenkänning.

Tal är det vanligaste kommunikationsmedlet runt om i världen. De flesta av världens befolkning är beroende av tal för att kommunicera med varandra. Antag att vi bygger en modell och istället för ett skriftligt tillvägagångssätt vill vi att vårt system ska svara på tal blir det ganska svårt och kräver att mycket data bearbetas. Ett taligenkänningssystem övervinner denna barriär genom att översätta tal till text. I den här bloggen går vi igenom taligenkänningen modul i python . Här är listan över samma:

Hur taligenkänning fungerar?

Taligenkänningssystem översätter i princip de talade yttrandena till text. Det finns olika verkliga exempel på taligenkänningssystem. Till exempel - siri, som tar talet som inmatning och översätter det till text.





Fördelen med att använda ett taligenkänningssystem är att det övervinner läsförmågan. En taligenkänningsmodell kan också betjäna både läskunniga och analfabeter, eftersom den fokuserar på talade yttranden.

Vi kan också göra en inventering av alla hotade språk runt om i världen med hjälp av ett taligenkänningssystem. Även om det ser ganska spännande ut och inte alls komplicerat, står ett taligenkänningssystem inför många utmaningar.



Utmaningar inför ett taligenkänning Systemet

Ett taligenkänningssystem blir svårt att skapa eftersom vi har så många variationskällor när det gäller tal.

Talstil

Varje enskild person har en varierad talstil, inklusive accenter också. Som vi alla vet har vi olika accenter för att tala engelska också. Det finns amerikansk engelska, brittisk engelska och så många andra accenter när det gäller att tala det vanligaste språket i världen. Uttal gör det också svårt för ett taligenkänningssystem att översätta talet helt.



Miljö

Miljön lägger också till mycket bakgrundsljud till systemet. Ett isolerat rum jämfört med ett auditorium kommer att ha stor variation i bakgrundsljud. Även eko kan lägga till mycket buller i systemet också.

Högtalaregenskaper

En gammal människas röst kanske inte är densamma som för ett spädbarn. Kännetecknen för en persons tal beror på många faktorer, inklusive hårdhet och tydlighet.

sträng till Java-användningsdatum

Språkbegränsningar

Vissa talade yttranden kanske inte har någon livskraftig betydelse när det gäller översättning.

Efter att ha löst dessa utmaningar är det ganska möjligt för alla taligenkänningssystem att översätta tal till text. Nu när vi vet hur taligenkänning fungerar, kan vi ta en titt på olika som är tillgängliga för taligenkänning i python.

Paket tillgängliga för taligenkänning i python

  • apiai

  • Taligenkänning

  • Google_speech_cloud

  • församling

  • Pocketsphinx

  • Watson_developer_cloud

  • vit

Vi kommer att gå igenom detaljerna i SpeechRecognition-paketet i den här bloggen.

Den allra första prototypen för taligenkänning var i själva verket en leksak, namngiven radio rex som kom runt 1920-talet. Den hade en hund som satt i ett hundhus som skulle dyka upp så snart någon uttalade ordet rex.

Det enda problemet med modellen var att fjädern var ansluten till en elektromagnet som var känslig för energi på cirka 500 Hz. Eftersom det enbart är en frekvensdetektor kan den fjärrkallas som en taligenkänningsmodell.

1962 kom IBM med en skolåda modell som kunde känna igen isolerade ord och också utföra några aritmetiska operationer.

Sedan kom HARPYA från CMU, som kunde känna igen anslutet tal från ett ordförråd på 1000 ord. Runt 1980-talet började människor använda statistiska modeller och en av de mest använda maskininlärningsparadigmerna var den dolda markovmodellen.

Efter införandet av djupa neurala nätverk fungerar de flesta taligenkänningsmodellerna på de neurala nätverken. Möjligheterna är otänkbara med neurala nätverk, ordförrådet kan gå upp till 10 000 ord och mer.

iterativ retracement c ++

Hur installerar jag SpeechRognition i Python?

För att installera SpeechRecognition-paketet är python, kör följande kommando i terminalen och det kommer att installeras på ditt system.

installation-taligenkänning python-edureka

doktorsexamen mot mästare

Ett annat tillvägagångssätt för detta kan vara att lägga till paketet från projekttolk om du använder

Paketet har en Recognizer-klass som i princip är där magin händer. Det är i grunden en klass som används för att känna igen talet. Nedan följer sju metoder som kan läsa olika ljudkällor med olika API: er.

  • igenkänna ()
  • erkänna_google ()
  • erkänna_google_cloud ()
  • igenkänna ()
  • erkänna_ibm ()
  • igenkänna ()
  • erkänna_sphinx ()

Nu kan igenkänna_sphinx också användas för att köra taligenkänningssystemet offline. Det kräver installation av Pocketsphinx.

importera taligenkänning som sr #instance of recognizer class r = sr.Recognizer ()

Ta inmatning från mikrofoner

För att använda mikrofonerna måste vi också installera pyaudio-modulen. Vi använder mikrofonklassen för att få ingångstalen från mikrofonen istället för någon annan inmatningsmetod som en ljudfil.

För de flesta av projekten kan vi använda standardmikrofonerna. Men om du inte vill använda standardmikrofonen,Du kan få en lista över mikrofonnamn med metoden list_microphone_names.

För att fånga inmatningen från mikrofonen använder vi lyssningsmetoden.

importera taligenkänning som sr r = sr.Recognizer () med sr.Microphone () som källa: ljud = sr.listen (källa)

Hur installerar jag Pyaudio i Python?

För att installera Pyaudio i python, kör följande kommando i terminalen eller om du använder pycharm lägg till paketet från projekttolken i inställningarna.

Användningsfall

Vi kommer att skapa ett program med hjälp av taligenkänningsmodulen i python för att känna igen tal och utföra följande:

  1. konvertera talet till text
  2. öppna en URL med hjälp av webbläsarmodulen
  3. skicka en fråga med hjälp av taligenkänning för att göra en sökning i webbadressen

Följande är programmet för ovanstående problemförklaring:

importera tal_igenkänning som sr importera webbläsare som wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () med sr.Microphone () som källa: print ('[search edureka: search youtube]') skriv ut ('tala nu') ljud = r3.listen (källa) om 'edureka' i r2.recognize_google (ljud): r2 = sr.Recognizer () url = 'https://www.edureka.co/' med sr .Mikrofon () som källa: skriv ut ('sök din fråga') audio = r2.listen (källa) försök: get = r2.recognize_google (ljud) skriv ut (get) wb.get (). Open_new (url + get) sr.UnknownValueError: print ('error') utom sr.RequestError som e: print ('failed'. format (e)) om 'video' i r1.recognize_google (ljud): r1 = sr.Recognizer () url = ' https://www.youtube.com/results?search_query= 'med sr.Microphone () som källa: print (' sök efter en video ') audio = r2.listen (source) försök: get = r1.recognize_google (audio ) skriv ut (hämta) wb.get (). open_new (url + get) utom sr.UnknownValueError: print ('kunde inte förstå') utom sr.RequestError som e: print (kunde inte få resultat '. format (e) )

Du får utmatningen som den visas i bilden. Om du säger edureka kommer det att uppmana dig att säga frågan som du vill söka i edureka url som vi har skrivit i url-variabeln. Om du säger python kommer följande webbsida att öppnas i webbläsaren.

I den här bloggen har vi diskuterat hur vi kan använda taligenkänning i python för att översätta tal till text med hjälp av paketet för taligenkänning. har blivit timens behov av begrepp som taligenkänning eller objektnedslående, med som ger otänkbara möjligheter till taligenkänningssystem där vi kan träna och testa enorma taldata för att bygga ett system. Du kan registrera dig i för djupa neurala nätverk för att behärska dina färdigheter och kickstart ditt lärande.

har några frågor? nämna dem i kommentarerna, vi kommer tillbaka till dig.