Vad är naturlig språkbehandling?
Naturlig språkbearbetning är en form av maskininlärning som gör att människor kan kommunicera med artificiell intelligens (AI) med hjälp av mänskligt språk.
Översikt över bearbetning av naturligt språk
Översikt och definition av NLP
Naturlig språkbehandling (NLP) är en fascinerande gren av AI som gör det möjligt för människor och maskiner att kommunicera med varandra på vardagligt språk. Sättet du ger röstkommandon till Siri eller får översättningar på Google är båda exempel på NLP i handling, eftersom både visar mjukvaruförståelse och svarar på mänskligt språk.
Hur förhåller sig NLP till AI?
De flesta människor är inte programmerare eller mjukvaruanvändare, vilket är en av anledningarna till att naturlig språkbehandling är så användbar. Programvara kan ha en brant inlärningskurva, och NLP låter dig använda även komplex programvara utan att bli en expert. I själva verket, NLP låter dig helt enkelt beskriva vad du vill till en AI på samma sätt som du kan förklara det för en vän.
Begreppet AI täcker ett brett spektrum av teknologier, men NLP-grenen fokuserar på utmaningarna med mänskligt språk. För att vara verkligt användbara måste NLP-lösningar göra mer än att bara fånga orden du säger. NLP-system måste förstå sammanhanget och avsikten bakom dina ord. För att göra det möjligt använder NLP-utvecklare andra AI-tekniker som maskininlärning och djupinlärning.
Varför är det viktigt med naturlig språkbehandling?
Naturlig språkbehandling gör att du kan använda teknik som annars kan vara svår att använda. Det gör det också möjligt för datorer att förstå text och tal på ett sätt som de inte kunde före NLP. Här är några av fördelarna med NLP:
NLP hjälper människor att bli mer produktiva
På jobbet kan naturlig språkbearbetning öka din effektivitet genom att låta dig använda automatisering för repetitiva eller tidskrävande uppgifter. En kundserviceavdelning kan till exempel använda NLP-drivna chattrobotar för att hantera rutinmässiga kundförfrågningar. Eller så kan en redovisningsavdelning använda NLP-aktiverade system för att hämta nyckelinformation från fakturor och kvitton och använda den för att fylla i en databas eller ett kalkylblad.
Som ytterligare fördelar minskar automatiseringen av inmatning och bearbetning av data risken för mänskliga fel och påskyndar arbetsflöden. När ett system kan förstå mänskligt språk tillräckligt väl för att ta över grundläggande uppgifter ökar det produktiviteten genom att låta användarna fokusera på uppgifter med högre värde.
NLP hjälper till att förbättra kundupplevelsen
När du försöker nå ett företag via telefon men inte kan ta dig förbi ett förvirrande telefonträd upplever du ett dåligt utbildat interaktivt röstsvarsystem. Men en välutbildad NLP-chattrobot kan ge kunderna en mer intuitiv upplevelse. En e-handelssajt med ett NLP-aktiverat system kan till exempel analysera vilka produkter en kund har bläddrat i på sajten. Genom att förstå vilka produkter som är av intresse för en kund kan systemet sedan föreslå produkter som kunden sannolikt vill ha.
NLP-drivna chattrobotar förbättrar upplevelsen genom att snabbt svara på frågor eller lösa problem. Dessa chattrobotar kan vara utformade för att ha en fullständig historik över en kunds interaktioner och upptäcka problem som kunden har haft tidigare.
NLP skapar nya insikter
Om du någonsin har skickat ett mejl till ett företag för att ställa en fråga, erbjuda råd eller registrera ett klagomål kan det verka som att ingen ens läser det. Och det kan vara så, eftersom få företag har tid att läsa varje bit av kundfeedback de får. Men NLP-aktiverad AI har tiden. Det kan sålla igenom enorma dataset som kundkonversationer på webbplatser. Det kan sedan ge företagen en tillförlitlig sammanfattning av dessa diskussioner så att företaget kan rätta till frågan.
Hur fungerar naturlig språkbehandling?
Så här gör NLP mänskliga samtal och maskinkonversationer möjliga. Följande steg gäller för språk i form av text. NLP för talat språk är lite annorlunda men följer samma allmänna principer.
Låt oss använda en exempelmening för att visa hur processen fungerar:
”Jag tycker om att demonstrera hur naturlig språkbehandling fungerar.”
Algoritmen börjar med textförbearbetning.
Textförbearbetning
Textförbehandling syftar till att förenkla den text som människor skapar för att göra det enklare för NLP-algoritmer att bearbeta mänskligt språk.
- Tokenisering
Tokenisering är processen att bryta ner ord och skiljetecken i en mening till tokens. Tokenisering är viktigt eftersom det är effektivare för NLP-algoritmer att bearbeta tokens än text när man utför uppgifter som indexering och sökning. Provmeningen har åtta ord i sig: ”Jag gillar att demonstrera hur naturlig språkbehandling fungerar.” Den har också en period, så man får åtta tokens genom att räkna orden och en genom att räkna perioden, för totalt nio tokens.
- Lowercasing
Lowercasing är processen att konvertera alla tokens till gemener tokens för att göra datauppsättningen enklare. I exempelmeningen var en av tokens ”I”. För att undvika tvetydighet och öka effektiviteten omvandlar det små steget dessa versaler till ”i”. Reglerna för lowercasing blir mer komplicerade i andra delar av processen.
- Tar bort stoppord
Ett annat sätt att förenkla text för naturlig språkbehandling är att ta bort ord som inte har någon betydande betydelse, som kallas stoppord. I exempelmeningen skulle orden ”i” och ”hur” normalt betecknas som stoppord. När en algoritm tar bort dem har du sju tokens kvar, som är ”som”, ”demonstrerar”, ”naturligt”, ”språk”, ”bearbetning”, ”fungerar” och ”.”.
- Stemming och lemmatisering
Även med de sju tokens kvar finns det utrymme för mer förenkling. En metod, stamming, är att klippa ner ett ord till sin bas eller rotform. Token ”demonstrerande” är ett ord som bygger på stammen ”demonstr” precis som ”naturlig” bygger på ”natur”, så modellen ersätter de ursprungliga polletterna med stammarna ”demonstr” och ”natur”.
Ett ord kan ha olika betydelser i olika sammanhang, och lemmatisering är processen att bestämma den rätta betydelsen i ett visst sammanhang. I exempelmeningen ingår ”like”, som kan betyda ”njut” eller ”liknande”. I detta fall skulle lemmatisering resultera i att man tilldelar kontexten där ”liknande” betyder ”njut”.
Textrepresentation
Nästa steg är textrepresentation, som omvandlar ord till ett numeriskt format som en maskin kan bearbeta. Förutom siffror kan text konverteras till vektorer eller inbäddningar, vilket är mer komplexa format som ger information som kontext.
- Påse med ord (BoW)
Datorer är bra på att räkna, och BoW-mätningen räknar hur många gånger ett ord förekommer i ett dokument. Om orden lag, spel och poäng dyker upp ofta i ett dokument, till exempel, är sammanhanget mer sannolikt att vara sport. Exempelmeningen har bara en instans av varje ord. BoW-representationen skulle visa att varje ord endast förekommer en gång så här:
{“i”: 1, ’liknande’: 1, ’demonstrerande’: 1, ’hur’: 1, ’naturligt’: 1, ’språk’: 1, ’bearbetning’: 1, ’fungerar’: 1}
- TF-IDF (termfrekvens för frekvensinverterat dokument)
TF-IDF använder en formel baserad på hur ofta ett ord förekommer i en övergripande datauppsättning bestående av många dokument för att avgöra ett ords betydelse. Ju oftare ett ord dyker upp, desto lägre är dess TF-IDF-vikt, och desto mindre viktigt är det i ett enda dokument. Ord som ”the” och ”a” förekommer ganska ofta, och så är mindre viktiga. Du skulle representera viktningarna av provmeningen i en form som detta, vilket visar att vanliga ord har lägre vikter och ovanliga ord har högre vikter:
{“i”: 0.1, “like”: 0.1, “demonstrating”: 0.3, “how”: 0.1, “naturlig”: 0.2, “språk”: 0.2, “bearbetning”: 0,5, “fungerar”: 0.1}
Textanalys
Textanalys är den punkt där en NLP-algoritm extraherar betydelse från text. Det är hur en algoritm kan producera lämpliga svar på användarens fråga.
- Identifiering av namngiven entitet (NER)
Efter att ha gjort någon kvantitativ analys letar NLP-algoritmer nästa efter ord som känns igen som att namnge något. Ordet äpple syftar på en typ av frukt, men ordet Apple syftar på ett specifikt företag, och en NLP-algoritm behöver ett sätt att känna igen skillnaden. I exempelmeningen, ”Jag gillar att demonstrera hur naturlig språkbearbetning fungerar”, ingår orden ”naturlig språkbehandling”, som människor kanske känner igen som att namnge en AI-teknik. Detta representeras enligt följande:
NER-utgång: [(”naturlig språkbehandling”, ”teknik”)]
- Attitydsanalys
Vissa dataset, som en katalog av gräsklippare delar, kanske inte har en signifikant känslomässig ton. Men en filmrecension kan ha en stark känslomässig ton. Om ett dataset har en ton är sentimentanalys steget i bearbetningen av naturligt språk som registrerar det. För exempelmeningen kan sentimentanalysen se ut så här:
Attitydutmatning: Positiv
Syntaxparsning
Varje mening har en grammatisk struktur. Syntaxparsning är processen att analysera den strukturen för att hitta substantiv, verb, subjekt, etc. Detta är viktigt eftersom olika språk använder olika syntax, så syntax-parsning är avgörande för maskinöversättning. För exempelmeningen kan syntaxparsning generera detta resultat:
Syntaxträd: (ROOT (S (NP (PRP I)) (VP (VBP like) (S (VP (VBG demonstrating) (SBAR (WHADVP (WRB how))) (S (NP (NNP Natural) (NNP Language) (NNP Processing))) (VP (VBZ works)))))))))
Beroende på den specifika algoritmen kommer det vanligtvis att finnas ytterligare steg. Resultatet är en konversation där maskinen verkar förstå dina ord och intentioner och svarar dig på naturligt språk.
Vad är exempel på bearbetningsuppgifter för naturligt språk?
Styra en drönare med röstkommandon
Även den mest kraftfulla tekniken har begränsat värde om du inte vet hur man använder den. Naturlig språkbehandling gör tekniken mer tillgänglig. Det minskar behovet av specialiserad teknisk kunskap för att få fördelarna med avancerad programvara eller hårdvara. Användare kan interagera med NLP-aktiverade system genom naturlig konversation istället för att förlita sig på komplexa kommandon, kodning eller fysiska kontroller.
Till exempel kan en fjärrstyrningsapplikation för små drönare låta dig helt enkelt säga till en drönare att göra något som att vända i luften, utan att behöva lära sig de invecklade kontroller du annars skulle behöva använda. Möjligheten att använda enkla röstkommandon gör det möjligt för fler att använda teknik.
Få bättre insikter för varumärkeshantering
Människor uttrycker sina tankar och preferenser varje dag, och företag har tillgång till mycket av den informationen. Företag använder redan data som produktförsäljning för att förstå vissa aspekter av kundernas beteende. Med naturliga språklösningar kan datorer omvandla sociala medier-konversationer och kundrecensioner online till användbar information också.
NLP:s insikter är en annan typ av information än traditionell försäljningsanalys. Företag använder försäljningssiffror för operativa insikter som prognostisering eller resurshantering, men NLP-baserad analys kan vara mer kraftfull inom varumärkeshantering eller förbättra kundupplevelser.
Förhindra överbelastning av information
Om du har en e-postadress som du använder för jobbet kan informationsöverbelastning verka oundviklig. Den genomsnittliga medarbetaren får mer än 120 mejl om dagen, så det är inte förvånande att cirka 60 procent av de anställda helt enkelt struntar i interna företags-mejl. Men om ditt e-postprogram har NLP-funktioner kan det hjälpa dig att undvika informationsöverbelastning. Den kan filtrera, kategorisera och prioritera e-post så att de viktigaste får den uppmärksamhet de behöver.
På samma sätt kan NLP-system inbyggda i samarbetsprogram transkribera och sammanfatta möten. De kan till och med identifiera och fånga de viktigaste punkterna som gjorts under ett möte och rapportera allokerade åtgärder. Denna typ av NLP-aktiverad automatisering hjälper individer att spara tid och ökar den totala effektiviteten i organisationen.
Användningsfall för bearbetning av naturligt språk
NLP håller på att omvandla industrier. NLP-applikationer förbättrar medarbetarnas effektivitet, gör kundupplevelser bättre och möjliggör strategiskt beslutsfattande som spänner över ett brett spektrum av sektorer. Nedan följer några anmärkningsvärda användningsfall för NLP över olika branscher.
Defect analysis: Identifying common defects through analysis of technicians’ notes, customer complaints, and warranty claims
Supplier communication: Enabling timely material procurement through analysis of supplier emails and documents
Fraud detection: Identifying anomalies indicating fraud through transaction pattern monitoring and analysis
Trade acceleration: Automating trade execution based on real-time data analysis
Clinical documentation: Transcribing and managing clinical notes
Patient data analysis: Informing diagnoses through pattern identification in patient records
Contract analysis and compliance checking: Automating document review for regulatory and other compliance
Legal discovery automation: Isolating pertinent information from vast amounts of documents rapidly
Claims processing automation: Extracting and validating information from submitted claim forms and medical reports
Risk assessment: Improving risk assessment accuracy through automated extraction of data from medical records and lifestyle questionnaires
Maintenance log analysis: Analyzing notes from maintenance personnel to predict and prevent equipment failures
Geological data interpretation: Extracting and summarizing data from sources such as geological reports, drilling logs, and research papers
Property listing optimization: Generating engaging descriptions based on property features
Lead qualification: Analyzing email and online inquiries to prioritize based on readiness to purchase
Inventory optimization: Predicting demand through sales data analysis
Personalized product recommendations: Creating more personalized shopping experiences through purchase history analysis
Metoder för bearbetning av naturligt språk
De flesta förhållningssätt till naturlig språkbehandling faller inom en av två breda kategorier. De är antingen regelbaserade eller maskininlärningsbaserade.
Regelbaserad NLP
Detta tillvägagångssätt försöker identifiera en uppsättning språkliga regler som en dator kan följa för att på ett tillförlitligt sätt förstå och generera mänskligt språk. Som ett resultat av detta är den starkt inriktad mot språkliga aspekter av beräkningslingvistik. Regelbaserade tillvägagångssätt kan vara mycket effektiva om du använder datauppsättningar där språket är både kontrollerat och förutsägbart, som juridiska dokument eller tekniska manualer.
Maskininlärningsbaserad NLP
En maskininlärningsbaserad metod för NLP använder en mängd olika statistiska metoder och algoritmiska metoder. I stället för att skapa reglerna i förväg är syftet att låta en dator lära sig att kommunicera baserat på en massiv datauppsättning. Tanken är att när en dator har bearbetat tillräckligt många exempel på mänskligt språk kommer datorn att identifiera de mönster som gör för ett gott mänskligt språk. Om du har tillräckligt stora datauppsättningar kan maskininlärningsbaserade metoder för NLP vara ganska flexibla och anmärkningsvärt effektiva.
En kort historia om bearbetning av naturligt språk
Naturlig språkbehandling som gren av AI började utvecklas på 1940-talet. Under 1980- och 1990-talen blev datorlösningar kraftfullare och maskininlärning började mogna. På senare tid har ökningen av djup inlärning, neurala nätverk och olika former av generativ AI helt förändrat naturlig språkbehandling.
Händelser i utvecklingen av NLP
- 1940-talet | Första utvecklingen av NLP, inklusive Weaver Memorandum om maskinöversättning, visas
- 1950-talet | ”Universell grammatik” introducerad; Turingtest föreslaget; djupinlärning framträder
- 1960-talet | Chatbotar som ELIZA växer fram och språkliga teorier som ligger till grund för NLP:s utveckling
- 1970-talet | Fallgrammatikteori och semantiska nätverk växer fram; regelbaserade system mogna och chatbotar sprider sig
- 1980-talet | Tidiga maskininlärningsalgoritmer utvecklas; taligenkänningstekniker utvecklas; beräkningslingvistik expanderar och RNN-teori framträder
- 1990-talet | Statistiska modeller och LSTM växer fram och maskinöversättning får draghjälp
- 2000-talet | Maskininlärning utvecklas snabbt och neurala språkmodeller utvecklas; stora mängder tal- och textdata blir tillgängliga
- 2010-talet | En betydande ökning av tillgängliga data och beräkningar möjliggör en snabb utveckling av djupinlärning
- 2020-tal | Stora språkmodeller, förutbildade språkmodeller och transformatorer får en framträdande plats
Teknisk översikt över bearbetning av naturligt språk
Naturlig språkbehandling är ett paraplybegrepp som omfattar en rad tekniker och tekniker som gör det möjligt för maskiner att förstå och producera mänskligt språk. Varje teknik som möjliggör NLP faller under en av dessa två funktioner.
NLP-underkategorier
Naturlig språkbehandling omfattar en rad olika tekniker och tekniker. Men det primära syftet med NLP är att göra det möjligt för maskiner att förstå och producera mänskligt språk. Dessa två funktioner är huvudkomponenterna i naturlig språkbehandling.
- Naturlig språkförståelse (NLU): Naturlig språkförståelse fokuserar på att förstå och tolka mänskligt språk. För att göra det måste NLU-system kunna tolka syntax, analysera semantik och förstå hur kontexten påverkar mening i det mänskliga språket. Detta kan ta former som att förstå talade frågor eller utföra uppgifter baserat på talade riktningar.
- Naturligt språk generation (NLG): Naturligt språk generation fokuserar på att producera människa-liknande text eller tal. För att göra det måste NLG-system kunna omvandla ostrukturerade data till naturligt klingande språk. Det kan innebära att sammanfatta information eller till och med föra samtal.
Maskininlärningens roll i NLP
Vad skulle en dator kunna göra om den kunde lära sig själv nya färdigheter? Det är vad maskininlärning är. Maskininlärning är när datorer lär sig att göra uppgifter på egen hand utan några specifika instruktioner.
För NLP tar maskininlärning formen av att skapa modeller som möjliggör både naturlig språkförståelse och naturlig språkgenerering. Den använder tekniker inklusive övervakad inlärning, som hänvisar till träningsmodeller på data som har etiketter, och oövervakad inlärning, vilket är träningsmodeller på data som inte har etiketter.
Rollen av djupt lärande i NLP
Djuplärning är en specifik form av maskininlärning. Den använder neurala nätverk som har flera lager, varför ”djup” finns i namnet. Med ”inlärning” avses användningen av algoritmer som identifierar och sedan modellerar komplexa mönster i dataset. Djuplärande är viktigt i NLP eftersom det har gjort NLP mycket bättre vid vissa uppgifter. Dessa inkluderar översättning mellan språk, analys av sentiment i ett dataset och generering av text.
Hur neurala nätverk förbättrar NLP
Neurala nätverk bygger på idén att använda den mänskliga hjärnan som modell för hur man bearbetar data. Neurala nätverk gör det möjligt för NLP-system att vara mycket exakta i både förståelse och generering av mänskligt språk. Neurala nätverk kan ha olika arkitekturer och är nyckeln till att möjliggöra applikationer som en virtuell assistent, chattrobot eller automatiserad textanalys.
Upptäck vad NLP kan göra för ditt företag
Möt Joule: SAP:s AI-assistent som kan hjälpa dig att lösa tuffa affärsutmaningar snabbare, smartare och med bättre resultat. Säg bara ordet.
Beräkningslingvistik och NLP
Beräkningslingvistik är det studieområde som kombinerar datavetenskap och lingvistik för att fokusera på naturlig språkbehandling. Det skapar en teoretisk grund för att göra det möjligt för datorer att förstå mänskligt språk.
- Syntax
Studier av meningarnas struktur och de regler som gör meningar grammatiska eller ogrammatiska.
Engelsk syntax: ”Katten sitter på mattan.”
Felaktig engelsk syntax: ”Cat the on mat sitter”.
- Semantik
Studier som betyder något i språket, inklusive hur ord och fraser representerar objekt, handlingar och idéer.
Meningen: ”Katten är på mattan.”
Semantisk tolkning: Betydelsen är att det finns en katt fysiskt placerad ovanpå en matta.
- Pragmatiker
Studier av hur kontexten påverkar tolkningen av språket.
Meningen: ”Kan du passera saltet?”
Pragmatisk tolkning: Även om det är en fråga om förmåga visar sammanhanget att man ska förstå att det är en artig begäran om att någon ska klara saltet.
Beräkningslingvistik är viktig eftersom den kopplar ihop prickarna mellan lingvistisk teori och verkliga tillämpningar av NLP.
Vanliga frågor
De fyra huvudsakliga underfälten är:
1. Naturlig språkförståelse (NLU), med fokus på att göra det möjligt för datorer att förstå mening och avsikt bakom språket
2. Naturlig språkgenerering (NLG) möjliggör läsbar text från strukturerade data
3. Taligenkänning konverterar talspråk till kopia
4. Talsyntes konverterar kopia (eller skriven text) till talspråk