flex-height
text-black

Två datavetare uppdaterar kod för bearbetning av naturligt språk

Vad är naturlig språkbehandling?

Naturlig språkbearbetning är en form av maskininlärning som gör att människor kan kommunicera med artificiell intelligens (AI) med hjälp av mänskligt språk.

Översikt över bearbetning av naturligt språk

Översikt och definition av NLP

Naturlig språkbehandling (NLP) är en fascinerande gren av AI som gör det möjligt för människor och maskiner att kommunicera med varandra på vardagligt språk. Sättet du ger röstkommandon till Siri eller får översättningar på Google är båda exempel på NLP i handling, eftersom både visar mjukvaruförståelse och svarar på mänskligt språk.

Hur förhåller sig NLP till AI?

De flesta människor är inte programmerare eller mjukvaruanvändare, vilket är en av anledningarna till att naturlig språkbehandling är så användbar. Programvara kan ha en brant inlärningskurva, och NLP låter dig använda även komplex programvara utan att bli en expert. I själva verket, NLP låter dig helt enkelt beskriva vad du vill till en AI på samma sätt som du kan förklara det för en vän.

Begreppet AI täcker ett brett spektrum av teknologier, men NLP-grenen fokuserar på utmaningarna med mänskligt språk. För att vara verkligt användbara måste NLP-lösningar göra mer än att bara fånga orden du säger. NLP-system måste förstå sammanhanget och avsikten bakom dina ord. För att göra det möjligt använder NLP-utvecklare andra AI-tekniker som maskininlärning och djupinlärning.

Varför är det viktigt med naturlig språkbehandling?

Naturlig språkbehandling gör att du kan använda teknik som annars kan vara svår att använda. Det gör det också möjligt för datorer att förstå text och tal på ett sätt som de inte kunde före NLP. Här är några av fördelarna med NLP:

NLP hjälper människor att bli mer produktiva

På jobbet kan naturlig språkbearbetning öka din effektivitet genom att låta dig använda automatisering för repetitiva eller tidskrävande uppgifter. En kundserviceavdelning kan till exempel använda NLP-drivna chattrobotar för att hantera rutinmässiga kundförfrågningar. Eller så kan en redovisningsavdelning använda NLP-aktiverade system för att hämta nyckelinformation från fakturor och kvitton och använda den för att fylla i en databas eller ett kalkylblad.

Som ytterligare fördelar minskar automatiseringen av inmatning och bearbetning av data risken för mänskliga fel och påskyndar arbetsflöden. När ett system kan förstå mänskligt språk tillräckligt väl för att ta över grundläggande uppgifter ökar det produktiviteten genom att låta användarna fokusera på uppgifter med högre värde.

NLP hjälper till att förbättra kundupplevelsen

När du försöker nå ett företag via telefon men inte kan ta dig förbi ett förvirrande telefonträd upplever du ett dåligt utbildat interaktivt röstsvarsystem. Men en välutbildad NLP-chattrobot kan ge kunderna en mer intuitiv upplevelse. En e-handelssajt med ett NLP-aktiverat system kan till exempel analysera vilka produkter en kund har bläddrat i på sajten. Genom att förstå vilka produkter som är av intresse för en kund kan systemet sedan föreslå produkter som kunden sannolikt vill ha.

NLP-drivna chattrobotar förbättrar upplevelsen genom att snabbt svara på frågor eller lösa problem. Dessa chattrobotar kan vara utformade för att ha en fullständig historik över en kunds interaktioner och upptäcka problem som kunden har haft tidigare.

NLP skapar nya insikter

Om du någonsin har skickat ett mejl till ett företag för att ställa en fråga, erbjuda råd eller registrera ett klagomål kan det verka som att ingen ens läser det. Och det kan vara så, eftersom få företag har tid att läsa varje bit av kundfeedback de får. Men NLP-aktiverad AI har tiden. Det kan sålla igenom enorma dataset som kundkonversationer på webbplatser. Det kan sedan ge företagen en tillförlitlig sammanfattning av dessa diskussioner så att företaget kan rätta till frågan.

Hur fungerar naturlig språkbehandling?

Så här gör NLP mänskliga samtal och maskinkonversationer möjliga. Följande steg gäller för språk i form av text. NLP för talat språk är lite annorlunda men följer samma allmänna principer.

Låt oss använda en exempelmening för att visa hur processen fungerar:

”Jag tycker om att demonstrera hur naturlig språkbehandling fungerar.”

Algoritmen börjar med textförbearbetning.

Textförbearbetning

Textförbehandling syftar till att förenkla den text som människor skapar för att göra det enklare för NLP-algoritmer att bearbeta mänskligt språk.

Tokenisering är processen att bryta ner ord och skiljetecken i en mening till tokens. Tokenisering är viktigt eftersom det är effektivare för NLP-algoritmer att bearbeta tokens än text när man utför uppgifter som indexering och sökning. Provmeningen har åtta ord i sig: ”Jag gillar att demonstrera hur naturlig språkbehandling fungerar.” Den har också en period, så man får åtta tokens genom att räkna orden och en genom att räkna perioden, för totalt nio tokens.

Lowercasing är processen att konvertera alla tokens till gemener tokens för att göra datauppsättningen enklare. I exempelmeningen var en av tokens ”I”. För att undvika tvetydighet och öka effektiviteten omvandlar det små steget dessa versaler till ”i”. Reglerna för lowercasing blir mer komplicerade i andra delar av processen.

Ett annat sätt att förenkla text för naturlig språkbehandling är att ta bort ord som inte har någon betydande betydelse, som kallas stoppord. I exempelmeningen skulle orden ”i” och ”hur” normalt betecknas som stoppord. När en algoritm tar bort dem har du sju tokens kvar, som är ”som”, ”demonstrerar”, ”naturligt”, ”språk”, ”bearbetning”, ”fungerar” och ”.”.

Även med de sju tokens kvar finns det utrymme för mer förenkling. En metod, stamming, är att klippa ner ett ord till sin bas eller rotform. Token ”demonstrerande” är ett ord som bygger på stammen ”demonstr” precis som ”naturlig” bygger på ”natur”, så modellen ersätter de ursprungliga polletterna med stammarna ”demonstr” och ”natur”.

Ett ord kan ha olika betydelser i olika sammanhang, och lemmatisering är processen att bestämma den rätta betydelsen i ett visst sammanhang. I exempelmeningen ingår ”like”, som kan betyda ”njut” eller ”liknande”. I detta fall skulle lemmatisering resultera i att man tilldelar kontexten där ”liknande” betyder ”njut”.

Textrepresentation

Nästa steg är textrepresentation, som omvandlar ord till ett numeriskt format som en maskin kan bearbeta. Förutom siffror kan text konverteras till vektorer eller inbäddningar, vilket är mer komplexa format som ger information som kontext.

Datorer är bra på att räkna, och BoW-mätningen räknar hur många gånger ett ord förekommer i ett dokument. Om orden lag, spel och poäng dyker upp ofta i ett dokument, till exempel, är sammanhanget mer sannolikt att vara sport. Exempelmeningen har bara en instans av varje ord. BoW-representationen skulle visa att varje ord endast förekommer en gång så här:

{“i”: 1, ’liknande’: 1, ’demonstrerande’: 1, ’hur’: 1, ’naturligt’: 1, ’språk’: 1, ’bearbetning’: 1, ’fungerar’: 1}

TF-IDF använder en formel baserad på hur ofta ett ord förekommer i en övergripande datauppsättning bestående av många dokument för att avgöra ett ords betydelse. Ju oftare ett ord dyker upp, desto lägre är dess TF-IDF-vikt, och desto mindre viktigt är det i ett enda dokument. Ord som ”the” och ”a” förekommer ganska ofta, och så är mindre viktiga. Du skulle representera viktningarna av provmeningen i en form som detta, vilket visar att vanliga ord har lägre vikter och ovanliga ord har högre vikter:

{“i”: 0.1, “like”: 0.1, “demonstrating”: 0.3, “how”: 0.1, “naturlig”: 0.2, “språk”: 0.2, “bearbetning”: 0,5, “fungerar”: 0.1}

Textanalys

Textanalys är den punkt där en NLP-algoritm extraherar betydelse från text. Det är hur en algoritm kan producera lämpliga svar på användarens fråga.

Efter att ha gjort någon kvantitativ analys letar NLP-algoritmer nästa efter ord som känns igen som att namnge något. Ordet äpple syftar på en typ av frukt, men ordet Apple syftar på ett specifikt företag, och en NLP-algoritm behöver ett sätt att känna igen skillnaden. I exempelmeningen, ”Jag gillar att demonstrera hur naturlig språkbearbetning fungerar”, ingår orden ”naturlig språkbehandling”, som människor kanske känner igen som att namnge en AI-teknik. Detta representeras enligt följande:

NER-utgång: [(”naturlig språkbehandling”, ”teknik”)]

Vissa dataset, som en katalog av gräsklippare delar, kanske inte har en signifikant känslomässig ton. Men en filmrecension kan ha en stark känslomässig ton. Om ett dataset har en ton är sentimentanalys steget i bearbetningen av naturligt språk som registrerar det. För exempelmeningen kan sentimentanalysen se ut så här:

Attitydutmatning: Positiv

Syntaxparsning

Varje mening har en grammatisk struktur. Syntaxparsning är processen att analysera den strukturen för att hitta substantiv, verb, subjekt, etc. Detta är viktigt eftersom olika språk använder olika syntax, så syntax-parsning är avgörande för maskinöversättning. För exempelmeningen kan syntaxparsning generera detta resultat:

Syntaxträd: (ROOT (S (NP (PRP I)) (VP (VBP like) (S (VP (VBG demonstrating) (SBAR (WHADVP (WRB how))) (S (NP (NNP Natural) (NNP Language) (NNP Processing))) (VP (VBZ works)))))))))

Beroende på den specifika algoritmen kommer det vanligtvis att finnas ytterligare steg. Resultatet är en konversation där maskinen verkar förstå dina ord och intentioner och svarar dig på naturligt språk.

Vad är exempel på bearbetningsuppgifter för naturligt språk?

Styra en drönare med röstkommandon

Även den mest kraftfulla tekniken har begränsat värde om du inte vet hur man använder den. Naturlig språkbehandling gör tekniken mer tillgänglig. Det minskar behovet av specialiserad teknisk kunskap för att få fördelarna med avancerad programvara eller hårdvara. Användare kan interagera med NLP-aktiverade system genom naturlig konversation istället för att förlita sig på komplexa kommandon, kodning eller fysiska kontroller.

Till exempel kan en fjärrstyrningsapplikation för små drönare låta dig helt enkelt säga till en drönare att göra något som att vända i luften, utan att behöva lära sig de invecklade kontroller du annars skulle behöva använda. Möjligheten att använda enkla röstkommandon gör det möjligt för fler att använda teknik.

Få bättre insikter för varumärkeshantering

Människor uttrycker sina tankar och preferenser varje dag, och företag har tillgång till mycket av den informationen. Företag använder redan data som produktförsäljning för att förstå vissa aspekter av kundernas beteende. Med naturliga språklösningar kan datorer omvandla sociala medier-konversationer och kundrecensioner online till användbar information också.

NLP:s insikter är en annan typ av information än traditionell försäljningsanalys. Företag använder försäljningssiffror för operativa insikter som prognostisering eller resurshantering, men NLP-baserad analys kan vara mer kraftfull inom varumärkeshantering eller förbättra kundupplevelser.

Förhindra överbelastning av information

Om du har en e-postadress som du använder för jobbet kan informationsöverbelastning verka oundviklig. Den genomsnittliga medarbetaren får mer än 120 mejl om dagen, så det är inte förvånande att cirka 60 procent av de anställda helt enkelt struntar i interna företags-mejl. Men om ditt e-postprogram har NLP-funktioner kan det hjälpa dig att undvika informationsöverbelastning. Den kan filtrera, kategorisera och prioritera e-post så att de viktigaste får den uppmärksamhet de behöver.

På samma sätt kan NLP-system inbyggda i samarbetsprogram transkribera och sammanfatta möten. De kan till och med identifiera och fånga de viktigaste punkterna som gjorts under ett möte och rapportera allokerade åtgärder. Denna typ av NLP-aktiverad automatisering hjälper individer att spara tid och ökar den totala effektiviteten i organisationen.

Användningsfall för bearbetning av naturligt språk

NLP håller på att omvandla industrier. NLP-applikationer förbättrar medarbetarnas effektivitet, gör kundupplevelser bättre och möjliggör strategiskt beslutsfattande som spänner över ett brett spektrum av sektorer. Nedan följer några anmärkningsvärda användningsfall för NLP över olika branscher.

Industry
Benefits of NLP
Automotive manufacturing

Defect analysis: Identifying common defects through analysis of technicians’ notes, customer complaints, and warranty claims

Supplier communication: Enabling timely material procurement through analysis of supplier emails and documents

Finance

Fraud detection: Identifying anomalies indicating fraud through transaction pattern monitoring and analysis

Trade acceleration: Automating trade execution based on real-time data analysis

Healthcare

Clinical documentation: Transcribing and managing clinical notes

Patient data analysis: Informing diagnoses through pattern identification in patient records

Legal

Contract analysis and compliance checking: Automating document review for regulatory and other compliance

Legal discovery automation: Isolating pertinent information from vast amounts of documents rapidly

Life and health insurance

Claims processing automation: Extracting and validating information from submitted claim forms and medical reports

Risk assessment: Improving risk assessment accuracy through automated extraction of data from medical records and lifestyle questionnaires

Oil and gas

Maintenance log analysis: Analyzing notes from maintenance personnel to predict and prevent equipment failures

Geological data interpretation: Extracting and summarizing data from sources such as geological reports, drilling logs, and research papers

Real estate

Property listing optimization: Generating engaging descriptions based on property features

Lead qualification: Analyzing email and online inquiries to prioritize based on readiness to purchase

Retail

Inventory optimization: Predicting demand through sales data analysis

Personalized product recommendations: Creating more personalized shopping experiences through purchase history analysis

Metoder för bearbetning av naturligt språk

De flesta förhållningssätt till naturlig språkbehandling faller inom en av två breda kategorier. De är antingen regelbaserade eller maskininlärningsbaserade.

Regelbaserad NLP

Detta tillvägagångssätt försöker identifiera en uppsättning språkliga regler som en dator kan följa för att på ett tillförlitligt sätt förstå och generera mänskligt språk. Som ett resultat av detta är den starkt inriktad mot språkliga aspekter av beräkningslingvistik. Regelbaserade tillvägagångssätt kan vara mycket effektiva om du använder datauppsättningar där språket är både kontrollerat och förutsägbart, som juridiska dokument eller tekniska manualer.

Maskininlärningsbaserad NLP

En maskininlärningsbaserad metod för NLP använder en mängd olika statistiska metoder och algoritmiska metoder. I stället för att skapa reglerna i förväg är syftet att låta en dator lära sig att kommunicera baserat på en massiv datauppsättning. Tanken är att när en dator har bearbetat tillräckligt många exempel på mänskligt språk kommer datorn att identifiera de mönster som gör för ett gott mänskligt språk. Om du har tillräckligt stora datauppsättningar kan maskininlärningsbaserade metoder för NLP vara ganska flexibla och anmärkningsvärt effektiva.

En kort historia om bearbetning av naturligt språk

Naturlig språkbehandling som gren av AI började utvecklas på 1940-talet. Under 1980- och 1990-talen blev datorlösningar kraftfullare och maskininlärning började mogna. På senare tid har ökningen av djup inlärning, neurala nätverk och olika former av generativ AI helt förändrat naturlig språkbehandling.

Händelser i utvecklingen av NLP

Teknisk översikt över bearbetning av naturligt språk

Naturlig språkbehandling är ett paraplybegrepp som omfattar en rad tekniker och tekniker som gör det möjligt för maskiner att förstå och producera mänskligt språk. Varje teknik som möjliggör NLP faller under en av dessa två funktioner.

NLP-underkategorier

Naturlig språkbehandling omfattar en rad olika tekniker och tekniker. Men det primära syftet med NLP är att göra det möjligt för maskiner att förstå och producera mänskligt språk. Dessa två funktioner är huvudkomponenterna i naturlig språkbehandling.

Maskininlärningens roll i NLP

Vad skulle en dator kunna göra om den kunde lära sig själv nya färdigheter? Det är vad maskininlärning är. Maskininlärning är när datorer lär sig att göra uppgifter på egen hand utan några specifika instruktioner.

För NLP tar maskininlärning formen av att skapa modeller som möjliggör både naturlig språkförståelse och naturlig språkgenerering. Den använder tekniker inklusive övervakad inlärning, som hänvisar till träningsmodeller på data som har etiketter, och oövervakad inlärning, vilket är träningsmodeller på data som inte har etiketter.

Rollen av djupt lärande i NLP

Djuplärning är en specifik form av maskininlärning. Den använder neurala nätverk som har flera lager, varför ”djup” finns i namnet. Med ”inlärning” avses användningen av algoritmer som identifierar och sedan modellerar komplexa mönster i dataset. Djuplärande är viktigt i NLP eftersom det har gjort NLP mycket bättre vid vissa uppgifter. Dessa inkluderar översättning mellan språk, analys av sentiment i ett dataset och generering av text.

Hur neurala nätverk förbättrar NLP

Neurala nätverk bygger på idén att använda den mänskliga hjärnan som modell för hur man bearbetar data. Neurala nätverk gör det möjligt för NLP-system att vara mycket exakta i både förståelse och generering av mänskligt språk. Neurala nätverk kan ha olika arkitekturer och är nyckeln till att möjliggöra applikationer som en virtuell assistent, chattrobot eller automatiserad textanalys.

SAP-logotyp

Upptäck vad NLP kan göra för ditt företag

Möt Joule: SAP:s AI-assistent som kan hjälpa dig att lösa tuffa affärsutmaningar snabbare, smartare och med bättre resultat. Säg bara ordet.

Starta konversationen

Beräkningslingvistik och NLP

Beräkningslingvistik är det studieområde som kombinerar datavetenskap och lingvistik för att fokusera på naturlig språkbehandling. Det skapar en teoretisk grund för att göra det möjligt för datorer att förstå mänskligt språk.

Studier av meningarnas struktur och de regler som gör meningar grammatiska eller ogrammatiska.

Engelsk syntax: ”Katten sitter på mattan.”

Felaktig engelsk syntax: ”Cat the on mat sitter”.

Studier som betyder något i språket, inklusive hur ord och fraser representerar objekt, handlingar och idéer.

Meningen: ”Katten är på mattan.”

Semantisk tolkning: Betydelsen är att det finns en katt fysiskt placerad ovanpå en matta.

Studier av hur kontexten påverkar tolkningen av språket.

Meningen: ”Kan du passera saltet?”

Pragmatisk tolkning: Även om det är en fråga om förmåga visar sammanhanget att man ska förstå att det är en artig begäran om att någon ska klara saltet.

Beräkningslingvistik är viktig eftersom den kopplar ihop prickarna mellan lingvistisk teori och verkliga tillämpningar av NLP.

Vanliga frågor

Varför är NLP svårt?
Naturlig språkbehandling (NLP) är otroligt utmanande på grund av det mänskliga språkets tvetydighet och komplexitet. Ord kan ha flera betydelser beroende på sammanhang, grammatik kan vara nyanserad och oregelbunden, och små variationer i frasering kan drastiskt ändra den avsedda betydelsen. Och mångfalden av språk, dialekter och kulturella nyanser gör det svårt att utveckla universellt tillämpliga modeller.
Vilka är de fyra typerna av NLP?

De fyra huvudsakliga underfälten är:

1.  Naturlig språkförståelse (NLU), med fokus på att göra det möjligt för datorer att förstå mening och avsikt bakom språket
2. Naturlig språkgenerering (NLG) möjliggör läsbar text från strukturerade data
3. Taligenkänning konverterar talspråk till kopia
4. Talsyntes konverterar kopia (eller skriven text) till talspråk

Läs mer

tags
4187ae8c-cd0e-40c1-9c57-b7f4b964faed:1b3c5a48-ceb7-41ef-9ef4-ed3056aa76d4/80703328-4f70-42b5-bb93-a92442818df8
limit
3
info
publicationDate