Hva er naturlig språkbehandling?
Behandling av naturlig språk er en form for maskinlæring som gjør at folk kan kommunisere med kunstig intelligens (KI) ved hjelp av menneskelig språk.
Oversikt over behandling av naturlig språk
Oversikt over og definisjon av NLP
Naturlig språkbehandling (NLP) er en fascinerende gren av AI som gjør det mulig for mennesker og maskiner å kommunisere med hverandre i dagligspråket. Måten du gir talekommandoer til Siri eller får oversettelser på Google på, er begge eksempler på NLP i aksjon, fordi både viser programvareforståelse og svarer på menneskelig språk.
Hvordan forholder NLP seg til AI?
De fleste mennesker er ikke programmerere eller programvarestrømbrukere, noe som er en av grunnene til at naturlig språkbehandling er så nyttig. Programvare kan ha en bratt læringskurve, og NLP lar deg bruke selv kompleks programvare uten å bli ekspert. Faktisk lar NLP deg bare beskrive hva du vil til en AI på samme måte som du kan forklare det til en venn.
Begrepet AI dekker et bredt spekter av teknologier, men NLP-grenen fokuserer på utfordringene i menneskelig språk. For å være virkelig nyttig, må NLP løsninger gjøre mer enn bare å fange ordene du sier. NLP-systemer må forstå konteksten og hensikten bak ordene dine. For å gjøre det mulig bruker NLP-utviklere andre AI-teknologier som maskinlæring og dyp læring.
Hvorfor er naturlig språkbehandling viktig?
Naturlig språkbehandling lar deg bruke teknologi som ellers kan være vanskelig å bruke. Den gjør det også mulig for datamaskiner å forstå tekst og tale på en måte som de ikke kunne før NLP. Her er noen av fordelene med NLP:
NLP hjelper folk med å bli mer produktive
På jobben kan behandling av naturlig språk øke effektiviteten ved å la deg bruke automatisering for repeterende eller tidkrevende oppgaver. En kundeserviceavdeling kan for eksempel bruke NLP-drevne chatboter til å håndtere rutinemessige kundeforespørsler. Eller en regnskapsavdeling kan bruke NLP-aktiverte systemer til å hente nøkkelinformasjon fra fakturaer og kvitteringer og bruke den til å fylle ut en database eller et regneark.
Som ytterligere fordeler reduserer automatisering av dataregistrering og -behandling sjansene for menneskelige feil og akselererer arbeidsflyter. Når et system kan forstå menneskelig språk godt nok til å ta over grunnleggende oppgaver, øker det produktiviteten ved å la brukerne fokusere på høyere verdioppgaver.
NLP bidrar til å forbedre kundeopplevelser
Når du prøver å nå en bedrift via telefon, men ikke kan komme forbi et forvirrende telefontre, opplever du et dårlig trent interaktivt taleresponssystem. Men en veltrent NLP chatbot kan gi kundene en mer intuitiv opplevelse. Et nettsted for e-handel med et NLP-aktivert system kan for eksempel analysere hvilke produkter en kunde har bladd gjennom på nettstedet. Ved å forstå hvilke produkter som er av interesse for en kunde, kan systemet deretter foreslå produkter som kunden sannsynligvis vil ha.
NLP-drevne kundeservice-chatboter forbedrer opplevelsene ved å svare på spørsmål eller løse problemer raskt. Disse chatbotene kan være utformet for å ha en fullstendig historikk over en kundes interaksjoner og gjenkjenne problemer kunden har hatt tidligere.
NLP oppretter ny innsikt
Hvis du noen gang har sendt en e-post til en bedrift for å stille et spørsmål, gi råd eller registrere en klage, kan det virke som om ingen engang leser det. Og det kan være tilfelle, fordi få bedrifter har tid til å lese hver del av kundetilbakemeldinger de får. Men NLP-aktivert AI har tid. Det kan sikte gjennom enorme datasett som kundesamtaler på nettsteder. Det kan deretter gi bedrifter en pålitelig oppsummering av disse diskusjonene slik at virksomheten kan løse problemet.
Hvordan fungerer naturlig språkbehandling?
Her er hvordan NLP gjør samtaler mellom mennesker og maskiner mulig. Følgende trinn gjelder for språk i form av tekst. NLP for talespråk er litt annerledes, men følger de samme generelle prinsippene.
La oss bruke en eksempelsetning for å vise hvordan prosessen fungerer:
“Jeg liker å demonstrere hvordan naturlig språkbehandling fungerer.”
Algoritmen begynner med forbehandling av tekst.
Forbehandling av tekst
Tekstforbehandling refererer til å forenkle teksten som folk lager for å gjøre det enklere for NLP-algoritmer å behandle menneskelig språk.
- Tokenisering
Tokenisering er prosessen med å bryte ned ordene og tegnsettingen i en setning til token. Tokenisering er viktig fordi det er mer effektivt for NLP-algoritmer å behandle tokener enn tekst når du utfører oppgaver som indeksering og søk. Eksempelsetningen har åtte ord i seg: «Jeg liker å demonstrere hvordan naturlig språkbehandling fungerer.» Den har også en periode, så du får åtte tokens ved å telle ordene og en ved å telle perioden, for totalt ni tokens.
- Lavhylster
Små bokstaver er prosessen med å konvertere alle token til små symboler for å gjøre datasettet enklere. I eksempelsetningen var et av symbolene «jeg». For å unngå tvetydighet og øke effektiviteten, konverterer trinnet med små bokstaver disse store bokstavene til "i". Reglene for lavhylster blir mer kompliserte i andre deler av prosessen.
- Fjerner stoppord
En annen måte å forenkle tekst for behandling av naturlig språk på, er å fjerne ord som ikke har noen betydningsfull betydning, som kalles stoppord. I eksempelsetningen vil ordene "i" og "hvordan" vanligvis bli betegnet stoppord. Når en algoritme fjerner dem, har du syv tokener igjen, som er "like", "demonstrerende", "naturlig", "språk", "behandling", "arbeider", og ".".
- Stemming og lemmatisering
Selv med de syv symbolene igjen er det plass til mer forenkling. En metode, stemming, er å kutte et ord ned til sin base eller rotform. Symbolet "demonstrasjon" er et ord som bygger på stammen "demonstr" akkurat som "naturlig" bygger på "natur", slik at modellen erstatter de opprinnelige symbolene med stammene "demonstr" og "natur".
Et ord kan ha forskjellige betydninger i ulike sammenhenger, og lemmatisering er prosessen med å bestemme den riktige betydningen i en bestemt kontekst. Eksempelsetningen omfatter «like», som kan bety «nyt» eller «lik». I dette tilfellet vil lemmatisering resultere i tilordning av konteksten der "lignende" betyr "nyt".
Tekstpresentasjon
Det neste trinnet er tekstrepresentasjon, som konverterer ord til et numerisk format som en maskin kan behandle. I tillegg til tall kan tekst konverteres til vektorer eller embeddings, som er mer komplekse formater som gir informasjon som kontekst.
- Bag med ord (BoW)
Datamaskiner er gode til å telle, og BoW-målingen teller hvor mange ganger et ord vises i et dokument. Hvis ordene lag, spill og score vises ofte i et dokument, for eksempel, er konteksten mer sannsynlig å være sport. Eksempelsetningen har bare én forekomst av hvert ord. BoW-representasjonen vil vise at hvert ord bare forekommer én gang slik:
{"i": 1, "som": 1, "demonstrerer": 1, "hvordan": 1, "naturlig": 1, "språk": 1, "behandling": 1, "fungerer": 1}
- TF-IDF (term frekvensinvers dokumentfrekvens)
TF-IDF bruker en formel basert på hvor ofte et ord vises i et samlet datasett som består av mange dokumenter for å bestemme viktigheten av et ord. Jo oftere et ord dukker opp, jo lavere er TF-IDF-vekten, og jo mindre viktig er det i et enkelt dokument. Ord som «the» og «a» opptrer ganske ofte, og det er derfor mindre viktig. Du vil representere vektene av eksempelsetningen i en slik form, som viser at vanlige ord har lavere vekter og uvanlige ord har høyere vekter:
{"i": 0.1, "like": 0.1, "demonstrerer": 0.3, "how": 0.1, "naturlig": 0.2, "språk": 0.2, "behandling": 0,5, "fungerer": 0.1}
Tekstanalyse
Tekstanalyse er punktet hvor en NLP-algoritme trekker ut mening fra tekst. Slik kan en algoritme produsere passende svar på brukerens spørring.
- Navngitt entitetsføring (NER)
Etter å ha gjort noen kvantitative analyser, NLP algoritmer neste se etter ord som er gjenkjennelig som navngir noe. Ordet eple refererer til en type frukt, men ordet Apple refererer til et bestemt selskap, og en NLP-algoritme trenger en måte å gjenkjenne forskjellen på. Eksempelsetningen "Jeg liker å demonstrere hvordan naturlig språkbehandling fungerer", inkluderer ordene "naturlig språkbehandling", som folk kan gjenkjenne som å navngi en AI-teknologi. Dette representeres på følgende måte:
NER Output: [(«naturlig språkbehandling», «Technology»)]
- Stemningsanalyse
Noen datasett, som en katalog av gressklipperdeler, har kanskje ikke en betydelig emosjonell tone. Men en filmanmeldelse kan ha en sterk emosjonell tone. Hvis et datasett har en tone, er stemningsanalyse trinnet i behandling av naturlig språk som fanger det opp. For eksempelsetningen kan stemningsanalysen se slik ut:
Stemningsutdata: Positiv
Syntaksanalyse
Hver setning har en grammatisk struktur. Syntaksanalyse er prosessen med å analysere den strukturen for å finne substantiv, verb, fag, etc. Dette er viktig fordi forskjellige språk bruker forskjellig syntaks, så syntaksanalyse er viktig for maskinoversettelse. For eksempelsetningen kan syntaksanalyse generere dette resultatet:
Syntakstre: (ROOT (S (NP (PRP I)) (VP (VBP-lignende) (S (VP (VBG-demonstrasjon) (SBAR (WHADVP (WRB how)) (S (NP (NNP Natural) (NNP Language) (NNP Processing)) (VP (VBZ works)))))))))
Avhengig av den bestemte algoritmen vil det vanligvis være flere trinn. Resultatet er en samtale der maskinen ser ut til å forstå dine ord og intensjon og svarer deg på naturlig språk.
Hva er eksempler på naturlige språkbehandlingsoppgaver?
Kontrollere en drone med talekommandoer
Selv den kraftigste teknologien har begrenset verdi hvis du ikke vet hvordan du bruker den. Naturlig språkbehandling gjør teknologien mer tilgjengelig. Det reduserer behovet for spesialisert teknisk kunnskap for å få fordelene med avansert programvare eller maskinvare. Brukere kan samhandle med NLP-aktiverte systemer gjennom naturlig samtale i stedet for å stole på komplekse kommandoer, koding eller fysiske kontroller.
For eksempel, en fjernkontroll applikasjon for små droner kan tillate deg å bare fortelle en drone å gjøre noe som flip i luften, uten å måtte lære de intrikate kontroller du ellers trenger å bruke. Muligheten til å bruke enkle talekommandoer gjør det mulig for flere å bruke teknologi.
Få bedre innsikt i merkevareadministrasjon
Folk uttrykker sine tanker og preferanser hver dag, og bedrifter har tilgang til mye av disse dataene. Bedrifter bruker allerede data som produktsalg for å forstå noen aspekter ved kundeatferd. Med løsninger for naturlig språkbehandling kan datamaskiner gjøre sosiale medier samtaler og online kundeanmeldelser til nyttig informasjon også.
Analysene fra NLP er en annen type informasjon enn tradisjonelle salgsanalyser. Salgstall for forretningsmessig bruk for driftsinnsikt som prognoser eller ressursstyring, men NLP-basert analyse kan være kraftigere i merkevareadministrasjon eller forbedre kundeopplevelser.
Hindre overbelastning av informasjon
Hvis du har en e-postadresse som du bruker til jobben, kan overbelastning av informasjon virke uunngåelig. Den gjennomsnittlige ansatte mottar mer enn 120 e-poster om dagen, så det er ikke overraskende at omtrent 60 % av de ansatte bare ignorerer interne firma-e-poster. Men hvis e-postprogrammet ditt har NLP-funksjoner, kan det hjelpe deg med å unngå overbelastning av informasjon. Det kan filtrere, kategorisere og prioritere e-poster slik at de viktigste får oppmerksomheten de trenger.
På samme måte kan NLP-systemer som er innebygd i samarbeidsprogramvare, transkribere og oppsummere møter. De kan til og med gjenkjenne og fange opp nøkkelpunktene som er gjort under et møte, og rapportere om tildelte tiltak. Denne typen NLP-aktivert automatisering hjelper enkeltpersoner med å spare tid og øker den generelle organisatoriske effektiviteten.
Brukstilfeller for behandling av naturlig språk
NLP er i ferd med å transformere industrier. NLP applikasjoner forbedrer medarbeidernes effektivitet, gjør kundeopplevelser bedre, og muliggjør strategisk beslutningstaking, som spenner over et bredt spekter av sektorer. Nedenfor er noen kjente brukstilfeller for NLP på tvers av ulike bransjer.
Defect analysis: Identifying common defects through analysis of technicians’ notes, customer complaints, and warranty claims
Supplier communication: Enabling timely material procurement through analysis of supplier emails and documents
Fraud detection: Identifying anomalies indicating fraud through transaction pattern monitoring and analysis
Trade acceleration: Automating trade execution based on real-time data analysis
Clinical documentation: Transcribing and managing clinical notes
Patient data analysis: Informing diagnoses through pattern identification in patient records
Contract analysis and compliance checking: Automating document review for regulatory and other compliance
Legal discovery automation: Isolating pertinent information from vast amounts of documents rapidly
Claims processing automation: Extracting and validating information from submitted claim forms and medical reports
Risk assessment: Improving risk assessment accuracy through automated extraction of data from medical records and lifestyle questionnaires
Maintenance log analysis: Analyzing notes from maintenance personnel to predict and prevent equipment failures
Geological data interpretation: Extracting and summarizing data from sources such as geological reports, drilling logs, and research papers
Property listing optimization: Generating engaging descriptions based on property features
Lead qualification: Analyzing email and online inquiries to prioritize based on readiness to purchase
Inventory optimization: Predicting demand through sales data analysis
Personalized product recommendations: Creating more personalized shopping experiences through purchase history analysis
Metoder for behandling av naturlig språk
De fleste tilnærminger til naturlig språkprosessering faller inn under en av to brede kategorier. De har enten en regelbasert tilnærming eller en maskinlæringsbasert tilnærming.
Regelbasert NLP
Denne tilnærmingen forsøker å identifisere et sett av språklige regler som en datamaskin kan følge for å forstå og generere menneskelig språk på en pålitelig måte. Som et resultat er det sterkt orientert mot lingvistiske aspekter av beregningslingvistikk. Regelbaserte tilnærminger kan være svært effektive hvis du bruker datasett der språket er både kontrollert og forutsigbart, som juridiske dokumenter eller tekniske håndbøker.
Maskinlæringsbasert NLP
En maskinlæringsbasert tilnærming til NLP bruker en rekke statistiske metoder og algoritmiske tilnærminger. I stedet for å lage reglene på forhånd, er målet å tillate en datamaskin å lære å kommunisere basert på et massivt datasett. Tanken er at når en datamaskin har behandlet nok eksempler på menneskelig språk, vil datamaskinen identifisere mønstrene som gjør for godt menneskelig språk. Hvis du har store nok datasett, kan maskinlæringsbaserte tilnærminger til NLP være ganske fleksible og bemerkelsesverdig effektive.
En kort historie om naturlig språkbehandling
Behandlingen av naturlig språk som en gren av AI begynte å utvikle seg på 1940-tallet. På 1980- og 1990-tallet ble databehandlingsløsningene kraftigere og maskinlæring begynte å modnes. I nyere tid har fremveksten av dyp læring, nevrale nettverk og ulike former for generativ AI fullstendig transformert naturlig språkbehandling.
Hendelser i NLP evolusjon
- 1940-tallet | Første NLP utvikling, inkludert Weaver Memorandum på maskin oversettelse, vises
- 1950-tallet | "Universal grammatikk" introdusert; Turingtest foreslått; dyp læring kommer frem
- 1960-tallet | Chatbots som ELIZA dukker opp og lingvistiske teorier som underbygger NLP utvikler seg
- 1970-tallet | Sak grammatikk teori og semantiske nettverk oppstår; regelbaserte systemer modne og chatbots sprer seg
- 1980-tallet | Tidlige maskinlæringsalgoritmer utvikler seg; talegjenkjenningsteknologier utvikler seg; beregningslingvistikk utvider seg og RNN-teori oppstår
- 1990-tallet | Statistiske modeller og LSTM-er dukker opp og maskinoversettelse vinner trekkraft
- 2000-tallet | Maskinlæring utvikler seg raskt og nevrale språkmodeller utvikler seg; store mengder muntlige og tekstlige data blir tilgjengelige
- 2010s | En betydelig økning i tilgjengelige data og beregning gjør det mulig for dyp læring å utvikle seg raskt
- 2020-tallet | Store språkmodeller, forhåndsutdannede språkmodeller og transformatorer blir fremtredende
Teknologioversikt over naturlig språkbehandling
Naturlig språkbehandling er et paraplybegrep som dekker en rekke teknologier og teknikker som gjør det mulig for maskiner å forstå og produsere menneskelig språk. Hver teknologi som muliggjør NLP faller under en av disse to funksjonene.
NLP underkategorier
Naturlig språkbehandling dekker en rekke teknologier og teknikker. Men hovedformålet med NLP er å gjøre det mulig for maskiner å forstå og produsere menneskelig språk. Disse to egenskapene er de viktigste komponentene i naturlig språkbehandling.
- Naturlig språkforståelse (NLU): Naturlig språkforståelse fokuserer på å forstå og tolke menneskelig språk. For å gjøre det, må NLU systemer være i stand til å analysere syntaks, analysere semantikk, og forstå hvordan kontekst påvirker mening i menneskelig språk. Dette kan ta former som å forstå talte spørsmål eller utføre oppgaver basert på muntlige retninger.
- Naturlig språkgenerasjon (NLG): Naturlig språkgenerasjon fokuserer på å produsere menneskelignende tekst eller tale. For å gjøre det må NLG-systemer kunne gjøre ustrukturerte data om til naturlig lydspråk. Dette kan bety oppsummering av informasjon eller til og med videreføring av samtaler.
Rollen til maskinlæring i NLP
Hva kan en datamaskin gjøre hvis den kunne lære seg nye ferdigheter? Det er hva maskinlæring er. Maskinlæring er når datamaskiner lærer å gjøre oppgaver på egen hånd uten noen spesifikke instruksjoner.
For NLP tar maskinlæring form av å skape modeller som muliggjør både naturlig språkforståelse og naturlig språkgenerering. Den bruker teknikker, inkludert opplæring med tilsyn, som refererer til opplæringsmodeller om data som har etiketter, og opplæring uten tilsyn, som er opplæringsmodeller på data som ikke har etiketter.
Rollen til dyp læring i NLP
Dyp læring er en bestemt form for maskinlæring. Den bruker nevrale nettverk som har flere lag, og det er derfor "dyp" er i navnet. «Læringen» refererer til bruk av algoritmer som identifiserer og deretter modellerer komplekse mønstre i datasett. Dyp læring er viktig i NLP fordi det har gjort NLP mye bedre på visse oppgaver. Disse inkluderer oversettelse mellom språk, analyse av stemningen i et datasett og generering av tekst.
Hvordan nevrale nettverk forbedrer NLP
Nevrale nettverk er basert på ideen om å bruke den menneskelige hjernen som en modell for hvordan å behandle data. Nevrale nettverk gjør at NLP-systemer kan være svært nøyaktige i både forståelse og generering av menneskelig språk. Nevrale nettverk kan ha ulike arkitekturer og er nøkkelen til å muliggjøre applikasjoner som en virtuell assistent, chatbot eller automatisert tekstanalyse.
Oppdag hva NLP kan gjøre for din bedrift
Møt Joule: SAPs KI-kopilot som kan hjelpe deg med å løse tøffe forretningsutfordringer raskere, smartere og med bedre resultater. Bare si ordet.
Beregningslingvistikk og NLP
Beregningslingvistikk er studieretningen som kombinerer informatikk og lingvistikk for å fokusere på naturlig språkbehandling. Det skaper et teoretisk grunnlag for å gjøre datamaskiner i stand til å forstå menneskelig språk.
- Syntaks
Studier strukturen av setninger og reglene som gjør setninger grammatiske eller ugrammatiske.
Engelsk syntaks: «Katten sitter på matten».
Feil engelsk syntaks: «Katt på matten sitter.»
- Semantikk
Studier som betyr i språk, inkludert hvordan ord og uttrykk representerer objekter, handlinger og ideer.
Setning: “Katten er på matten.”
Semantisk tolkning: Betydningen er at det er en katt fysisk plassert på toppen av en matte.
- Pragmatikk
Studier måten konteksten påvirker tolkningen av språket.
Setning: "Kan du passere saltet?"
Pragmatisk tolkning: Selv om det er et spørsmål om evne, viser konteksten at du bør forstå at det er en høflig forespørsel om at noen skal passere saltet.
Beregningslingvistikk er viktig fordi det forbinder prikkene mellom lingvistisk teori og virkelige anvendelser av NLP.
Ofte stilte spørsmål
De fire viktigste underordnede feltene er:
1. Naturlig språkforståelse (NLU), med fokus på å gjøre det mulig for datamaskiner å forstå mening og hensikt bak språket
2. Generering av naturlig språk (NLG) muliggjør tekst som kan leses av mennesker fra strukturerte data
3. Talegjenkjenning konverterer talespråk til kopi
4. Talesyntese konverterer kopi (eller skriftlig tekst) til talespråk