Що таке обробка природної мови?
Обробка природної мови – це форма машинного навчання, яка дозволяє людям спілкуватися зі штучним інтелектом (ШІ) за допомогою людської мови.
default
{}
default
{}
primary
default
{}
secondary
Огляд обробки природної мови
Огляд та визначення NLP
Обробка природної мови (NLP) - це захоплююча гілка штучного інтелекту, яка дозволяє людям і машинам спілкуватися один з одним повсякденною мовою. Те, як ви надаєте голосові команди Siri або отримуєте переклади в Google, є прикладами NLP в дії, тому що обидва показують розуміння програмного забезпечення і реагують на людську мову.
Як NLP пов'язаний з ШІ?
Більшість людей не є програмістами або користувачами програмного забезпечення, що є однією з причин обробки природної мови є такою корисною. Програмне забезпечення може мати круту криву навчання, а NLP дозволяє використовувати навіть складне програмне забезпечення, не стаючи експертом. Насправді, NLP дозволяє просто описати те, що ви хочете для ШІ так само, як ви можете пояснити це другу.
Термін AI охоплює широкий спектр технологій, але галузь NLP зосереджується на викликах людської мови. Щоб бути по-справжньому корисними, рішення NLP повинні зробити більше, ніж просто зловити слова, які ви говорите. Системи NLP повинні розуміти контекст і наміри, що стоять за вашими словами. Щоб зробити це можливим, розробники NLP використовують інші технології ШІ, такі як машинне навчання та глибоке навчання.
Чому обробка природної мови важлива?
Обробка природної мови дозволяє використовувати технології, які в іншому випадку можуть бути важкими у використанні. Це також дозволяє комп'ютерам розуміти текст і мову таким чином, що вони не могли до NLP. Ось деякі з переваг НЛП:
NLP допомагає людям бути більш продуктивними
На роботі обробка природної мови може підвищити вашу ефективність, дозволяючи використовувати автоматизацію для повторюваних або трудомістких завдань. Наприклад, відділ обслуговування клієнтів може використовувати чат-боти на основі NLP для обробки звичайних запитів клієнтів. Або бухгалтерський відділ може використовувати системи з підтримкою NLP для отримання ключової інформації з рахунків-фактур і квитанцій і використання її для заповнення бази даних або електронної таблиці.
Як додаткові переваги, автоматизація введення та обробки даних зменшує шанси на людську помилку та прискорює робочі процеси. Коли система може добре розуміти людську мову, щоб взяти на себе базові завдання, вона підвищує продуктивність, дозволяючи користувачам зосередитися на більш високих ціннісних завданнях.
NLP допомагає покращити користувацький досвід
Коли ви намагаєтеся досягти бізнесу по телефону, але не можете пройти повз заплутане дерево телефону, ви відчуваєте погано навчену інтерактивну систему голосових відповідей. Але добре навчений чат-бот NLP може дати клієнтам більш інтуїтивний досвід. Наприклад, сайт електронної комерції з NLP-системою може аналізувати, які товари клієнт переглядав на сайті. Розуміючи, які продукти цікавлять клієнта, система може запропонувати продукти, які клієнт, ймовірно, захоче.
Чат-боти для обслуговування клієнтів на базі NLP покращують досвід, швидко відповідаючи на запитання або вирішуючи проблеми. Ці чат-боти можуть бути розроблені таким чином, щоб мати повну історію взаємодії з клієнтом і розпізнавати проблеми, які були у клієнта в минулому.
NLP створює нові аналітичні дані
Якщо ви коли-небудь надсилали електронний лист бізнесу, щоб поставити питання, запропонувати пораду або зареєструвати скаргу, це може здатися, що ніхто навіть її не читає. І це може бути так, тому що мало підприємств мають час, щоб прочитати кожну частину відгуків клієнтів, які вони отримують. Але ШІ з підтримкою NLP дійсно має час. Він може просіяти величезні набори даних, як розмови з клієнтами на веб-сайтах. Потім це може дати бізнесу надійний підсумок тих дискусій, щоб бізнес міг виправити питання.
Як працює обробка природної мови?
Ось як NLP робить можливими людські та машинні розмови. Наступні кроки застосовуються до мови у формі тексту. НЛП для розмовної мови трохи відрізняється, але дотримується тих же загальних принципів.
Давайте скористаємося зразковим реченням, щоб показати, як працює процес:
«Мені подобається демонструвати, як працює обробка природної мови».
Алгоритм починається з обробки тексту.
Попередня обробка тексту
Попередня обробка тексту відноситься до спрощення тексту, який люди створюють, щоб полегшити алгоритми NLP для обробки людської мови.
- Токенізація
Токенізація - це процес розбиття слів і пунктуації в реченні на жетони. Токенізація важлива, тому що для алгоритмів NLP ефективніше обробляти токени, ніж текст при виконанні таких завдань, як індексація і пошук. У вибірковому реченні вісім слів: «Мені подобається демонструвати, як працює обробка природної мови». Він також має період, тому ви отримуєте вісім токенів, рахуючи слова і один, рахуючи період, в цілому дев'ять токенів.
- Lowercasing
Lowercasing — це процес перетворення всіх токенів у мітки нижнього регістру, щоб спростити набір даних. У вибірковому реченні одним із токенів був «I». Щоб уникнути неоднозначності та підвищення ефективності, крок низини перетворює ці токени верхнього регістру на «i». Правила низирования ускладнюються в інших частинах процесу.
- Видалення стоп-слів
Іншим способом спрощення тексту для обробки природної мови є видалення слів, які не мають значного значення, які називаються стоп-словами. У вибірковому реченні слова «i» і «як» зазвичай позначаються стоп-словами. Коли алгоритм їх видаляє, у вас залишилося сім токенів, які є «подібними», «демонстрацією», «природним», «мовою», «обробкою», «творами» та «.».
- Стеммінг і лемматизація
Навіть з семи жетонів, що залишилися, є місце для більшого спрощення. Одним з методів, що випливають, є вирізання слова до його основи або кореневої форми. Токен «демонстрація» – це слово, яке будує на стеблі «demonstr» так само, як «природний» будує на «натурі», тому модель замінює оригінальні жетони на стебла «demonstr» та «natur».
Слово може мати різні значення в різних контекстах, а лематизація - це процес визначення правильного значення в конкретному контексті. Вибіркове речення включає в себе «лайк», що може означати «насолоджуватися» або «схожим на». У цьому випадку лематизація призведе до призначення контексту, де «подібний» означає «насолоджуватися».
Текстове представлення
Наступним кроком є представлення тексту, яке перетворює слова в числовий формат, який може обробити машина. На додаток до чисел, текст можна перетворити на вектори або вкладення, які є більш складними форматами, які надають інформацію, як контекст.
- Мішок слів (BoW)
Комп'ютери чудово рахують, а вимірювання BoW підраховує, скільки разів слово з'являється в документі. Якщо в документі часто з'являються слова «команда», «гра» і «рахунок», то, наприклад, більш вірогідним контекстом є спорт. Зразок речення має лише один екземпляр кожного слова. Представлення BoW покаже, що кожне слово зустрічається лише один раз, як це:
{“i”: 1, “like”: 1, “showing”: 1, “how”: 1, “natural”: 1, “language”: 1, “processing”: 1, “works”: 1}
- TF-IDF (частотна частота документа з зворотною частотою терміна)
TF-IDF використовує формулу, засновану на тому, як часто слово з'являється в загальному наборі даних, що складається з багатьох документів, щоб визначити важливість слова. Чим частіше з'являється слово, тим нижче його вага TF-IDF, і тим менш важлива вона в єдиному документі. Такі слова, як «а» і «а» з'являються досить часто, і тому менш важливі. Ви б представляли ваги вибіркового речення у формі щось на кшталт цього, показуючи, що загальні слова мають меншу вагу, а рідкісні слова мають більшу вагу:
{“i”: 0.1, “like”: 0.1, “showing”: 0.3, “how”: 0.1, “natural”: 0.2, “language”: 0.2, “processing”: 0.5, “works”: 0.1}
Аналіз тексту
Аналіз тексту - це точка, в якій алгоритм NLP витягує значення з тексту. Це те, як алгоритм може створювати відповідні відповіді на запит користувача.
- Визнання названої сутності (NER)
Провівши кількісний аналіз, алгоритми NLP далі шукають слова, які впізнаються як іменування чогось. Слово яблуко відноситься до типу фруктів, але слово Apple відноситься до конкретної компанії, і алгоритм NLP потребує способу розпізнавання різниці. Вибіркове речення «Мені подобається демонструвати, як працює обробка природної мови», включає слова «обробка природної мови», які люди можуть визнати як назву технології ШІ. Це представлено наступним чином:
Виведення NER: [(«обробка природної мови», «Технологія»)]
- Аналіз настрою
Деякі набори даних, як каталог деталей газонокосарки, можуть не мати значного емоційного тону. Але перегляд фільму може мати сильний емоційний тон. Якщо набір даних має тон, аналіз настрою – це крок обробки природної мови, який його фіксує. Для вибіркового речення аналіз настроїв може виглядати наступним чином:
Виведення настрою: позитивне
Синтаксичний аналіз
Кожне речення має граматичну структуру. Синтаксичний аналіз — це процес аналізу цієї структури для пошуку іменників, дієслів, предметів тощо. Це важливо, тому що різні мови використовують різний синтаксис, тому синтаксичний аналіз є життєво важливим для машинного перекладу. Для прикладу речення синтаксичний аналіз може генерувати цей результат:
Синтаксичне дерево: (ROOT (S (NP (PRP I)) (VP (VBP like) (S (VP (VBG демонстрація) (SBAR (WHADVP (WRB how)) (S (NP (NNP Natural) (NNP Language) (NNP Processing)) (VP (VBZ працює)))))))))
Залежно від конкретного алгоритму, зазвичай, будуть додаткові кроки. Результатом є розмова, де машина ніби розуміє ваші слова і намір і реагує на вас природною мовою.
Які приклади завдань з обробки природної мови?
Управління дроном за допомогою голосових команд
Навіть найпотужніша технологія має обмежену цінність, якщо ви не знаєте, як її використовувати. Обробка природної мови робить технологію більш доступною. Це зменшує потребу в спеціалізованих технічних знаннях, щоб отримати переваги просунутого програмного забезпечення або апаратного забезпечення. Користувачі можуть взаємодіяти з системами з підтримкою NLP через природну розмову замість того, щоб покладатися на складні команди, кодування або фізичні елементи керування.
Наприклад, додаток дистанційного керування для невеликих безпілотників може дозволити вам просто сказати дрону зробити щось на зразок перевертання в повітрі, без необхідності вивчати складні елементи керування, які ви б в іншому випадку повинні використовувати. Можливість використовувати прості голосові команди дозволяє більшій кількості людей використовувати технологію.
Отримання кращої інформації для управління брендом
Люди щодня висловлюють свої думки та вподобання, і підприємства мають доступ до більшої частини цих даних. Компанії вже використовують такі дані, як продаж продуктів, щоб зрозуміти деякі аспекти поведінки клієнтів. За допомогою рішень для обробки природної мови комп'ютери також можуть перетворювати розмови в соціальних мережах та онлайн-огляди клієнтів на дієву інформацію.
Інсайти від NLP – це інший вид інформації, ніж традиційна аналітика продажів. Бізнес використовує дані продажів для операційної інформації, такої як прогнозування або управління ресурсами, але аналіз на основі NLP може бути більш потужним в управлінні брендом або поліпшення клієнтського досвіду.
Запобігання інформаційному перевантаженню
Якщо у вас є адреса електронної пошти, яку ви використовуєте для вашої роботи, перевантаження інформацією може здатися неминучим. Середньостатистичний працівник отримує понад 120 листів на день, тому не дивно, що близько 60% співробітників просто ігнорують внутрішні електронні листи компанії. Але якщо ваш додаток електронної пошти має можливості NLP, це може допомогти вам уникнути інформаційного перевантаження. Він може фільтрувати, категоризувати та визначати пріоритети електронних листів, щоб найважливіші отримали увагу, яка їм потрібна.
Аналогічно, NLP-системи, вбудовані в програмне забезпечення для співпраці, можуть транскрибувати та узагальнювати зустрічі. Вони навіть можуть розпізнавати та фіксувати ключові моменти, зроблені під час зустрічі, і звітувати про призначені елементи операції. Цей вид NLP-автоматизації допомагає людям заощадити час і підвищує загальну організаційну ефективність.
Кейси використання для обробки природної мови
НЛП трансформує галузі. Застосунки NLP покращують ефективність роботи співробітників, покращують клієнтський досвід та дозволяють приймати стратегічні рішення, охоплюючи широкий спектр секторів. Нижче наведено деякі помітні випадки використання NLP у різних галузях.
Defect analysis: Identifying common defects through analysis of technicians’ notes, customer complaints, and warranty claims
Supplier communication: Enabling timely material procurement through analysis of supplier emails and documents
Fraud detection: Identifying anomalies indicating fraud through transaction pattern monitoring and analysis
Trade acceleration: Automating trade execution based on real-time data analysis
Clinical documentation: Transcribing and managing clinical notes
Patient data analysis: Informing diagnoses through pattern identification in patient records
Contract analysis and compliance checking: Automating document review for regulatory and other compliance
Legal discovery automation: Isolating pertinent information from vast amounts of documents rapidly
Claims processing automation: Extracting and validating information from submitted claim forms and medical reports
Risk assessment: Improving risk assessment accuracy through automated extraction of data from medical records and lifestyle questionnaires
Maintenance log analysis: Analyzing notes from maintenance personnel to predict and prevent equipment failures
Geological data interpretation: Extracting and summarizing data from sources such as geological reports, drilling logs, and research papers
Property listing optimization: Generating engaging descriptions based on property features
Lead qualification: Analyzing email and online inquiries to prioritize based on readiness to purchase
Inventory optimization: Predicting demand through sales data analysis
Personalized product recommendations: Creating more personalized shopping experiences through purchase history analysis
Підходи до обробки природної мови
Більшість підходів до обробки природної мови потрапляють в одну з двох широких категорій. Вони або використовують підхід, заснований на правилах, або підхід на основі машинного навчання.
NLP на основі правил
Цей підхід намагається визначити набір лінгвістичних правил, яких може дотримуватися комп'ютер, щоб надійно зрозуміти і згенерувати людську мову. В результаті, він сильно орієнтований на лінгвістичні аспекти обчислювальної лінгвістики. Підходи на основі правил можуть бути високоефективними, якщо ви використовуєте набори даних, де мова є як контрольованою, так і передбачуваною, як юридичні документи або технічні інструкції.
NLP на основі машинного навчання
Підхід на основі машинного навчання до NLP використовує різноманітні статистичні методи та алгоритмічні підходи. Замість того, щоб створювати правила заздалегідь, мета полягає в тому, щоб дозволити комп'ютеру навчитися спілкуватися на основі масивного набору даних. Ідея полягає в тому, що як тільки комп'ютер обробив достатньо прикладів людської мови, комп'ютер визначить закономірності, які роблять для хорошої людської мови. Якщо у вас достатньо великих наборів даних, підходи на основі машинного навчання до NLP можуть бути досить гнучкими та надзвичайно ефективними.
Коротка історія обробки природної мови
Обробка природної мови як галузі ШІ почала розвиватися в 1940-х роках. У 1980-х і 1990-х роках обчислювальні рішення стали більш потужними і машинне навчання почало дозрівати. Зовсім недавно підйом глибинного навчання, нейронних мереж і різних форм генеративного ШІ повністю трансформував обробку природної мови.
Події в еволюції НЛП
- 1940-х | З'являються перші розробки NLP, включаючи Меморандум про машинний переклад Weaver
- 1950-ті роки | «Універсальна граматика»; запропонований тест Тюрінга; виникає глибоке навчання
- 1960-х | Чат-боти, такі як ELIZA з'являються і лінгвістичні теорії, що лежать в основі розвитку NLP
- 1970-ті | Теорія граматики випадків і семантичні мережі з'являються; системи на основі правил зрілі і чат-боти поширюються
- 1980-ті | Розвиваються алгоритми раннього машинного навчання; розвиваються технології розпізнавання мовлення; розширюється обчислювальна лінгвістика та виникає теорія РНК
- 1990-х | З'являються статистичні моделі та LSTM, а машинний переклад набуває тяги
- 2000-ті | Машинне навчання швидко розвивається і нейронні мовні моделі розвиваються; величезні обсяги розмовних і текстових даних стають доступними
- 2010-ті роки | Значне збільшення доступних даних та обчислень дозволяє глибокому навчанню швидко розвиватися
- 2020-ті | Великі мовні моделі, попередньо підготовлені мовні моделі та трансформери набувають популярності
Технологічний огляд обробки природної мови
Обробка природної мови - це парасольковий термін, який охоплює ряд технологій і методів, які дозволяють машинам розуміти і виробляти людську мову. Кожна технологія, яка дозволяє NLP, підпадає під одну з цих двох можливостей.
Підкатегорії NLP
Обробка природної мови охоплює цілий ряд технологій і методик. Але основна мета NLP - це зробити можливим для машин розуміння і вироблення людської мови. Ці дві можливості є основними компонентами обробки природної мови.
- Розуміння природної мови (NLU): розуміння природної мови зосереджується на осмисленні та інтерпретації людської мови. Для цього системи НЛУ повинні вміти аналізувати синтаксис, аналізувати семантику та розуміти, як контекст впливає на значення в людській мові. Це може приймати такі форми, як розуміння розмовних питань або виконання завдань на основі розмовних напрямків.
- Natural language generation (NLG): Генерація природної мови фокусується на створенні людського тексту або мови. Для цього системи NLG повинні мати можливість перетворювати неструктуровані дані на мову природно-звукового звучання. Це може означати зведення інформації або навіть проведення розмов.
Роль машинного навчання в НЛП
Що міг би зробити комп'ютер, якби він навчив себе новим навичкам? Це те, що таке машинне навчання. Машинне навчання — це коли комп'ютери вчаться самостійно виконувати завдання без будь-яких конкретних інструкцій.
Для NLP машинне навчання приймає форму створення моделей, які дозволяють як розуміння природної мови, так і генерування природної мови. Він використовує методи, включаючи кероване навчання, яке відноситься до тренувальних моделей на даних, які мають мітки, і навчання без нагляду, що є тренувальними моделями на даних, які не мають міток.
Роль глибинного навчання в НЛП
Глибоке навчання є специфічною формою машинного навчання. У ньому використовуються нейронні мережі, які мають кілька шарів, тому в назві є «глибокі». Під «навчанням» мається на увазі використання алгоритмів, які ідентифікують, а потім моделюють складні шаблони в наборах даних. Глибоке навчання важливе в NLP, тому що воно зробило NLP набагато краще при певних завданнях. Вони включають переклад між мовами, аналіз настрою в наборі даних і генерування тексту.
Як нейронні мережі підсилюють NLP
Нейронні мережі засновані на ідеї використання людського мозку як моделі для обробки даних. Нейронні мережі дозволяють NLP-системам бути високоточними як у розумінні, так і в генеруванні людської мови. Нейронні мережі можуть мати різні архітектури і є ключовими для включення додатків, таких як віртуальний помічник, чат-бот або автоматизований аналіз тексту.
Дізнайтеся, що NLP може зробити для вашого бізнесу
Зустрічайте Joule: Копілот ШІ SAP, який може допомогти вам швидше, розумніше та з кращими результатами вирішувати складні бізнес-проблеми. Просто скажи слово.
Обчислювальна лінгвістика та НЛП
Обчислювальна лінгвістика є галуззю вивчення, яка поєднує в собі інформатику та лінгвістику для зосередження уваги на обробці природної мови. Це створює теоретичну основу для того, щоб комп'ютери розуміли людську мову.
- Синтаксис
Вивчає структуру речень і правила, які роблять речення граматичними або неграматичними.
Англійський синтаксис: «Кішка сидить на килимку».
Неправильний англійський синтаксис: «Cat the on mat sads».
- Семантика
Вивчає значення мови, включаючи те, як слова і фрази представляють об'єкти, дії та ідеї.
Речення: «Кішка на килимку».
Семантична інтерпретація: Значення полягає в тому, що на килимку фізично знаходиться кіт.
- Прагматика
Вивчає, як контекст впливає на інтерпретацію мови.
Речення: «Чи можете ви передати сіль?»
Прагматична інтерпретація: Хоча це питання про здатність, контекст показує, що ви повинні розуміти, що це ввічливе прохання для когось передати сіль.
Обчислювальна лінгвістика є важливою, оскільки вона з'єднує точки між лінгвістичною теорією та реальними додатками НЛП.
ЗіВ
4 основні підполя:
1. Розуміння природної мови (NLU), зосередження уваги на наданні комп'ютерам можливості зрозуміти значення та наміри за мовою
2. Генерування природної мови (NLG) дозволяє читати текст зі структурованих даних
3. Розпізнавання мовлення перетворює розмовну мову на копію
4. Синтез мовлення перетворює копію (або письмовий текст) на розмовну мову