Во время посещения сайта вы соглашаетесь с тем, что мы обрабатываем ваши персональные данные с использованием метрик Яндекс Метрика, top.mail.ru, LiveInternet.

Методы обработки естественного языка и их применение в современном программном обеспечении

Обработка естественного языка представляет собой область компьютерной лингвистики и искусственного интеллекта занимающуюся анализом и синтезом человеческой речи в письменной или устной форме. Компьютерные алгоритмы выделяют из текста значимую информацию определяют тональность высказывания и автоматически переводят с одного языка на другой без участия человека переводчика редактора корректора. Основная сложность обработки естественного языка связана с неоднозначностью слов многозначностью фраз и зависимостью смысла от контекста всего предложения или абзаца.

Токенизация разбивает текст на минимальные значимые единицы слова и знаки препинания на которые можно ссылаться при решении грамматических задач поиска лемматизации. Проблема токенизации возникает в языках без явных пробелов между словами а также при обработке сокращений с точками аббревиатур из заглавных букв написания дат вида двадцать пятое мая. Стандартные токенизаторы справляются с большинством случаев но требуют доработки на специфических доменах медицинских текстов юридической документации технических руководств.

Стемминг и лемматизация приводят разные словоформы к общей основе игнорируя грамматические различия падежей родов чисел времён лиц глагольного залога и наклонения. Стемминг просто отсекает окончания и суффиксы по правилам языка порождая не всегда существующие в реальности основы для редких словоформ иностранного происхождения. Лемматизация использует словарь и грамматические правила для получения нормальной формы слова существующей в языке инфинитив для глаголов именительный падеж единственное число для существительных и прилагательных.

Распознавание именованных сущностей выделяет в тексте названия организаций географических объектов имён людей дат и числовых выражений в разных форматах представления. Медицинские тексты требуют обнаружения названий болезней лекарств и анатомических терминов составных и многокомпонентных длиной до десяти слов. Финансовые документы маркируют упоминания сумм валют и типов контрактов для последующего извлечения в базу данных структурированного хранения.

Анализ тональности текста определяет эмоциональную окраску отзывов клиентов о товарах услугах компаниях работодателях поставщиках сети розничной продажи. Положительная отрицательная или нейтральная оценка вычисляется статистически по частоте употребления прилагательных с положительной или отрицательной коннотацией и наличию модальных глаголов усиливающих конструкций частиц отрицания не с глаголом. Тональность может быть обнаружена на уровне всего документа отдельного абзаца или даже одного предложения внутри текста.

Машинный перевод нейросетями преодолел ограничения предыдущих поколений статистических систем и правил замены слов по словарю длиной сто тысяч единиц. Сквозные нейронные модели шифруют смысл исходного предложения в вектор фиксированной длины а затем расшифровывают его на целевом языке создавая грамматически правильные конструкции с сохранением оттенков значения оригинала. Качество перевода зависит от наличия параллельных корпусов текстов на обоих языках объёмом миллионы пар предложений собранных из официальных многоязычных документов международных организаций судов.

Генерация текста нейросетями по запросу пользователя используется в чат ботах службы поддержки для ответов на типовые вопросы операции с банковским счётом возврат товара изменение даты доставки. Модели обучаются на огромных коллекциях текстов из интернета книг новостных статей научных журналов с последующей донастройкой на специфические диалоги для конкретной предметной области. Несмотря на впечатляющие результаты современные системы генерации продолжают выдавать фактически неверную информацию или ответы не связанные с вопросом логически по смыслу контекста разговора.

Извлечение информации превращает неструктурированный текст в таблицы баз данных заполняя поля год открытия изобретения концентрация действующего вещества дозировка лекарства в миллилитрах на килограмм веса пациента. Шаблонные правила основанные на регулярных выражениях работают для хорошо форматированных текстов но пасуют перед разнообразием человеческой речи с использованием синонимов инверсий неполных предложением без сказуемого. Сверточные и рекуррентные нейронные сети обучаются на размеченных примерах выделять нужные сущности и отношения между ними без явного программирования правил на естественном языке человека.

Оценка качества обработки естественного языка проводится по метрикам точности полноты и гармонического среднего для задачи классификации или сегментации текста. Точность показывает долю правильных ответов среди всех предсказанных положительных примеров системы полнота долю найденных правильных ответов среди всех реально существующих в верной разметке тестового корпуса. Достижение показателей выше девяноста пяти процентов на отраслевых бенчмарках считается успехом хотя человеческий уровень понимания текста остаётся недостижимым для алгоритмов в силу неполноты модели мира.

 

Популярное