Овладейте НЛП независимо от вашего уровня науки о данных

Начало всегда самое трудное. Вы чувствуете себя потерянным, вы не знаете, с чего начать и какой путь лучше. Это становится еще более правдоподобным, если вы пытаетесь вникнуть в сложную и очень обширную область, такую ​​как наука о данных. Не только в широком смысле, наука о данных - это одна из тех областей, в которых вы можете найти огромное количество информации в Интернете.

Самая популярная отрасль науки о данных - это обработка естественного языка (NLP). НЛП - это отрасль компьютерных наук, которая занимается тем, что позволяет компьютерам понимать и использовать естественные языки. Желание, чтобы компьютеры понимали нас и общались с нами, присутствовало с момента изобретения самих компьютеров.



Однако в последние несколько лет вычисления развивались быстрыми темпами, что позволило стать реальностью таким технологиям, как машинное обучение и большие данные. Не просто реальность, а технологии, которые используются ежедневно.

Поскольку популярность НЛП только растет, новые люди рассматривают возможность присоединиться к этой сфере каждый день. Один из лучших ресурсов для изучения чего-либо - книги. Но есть так много книг о науке о данных и НЛП. Итак, что вам следует прочитать?

Эта статья проведет вас через 6 удивительных книг по НЛП, которые в кратчайшие сроки превратят вас от новичка в НЛП до эксперта по НЛП.

№1: Анализ текста с помощью Python: практическое руководство по обработке естественного языка

Аналитика текста с помощью Python: Руководство для практиков по обработке естественного языка - отличная книга, в которой рассказывается, как настроить и создать надежную среду, которую можно использовать для различных задач анализа текста. Кроме того, в книгах представлено множество методов и моделей, основанных на последних достижениях в области НЛП.

Книга перенесет вас от абсолютных основ НЛП с использованием Python к более сложным темам и реальным приложениям. Затем он подробно рассматривает теорию, реализацию и варианты использования нескольких популярных приложений НЛП, включая тесты синтаксического анализа и обработки, обобщение текста, тематическое моделирование и семантический анализ.

Вся кодовая база, указанная в коде, доступна на GitHub бесплатно. Возможно, самое большое преимущество этой книги состоит в том, что она проведет вас по пути от начала до создания реального приложения НЛП. Вот почему он подходит ИТ-специалистам, разработчикам, инженерам и аналитикам.



№2: Книга НЛТК

Если вы используете Python для изучения NLP, то в какой-то момент вашего пути вы должны были пройти через NLTK. NLTK (Natural Language Toolkit) - одна из самых популярных библиотек NLP в Python.

В библиотеке есть собственная свободно доступная книга, которая охватывает все основы НЛП, а также различные функции и методы библиотеки и способы их использования для создания реальных проектов НЛП. Я должен упомянуть, что эта книга предназначена только для введения в НЛП, она не будет углубляться в продвинутые алгоритмы и техники.

Скорее, он будет сосредоточен на том, чтобы помочь вам построить прочную основу для синтаксического анализа, обработки и анализа текстовых данных. Книга обновлена, чтобы соответствовать NLTK 3 и Python 3.

№3: Обработка речи и языка

Обработка речи и языка - книга, написанная профессорами Стэнфордского университета. Последний вариант книги (декабрь 2020 г.) доступен в Интернете. Вы можете бесплатно скачать и прочитать все главы книги на официальном сайте книги.

Эта книга охватывает все основные приемы речевого и языкового процесса от самого начала до более сложных тем. Он начинается с основ НЛП, таких как n-граммы, нормализация текста и регулярное выражение, затем переходит в регрессию, глубокое обучение, нейронную сеть и машинный перевод.

В нем также есть черновики слайдов, которые могут использовать все желающие, если они собираются преподавать НЛП. Эта книга - первая в этом списке, которая содержит главы, посвященные чат-ботам, распознаванию речи, диалоговым системам и основам программного обеспечения для преобразования речи в текст.



№4: Справочник по компьютерной лингвистике и обработке естественного языка

Справочник по компьютерной лингвистике и обработке естественного языка - одна из моих самых любимых книг по НЛП всех времен. Причина в том, что эта книга выходит за рамки высокого уровня алгоритмов и приложений НЛП. Это позволит вам глубоко погрузиться в теорию синтаксического анализа и компьютерной лингвистики, а также в состояние этой области сегодня.

Я бы сказал, что эта книга более академична, чем книги, ранее упомянутые в этом списке, главным образом потому, что она подробно объясняет теории, лежащие в основе всех различных аспектов этой области, а также их практическую сторону.

Эта книга - отличный справочный источник по всему, что касается НЛП и компьютерной лингвистики, от передачи текста до анализа тональности, нейронных сетей и распознавания речи.

№5: Основы статистической обработки естественного языка

Еще одна замечательная книга профессоров Стэнфордского университета. Основы статистической обработки естественного языка - книга, используемая в одном из курсов, преподаваемых в Стэнфордском университете. Фактически, эта книга используется в качестве справочника во многих университетах мира.

НЛП - одна из многих областей науки о данных, и все отрасли науки о данных сильно зависят от математики и статистики. В этой книге рассматриваются все принципы математики и статистики, которые вам понадобятся для полного понимания и реализации алгоритмов НЛП.

Он охватывает различные темы, от статистического вывода (n-граммы) до цепей Маркова и того, как он используется в НЛП, кластеризации и категоризации текста, а также поиске информации. На официальном веб-сайте также есть слайды, используемые для объяснения различных глав этой книги, доступной бесплатно.



№6: Лингвистические основы обработки естественного языка: 100 основ морфологии и синтаксиса

Обработка естественного языка - это область, в которой сочетаются две вещи: вычисления и лингвистика. Когда люди начинают изучать НЛП, они часто рассматривают технический аспект области, такой как обучение программированию, или математику и основы машинного обучения.

Последняя книга в этом списке посвящена лингвистике. В любом приложении НЛП часто цель состоит в том, чтобы извлечь зависимости слов в предложенном предложении на естественном языке, что в основном относится к пониманию взаимосвязи между различными частями речи. Как специалисты по обработке данных, мы обучаем компьютеры понимать наши языки, поэтому нам нужно хорошо понимать их механизмы.

В этой книге представлена ​​надежная информация о синтаксической структуре восприятия человеческих языков, а также много полезной информации, которую можно использовать для построения и обучения сложных моделей, которые могут выполнять более качественные и точные задачи НЛП.

Выводы

Если вы попробуете поискать в Google «книги по НЛП», вы получите сотни, а возможно, и тысячи результатов. Хотя чтение - лучший способ получить информацию, чтение сотен книг, чтобы чему-то научиться, может быть нереальным. Особенно, если вы хотите сменить карьеру, получить сертификат, пройти курс или просто изучить новый навык.

Итак, как вы решаете, какие книги читать в первую очередь?

Я прочитал много книг по всем аспектам науки о данных, некоторые я читаю, чтобы наставлять других, некоторые я читаю для исследования, а некоторые просто потому, что я люблю НЛП. Независимо от причины, в этой статье я представил вам 6 книг по НЛП, которые, по моему мнению, больше всего помогли мне создать базу знаний.



Эти 6 книг - всего лишь мое мнение, они также являются отправной точкой для изучения НЛП. Изучение науки о данных - это непрерывный процесс, пока технологии развиваются, появляются новые алгоритмы, новые методы и новые языки. Как специалисты по обработке данных, мы должны быть в курсе всех новых технологий.

Я знаю, что это может звучать чересчур, но быть специалистом по данным - это как все в жизни, это путешествие, вы узнаете что-то новое на каждом шагу, все, что вам нужно сделать, это сделать первый шаг вперед.