Эти книги помогут вам разобраться в процессах, связанных с рабочим процессом в области науки о данных, и стать профессионалом в области науки о данных.

У меня есть образование в области транспортного машиностроения (область гражданского строительства). Таким образом, мне приходится иметь дело с большим количеством данных. Процесс включает в себя очистку, обработку, анализ и выводы данных. Обычное программное обеспечение часто создает препятствия при работе с большим объемом данных; в основном при использовании традиционного программного обеспечения, такого как Excel. Чтобы справиться с этой проблемой, я начал изучать языки программирования.

Я все еще помню; изначально я понятия не имел, с чего начать. Итак, я начал искать блоги, связанные с программированием и наукой о данных, и наткнулся на два языка программирования; Python и R являются бесплатными и общедоступными. У меня возник следующий вопрос: начинать с Python или R; это часто остается главным парадоксом выбора для многих новичков. Для начала я выбрал R. Я знаю, что это немного странно, но я начал с сложного, а позже выучил и Python. На данный момент у меня есть практические знания как в R, так и в Python в качестве инструмента обработки данных для очистки, обработки, визуализации данных, статистических вычислений и машинного обучения.

Я считаю, что большинство из нас согласятся с тем фактом, что часто бывает трудно определить первую ступеньку для начала, особенно когда мечтаете начать путешествие в науку о данных. Книги - лучший источник знаний именно тогда, когда вы хотите учиться самостоятельно. Тем не менее, человек часто сталкивается с трудностями при выборе книги, которая удовлетворяет требованиям и дает надлежащее руководство. Есть много книг, доступных в Интернете на Amazon или Flipkart (индийском веб-сайте электронной коммерции), но большой вопрос заключается в том, с какой из них выбрать для начала (парадокс выбора).

Многие люди задают мне вопросы о том, как начать свой путь в Data Science. В конце концов, согласно Harvard Business Review, Data Scientist теперь считается самой сексуальной работой 21 века. Помимо онлайн-обучения, я рекомендую работать с книгами. Чтобы убрать беспорядок, в этом блоге я познакомлю вас с некоторыми книгами, которые помогут вам получить представление о том, как начать свое путешествие по программированию и науке о данных, и даже укрепить существующую базу знаний.

Рекомендации по книгам можно разделить на три большие категории:

  • Книги по программированию для начинающих
  • Книги для изучения науки о данных (манипуляции и построение графиков)
  • Книги по машинному обучению (прогнозное моделирование)

Книги по программированию для начинающих

Прежде всего, чтобы погрузиться в науку о данных или машинное обучение, нужен инструмент для обработки данных, язык программирования, такой как R или Python. Здесь я перечислил несколько книг, которые проведут вас и дадут конкретное понимание R или Python.

Автоматизируйте скучную работу с помощью Python (А.Л. Свигарт)

«Автоматизация скучных вещей с помощью Python» - одна из самых популярных книг, написанных для начинающих, особенно для тех, кто хочет начать свой путь с популярного языка программирования общего назначения Python. Автор представил широкий спектр практических примеров кодирования, которые помогут вам понять концепции с минимальными усилиями.

Эта книга поможет вам понять основные концепции Python, такие как типы данных, функции, списки, словари, кортежи, строки, регулярные выражения, чтение и запись различных типов файлов и многое другое. Кроме того, это дает вам первоначальный обзор автоматизации с небольшими примерами проектов.

Практическое программирование с R (Гаррет Гролемунд)

Если вы начинаете с языка программирования R, то вы можете начать свой путь с статьи «Практическое программирование с помощью R», написанной популярными книгами и авторами пакетов R Гарретом Гролемундом и Хэдли Уикхэм. Они оба известны своим вкладом в сообщество R.

Эта книга даст вам практический опыт работы с языком R и проведет вас через объекты R (атомарные векторы, двойные числа, целые числа, символы, логические и сложные), функции, циклы, объекты S3, пакеты, вменение значений и пропущенные значения. , с обширными и яркими примерами.

Learning R (Ричард Коттон)

«Learning R» - красивая вводная книга. Эта книга поможет вам ознакомиться практически со всеми концепциями программирования, связанными с языком программирования R. Изначально книга познакомит вас с языком как с научным калькулятором. Кроме того, он дает обзор важнейших понятий, таких как переменные и среда, вектор, матрицы и массивы, список, фрейм данных, циклы, функции, строки, факторы и пакеты. Даже познакомит вас с фундаментальными основами визуализации и распространения данных. Кроме того, он познакомит вас с передовыми концепциями программирования и разработкой пакетов.

Книги для изучения науки о данных

После изучения основ языка программирования вы готовы погрузиться в бассейн науки о данных.

Python для анализа данных (Уэс Маккинни)

Если вы увлечены питоном, то «Python для анализа данных» Уэса МакКинни (создателя панд) - лучшая книга для начала вашего путешествия в науку о данных. В науке о данных сбор данных и обсуждение - одна из жизненно важных частей рабочего процесса, который требует 80% времени. Из этой книги вы узнаете, как эффективно использовать популярные библиотеки, такие как NumPy и Pandas, для обработки и обобщения данных, с огромным количеством примеров. Короче говоря, эта книга дает вам обзор встроенных структур данных, массивов, стратегий манипулирования фреймами данных (загрузка, запись, очистка, соединение, комбинирование и изменение формы). Кроме того, он помогает в построении графиков, агрегации и знакомит вас с временными рядами и продвинутыми пандами.

R для науки о данных (Хэдли Уикхэм и Гарретт Гролемунд)

Если вы энтузиаст R, то «R для науки о данных» Хэдли Викхэм и Гарретт Гролемун (известные авторы и разработчики пакетов) - лучшая книга для начала вашего путешествия в области науки о данных. Эта книга знакомит вас с концепцией «аккуратных данных» и знакомит с популярным пакетом обработки данных «tidyverse», который делает вашу науку о данных быстрым, плавным и увлекательным занятием. Кроме того, это помогает вам исследовать и визуализировать (ggplot2), спорить (dplyr и tidyr), моделировать (modelr, purrr и broom) и передавать данные с воспроизводимостью (rmarkdown).

Статистический вывод через науку о данных (Честер Исмей и Альберт Ю. Ким)

В науке о данных статистика часто играет жизненно важную роль. Как специалисту по данным, вам часто приходится делать выводы из своих данных. Знание статистики поможет вам делать правильные выводы. Книга Статистический вывод через науку о данных проведет вас и поможет понять процесс получения логических выводов с использованием инструментов анализа данных, широко используемых в промышленности и академических кругах. Кроме того, он повторно представит пакет tidyverse и укрепит ваше понимание. После того, как вы получите солидный опыт работы с инструментами науки о данных, вы познакомитесь с миром традиционной статистики; доверительный интервал, проверка гипотез и регрессия с визуальным представлением.

Книги по машинному обучению (прогнозное моделирование)

Машинное обучение - это процесс, с помощью которого компьютеры изучают представление данных, без явного программирования. Алгоритм машинного обучения отличается от обычной системы, основанной на правилах. Он представлен множеством примеров, и он находит структуру представления в этих примерах, которая в конечном итоге позволяет им придумать собственный набор правил для автоматизации задачи (см. Иллюстрацию ниже). Доступно множество книг, которые познакомят вас с миром машинного обучения.

Практическое машинное обучение с помощью Scikit-Learn, Keras и TensorFlow (Орелиен Герон)

Эта книга Практическое машинное обучение с помощью Scikit-Learn, Keras и TensorFlow познакомит вас с миром интеллектуальных машин и систем. Автор представил интуитивно понятный обзор концепций с минимальной теорией и более практическими готовыми к эксплуатации примерами. Вы познакомитесь с широким спектром алгоритмов машинного обучения. Модельные алгоритмы, такие как линейная регрессия, вспомогательные векторные машины, деревья решений, ансамблевые методы и даже фреймворк глубокого обучения с использованием популярных библиотек машинного обучения, таких как scikit-learn, Keras и Tensor Flow.

Машинное обучение с R (Бретт Ланц)

Книга «Машинное обучение с R» знакомит вас с историей машинного обучения и описывает, как машина изучает представление данных. После обзора концепций машинного обучения эта книга познакомит вас с различными алгоритмами машинного обучения (контролируемыми и неконтролируемыми), их стратегией реализации, преимуществами и недостатками.

Такие алгоритмы, как ленивое обучение (классификация с использованием ближайшего соседа), вероятностное обучение (классификация с использованием наивного байеса), разделяй и властвуй (деревья решений и правила), прогнозирование (методы регрессии), методы черного ящика (нейронные сети и машины опорных векторов) и ансамбли. (случайные леса) были представлены в этой книге. Кроме того, он познакомит вас со стратегиями оценки моделей и предотвращения систематических ошибок. Наконец, это познакомит вас с новыми технологиями больших данных, такими как Spark (инструмент анализа больших данных), H2o (популярная библиотека машинного обучения) и TensorFlow (популярная библиотека глубокого обучения).

Глубокое обучение с помощью Python (Франсиос Чолле) и Глубокое обучение с помощью R (Франсиос Чолле с Дж. Дж. Аллером)

Любите питон или R? Если вы хотите изучить концепции глубокого обучения, то лучшей книгой для вас будет «Глубокое обучение с помощью Python / R». Книга написана Франсуа Шоле, автором одного из самых популярных фреймворков глубокого обучения Keras. Эта книга шаг за шагом проведет вас через концепцию представления данных до реализации глубокого обучения с использованием популярной библиотеки глубокого обучения «Keras».

В настоящее время глубокое обучение используется для решения множества задач, таких как распознавание изображений, обнаружение объектов, классификация текста, распознавание речи (обработка естественного языка), предсказание последовательности, передача нейронного стиля, генерация текста, реконструкция изображения и многие другие.

Это технология, используемая в беспилотных автомобилях, распознавание речи в Siri, Alexa или Google, добавление тегов к фотографиям на Facebook, рекомендации песен в Spotify и механизмы рекомендаций по продуктам. Теперь даже исследователи используют глубокое обучение для понимания сложных закономерностей в данных, например для обнаружения глаукомы у пациентов с диабетом, управления стихийными бедствиями (прогнозы землетрясений и наводнений), обнаружения фальшивых новостей, робототехники и биомеханики. Чтобы лучше понять практическое применение глубокого обучения, я рекомендую вам посмотреть сериал YouTube Эпоха искусственного интеллекта.

Всегда узнавайте что-то новое

Особенно, когда технологии постоянно меняются. Я считаю, что вы никогда не должны прекращать учиться. Всегда есть место как для обучения, так и для совершенствования. Даже по крупицам, долгое обучение дает необычайные совокупные результаты. Я обычно читаю книгу через два месяца. Не стесняйтесь размещать свою рекомендацию и даже делиться с друзьями, когда они начинают задавать вам тот же вопрос.

Надеюсь, вы узнали что-то новое!

Рахул Раоньяр

  • Если вам понравилось, подпишитесь на меня на medium, чтобы узнать больше
  • Свяжитесь со мной в Twitter, LinkedIn, YouTube и Github