Да, это модно, и я не буду об этом больше говорить. Так как же на самом деле я мог быть хорошим специалистом по данным, обладающим глубокими фундаментальными знаниями, и изо всех сил стараться выделиться из толпы?
Давайте сразу приступим к делу. В этой статье предполагается, что вы знаете только базовую математику в средней школе, умеете пользоваться компьютером и имеете общие базовые знания о том, как работают компьютеры.
В следующих нескольких строках я расскажу вам, как начать с «точки 0», чтобы достичь продвинутого уровня, на котором вы создаете свои собственные модели, оптимизируете их, решаете новые проблемы с беспорядочными данными, развертываете их как профессиональный инженер-программист. или даже подумайте о публикации исследовательской работы в этой области.
Я объясню каждый навык и то, что вам нужно точно изучить, а затем напишу весь список ресурсов, которые я использовал, чтобы попасть в эту область. Если у вас есть предложения, поделитесь ими в комментариях.
5 навыков - это все, что вам нужно, чтобы стать следующим специалистом по данным:
- Программирование
- Обработка данных и EDA
- Машинное обучение
- Облачные вычисления и развертывание
- Большие данные
Программирование:
Вам потребуется программирование на каждом этапе. Какой язык наиболее подходящий? Python. Некоторые специалисты по данным предпочитают работать с R или Julia. Но вкратце, Python - лучший вариант по многим причинам. Его легче освоить, он более распространен, лучше поддерживается благодаря большому набору пакетов и руководств по науке о данных и чаще всего используется в компаниях.
Обработка данных и исследовательский анализ данных:
Здесь вы узнаете, как импортировать данные, обрабатывать и очищать их, выполнять некоторые быстрые визуализации данных для понимания данных и выполнять некоторые преобразования, чтобы подготовить их к усвоению вашей моделью.
Важные пакеты Python:
NumPy, Pandas, Matplotlib и Seaborn.
Вам также нужно будет познакомиться с платформой Anaconda и записными книжками Jupyter, поскольку они очень распространены в нашей области.
Изучение SQL - необходимый шаг, потому что многие компании зависят от него при запросе данных из базы данных. Однако я предлагаю отложить этот шаг на более позднее время, так как вы не будете часто им пользоваться, пока не получите работу.
Честно говоря, вы должны быть очень хороши в навыках обработки данных, поскольку они завершат большую часть вашего рабочего времени в качестве специалиста по данным.
Машинное обучение:
Самое интересное. Вам нужно будет изучить теорию машинного обучения и математику (поверьте мне, это не страшно), а затем запачкать руки несколькими сквозными проектами.
Для подготовки к математике вам понадобится хорошее введение в исчисление, линейную алгебру, статистику. Затем «Математика для машинного обучения», затем несколько продвинутых курсов теории машинного обучения, включая глубокое обучение.
Чтобы практиковать машинное обучение, вам необходимо изучить следующие библиотеки Python:
- Scikit-learn для машинного обучения.
- TensorFlow или PyTorch для глубокого обучения (я предпочитаю TensorFlow 😉).
Облачные вычисления и развертывание:
В чем преимущество создания отличной модели машинного обучения и хранения ее на своем компьютере? Чтобы модели были полезными, их следует развертывать в службе, приложении или на веб-сайте. Здесь вы узнаете, как превратить вашу модель в сервис. Вы изучите передовой опыт разработки программного обеспечения, а также научитесь создавать и использовать API. И как использовать различные облачные сервисы, представленные Amazon, Microsoft или Google.
Большие данные:
В чем разница между большими данными и «обычными» данными? Здесь вы узнаете, в чем разница и как обрабатывать большие данные и использовать их для построения эффективных моделей с помощью библиотеки PySpark.
Хватит болтать .. Где ссылки!
Программирование:
Обработка данных:
- Стать аналитиком данных Nanodegree - Udacity (2–6 месяцев) [оплачивается]
Если вы египтянин, вы можете получить наноуровень бесплатно в рамках инициативы egFWD.
- SQL Track - DataCamp [Платно]
Предварительные требования к машинному обучению:
- Основные моменты исчисления [Бесплатно]
- Математические основы машинного обучения - Чикагский университет (1 месяц) [Бесплатно]
ИЛИ:
Математика для специализации машинного обучения - Coursera (1 месяц) [Бесплатно]
Оба одинакового содержания.
- Наука и инженерия, управляемые данными (необязательно и очень полезно) [Бесплатно]
- Математика для машинного обучения - обучение aws (обзор, по желанию) (1 неделя) [Бесплатно]
Машинное обучение:
- Обучение на основе данных (1 месяц) [Бесплатно]
- Введение в машинное обучение с Tensorflow nanodegree (1-2 месяца) [Платно]
Для египтян вы можете получить его бесплатно через инициативу egFWD.
Развертывание и облако:
- Наностепень инженера по машинному обучению (Изучите разработку программного обеспечения и развертывание моделей машинного обучения) (2 месяца) [Платно]
- Курсы Cloud ML на aws.training (необязательно) [Бесплатно]
Большие данные:
- Майнинг массивных наборов данных - Стэнфорд (Big Data и PySpark) [Бесплатно]
+ или:
Большие данные с отслеживанием PySpark - Datacamp [Платно]
И:
Вот все ресурсы, которые я использовал на своем пути, чтобы стать специалистом по данным. Я просто хотел сказать вам, что я очень рад помочь с любыми вопросами на любом этапе. Просто оставьте мне сообщение в LinkedIn, и я свяжусь с вами как можно скорее, иншаАллах. С наилучшими пожеланиями 😃!