В наши дни многие люди изучают науку о данных. Это может быть одна из самых интересных карьер для развития в нашей новой технологической экономике. Он сочетает в себе информатику, разработку программного обеспечения, прикладную статистику и опыт предметной области. Сколько еще таких междисциплинарных профессий?

За последние 5 лет было запущено множество учебных курсов по науке о данных и получения степени магистра. В настоящее время я работаю в онлайн-учебном лагере под названием K2 Data Science. Хотя существует масса информации о том, что такое наука о данных, что вы можете делать с ней и сколько денег вы можете заработать как специалист по данным ... на самом деле нет краткого руководства о том, как подготовиться к процессу обучения.

Ниже приводится краткое изложение нашей программы подготовки открытого исходного кода.

Изучите информатику и программирование

Большая часть теории машинного обучения основана на академической информатике. Кроме того, программирование необходимо для использования современных пакетов и фреймворка для начала работы над проектами в области науки о данных. Конечно, высоко ценится профессиональный опыт разработки программного обеспечения, потому что вы понимаете, как развертывать код производственного уровня, но если у вас его еще нет, вы постепенно усвоите его.

Я рекомендую два ресурса:

  • Harvard CS50 - обзорный курс по основам информатики. Это долго, но профессор очень интересный, и время пролетает незаметно.
  • Codecademy’s Learn Python. Хотя мы не рекомендуем придерживаться онлайн-платформ для программирования, трек Codecademy на Python - отличное введение в язык для новичков. Вы можете изучить основы Python, не выходя из браузера, и не беспокоиться о версиях пакетов, текстовых редакторах и т. Д.

Цель

Всегда нужна цель, чтобы побудить к чему-то. Допустим, вы хотите выучить испанский язык. Если у вас нет основной цели, вы, вероятно, не станете свободно говорить по-испански. Однако, если вы хотите жить и работать в Барселоне в течение 2 лет, мечта в задней части головы будет подталкивать вас вперед.

Наши студенты создают игру. Мы обнаружили, что блэкджек представляет собой серьезную проблему при программировании, поскольку большинство людей знают правила и их достаточно легко понять. Он также использует многие из основных компонентов языка программирования. У нас есть люди, которые создают процедурную версию, а затем реорганизуют ее как объектно-ориентированную версию, если они хотят бросить вызов самим себе.

Хотя вы можете иметь в виду программу, которую хотите создать, выберите игру, которая вам нравится, и воссоздайте ее. У нас есть несколько студентов, которые делают обширные текстовые ролевые игры.

Изучите реляционные базы данных с помощью SQL

Как специалист по данным, работающий в компании, большая часть данных будет храниться в реляционных базах данных. Если вы работаете консультантом, вы можете получить плоские файлы, такие как CSV, но это не распространено в крупных технологических компаниях. Вы должны свободно владеть SQL. Нет никакого способа обойти это. Вам не нужно быть сильным в администрировании баз данных, но выполнение запросов является обязательным и часто проверяется на собеседованиях.

Я рекомендую два ресурса:

  • SQL Bolt - интерактивное руководство по отработке SQL-запросов в браузере. Также ознакомьтесь с Учебником по регулярным выражениям того же автора. Regex невероятно важен для работы с неструктурированными текстовыми данными.
  • Учебное пособие по SQLite - даже если вы не будете часто настраивать базы данных на работе, полезно знать, как это сделать для ваших личных проектов на протяжении всего курса обучения или получения степени. Мне легче начать обучение с SQLite, а затем перейти к чему-то более производственному, например MySQL или PostgreSQL.

Цель

Сложно иметь мотивирующую цель для запросов к базам данных. На данный момент цель состоит в том, чтобы успешно выполнить 3 задачи из практики по Mode Analytics. Они сложные, но интересные, так что вам обязательно понравится их выполнять.

Освободить вводный курс математики в колледже

Машинное обучение открывает целую кучу математических предметов. А пока остановимся на основах. Что наиболее важно, так это хорошее знание статистики, теории вероятностей и алгебры. Нет никакого способа обойти это. Если вы никогда раньше не посещали эти курсы, попробуйте Khan Academy или ознакомьтесь с популярными предложениями на Coursera. Эти 3 предмета дадут вам прочную основу для решения большинства проблем в области науки о данных.

Если вы хорошо разбираетесь в математике, вам также может помочь изучение исчисления и линейной алгебры. Исчисление часто используется при оптимизации, а линейная алгебра появляется при уменьшении размерности. Если вы никогда раньше не изучали эти предметы, я бы не рекомендовал проходить по ним полный курс. Погрузитесь в науку о данных и изучите соответствующие концепции по мере их появления. Часто вы можете выделить отдельную концепцию и изучить ее с помощью бесплатных ресурсов в Интернете.

Надеюсь, это краткое руководство было полезно. По моему опыту, большинство студентов, начинающих учебные курсы и программы на получение степени, не уверены в этих трех разделах.

Изучение науки о данных - это долгий путь. По моим оценкам, требуется около 500–700 часов, чтобы быть достаточно уверенным, чтобы говорить о процессе и уметь решать различные проблемы. Почему бы не быть как можно более подготовленным?

Представьте, что вы планируете поход с друзьями. Вы собираетесь принести бутылки с водой и батончики из мюсли? Или вы собираетесь искать чистые ручьи и корм для орехов?

Если вы заинтересованы в гибком онлайн-тренинге, где вашим наставником будет специалист по данным, попробуйте K2 Data Science!