«Дорожная карта» ‌ ‌разделена‌ на‌ ‌12‌ ‌разделов‌

1. Python‌‌Программирование‌‌и‌‌Логика‌‌Строительство‌

2. Данные‌‌Структура‌‌&‌‌Алгоритмы‌

3. Панды‌ ‌Numpy‌ ‌Matplotlib‌

4. Статистика‌

5. Машина‌‌Обучение‌

6. Естественный‌‌Язык‌‌Обработка‌

7. Компьютер‌‌Зрение‌‌

8. Данные‌‌Визуализация‌‌с‌‌Таблица‌

9. Структура‌ ‌Запрос‌ ‌Язык‌‌(SQL)‌

10. Большие‌‌данные‌‌и‌‌PySpark‌

11. Разработка‌‌Операции‌‌с‌‌Azure‌

12. Проекты‌‌и‌Git‌

Технология‌ ‌стек‌, используемая во время этого процесса

  • Питон‌
  • Данные‌‌Структуры‌
  • NumPy‌
  • Панды‌
  • Матплотлиб‌
  • Сиборн‌
  • Scikit-Learn‌
  • Статистические модели‌
  • Естественный‌ ‌Язык‌ ‌Инструментарий‌ ‌(‌ ‌NLTK‌ ‌)‌
  • ПиТорч‌
  • OpenCV‌
  • Таблица‌
  • Структура‌ ‌Запрос‌ ‌Язык‌ ‌(‌ ‌SQL‌ ‌)‌
  • ПиСпарк‌
  • Azure‌ ‌Основы‌
  • Azure‌ ‌Данные‌ ‌Фабрика‌
  • Блоки данных‌
  • Git‌‌и‌‌GitHub‌‌

1 | Программирование на Python и построение логики

Я предпочитаю язык программирования Python. Python лучше всего подходит для начала вашего пути программирования. Вот дорожная карта Python для построения логики.

  • Основы Python, переменные, операторы, условные операторы
  • Список и строки
  • Цикл while, вложенные циклы, цикл Else
  • Операторы For Loop, Break и Continue
  • Функции, оператор возврата, рекурсия
  • Словарь, Кортеж, Набор
  • Обработка файлов, обработка исключений
  • Объектно-ориентированного программирования
  • Модули и пакеты

Основы Python с кодом

100-дневный курс Python от Анжелы Ю (Удеми) бесплатно

2 | Структура данных и алгоритмы

Структура данных — это самая важная вещь, которую нужно изучить не только специалистам по данным, но и всем, кто занимается компьютерными науками. Со структурой данных вы получаете внутреннее понимание работы всего в программном обеспечении.

Разберитесь в этих темах

  • Типы алгоритмического анализа
  • Асимптотическое обозначение, Big-O, Omega, Theta
  • Стеки
  • Очереди
  • Связанный список
  • Деревья
  • Графики
  • Сортировка
  • Идет поиск
  • Хеширование

РУКОПИСНЫЕ ЗАМЕТКИ DSA

3 | Pandas Numpy Matplotlib

Python поддерживает n-мерные массивы с NumPy. Для данных в 2 измерениях Pandas — лучшая библиотека для анализа. Вы можете использовать другие инструменты, но инструменты имеют функции перетаскивания и ограничения. Pandas можно настроить в соответствии с потребностями, поскольку мы можем кодировать в зависимости от реальной проблемы.

Нампи

  • Векторы, Матрица
  • Операции над матрицей
  • Среднее значение, дисперсия и стандартное отклонение
  • Изменение массивов
  • Транспонирование и определитель матрицы
  • Диагональные операции, трассировка
  • Сложение, вычитание, умножение, точка и перекрестное произведение.

Панды

  • Серии и кадры данных
  • Нарезка, строки и столбцы
  • Операции с DataFrame
  • Различные способы создания DataFrame
  • Чтение, запись операций с файлами CSV
  • Обработка отсутствующих значений, замена значений и регулярное выражение
  • GroupBy и конкатенация

Матплотлиб

  • Основы графов
  • Форматирование строк в графиках
  • Параметры метки, легенда
  • Гистограмма, круговая диаграмма, гистограмма, точечная диаграмма

Книги для панд Numpy Matplotlib

4 | Статистика

Описательная статистика

  • Мера частоты и центральной тенденции
  • Мера дисперсии
  • Распределение вероятностей
  • Гауссово нормальное распределение
  • Асимметрия и эксцесс
  • Регрессивный анализ
  • Непрерывные и дискретные функции
  • Совершенство Fit
  • Тест на нормальность
  • дисперсионный анализ
  • гомоскедастичность
  • Линейная и нелинейная связь с регрессией

Выведенный статистика

  • t-тест
  • z-тест
  • Проверка гипотезы
  • Ошибки первого и второго рода.
  • t-тест и его виды
  • Односторонний дисперсионный анализ
  • Двухсторонний дисперсионный анализ
  • Хи-квадрат Тест
  • Внедрение непрерывных и категорийных данных

Заметки для статистики

5 | Машинное обучение

Лучший способ освоить алгоритмы машинного обучения — работать с фреймворком Scikit-Learn. Scikit-Learn содержит предопределенные алгоритмы, и вы можете работать с ними, просто сгенерировав объект класса. Это алгоритм, который вы должны знать, включая типы контролируемого и неконтролируемого машинного обучения:

  • Линейная регрессия
  • Логистическая регрессия
  • Древо решений
  • Градиентный спуск
  • Случайный лес
  • Ридж и регрессия Лассо
  • Наивный Байес
  • Машина опорных векторов
  • Кластеризация KMeans

Другие концепции и темы для машинного обучения

  • Точность измерения
  • Компромисс смещения и дисперсии
  • Применение регуляризации
  • Эластичная чистая регрессия
  • Предиктивная аналитика
  • Исследовательский анализ данных

Машинное обучение всех алгоритмов на практике

6 | Обработка естественного языка

Если вы заинтересованы в работе с текстом, вы должны выполнить часть работы инженера НЛП и понять работу языковых моделей.

  • Анализ настроений
  • Маркировка POS, Парсинг,
  • Предварительная обработка текста
  • Стемминг и лемматизация
  • Классификация настроений с использованием наивного Байеса
  • TF-IDF, N-грамм,
  • Машинный перевод, оценка BLEU
  • Генерация текста, суммирование, оценка ROUGE
  • Моделирование языка, недоумение
  • Создание текстового классификатора
  • Определение пола

Блокноты по базовым моделям НЛП и процессам

Текстовая классификация ЭДА

Анализ настроений в обзоре фильмов

7 | Компьютерное зрение

Чтобы работать с аналитикой изображений и видео, мы можем освоить компьютерное зрение. Чтобы работать над компьютерным зрением, нам нужно понимать изображения.

  • Тензоры PyTorch
  • Понимание предварительно обученных моделей, таких как AlexNet, ImageNet и ResNet.
  • Нейронные сети
  • Создание персептрона
  • Построение однослойной нейронной сети
  • Построение глубокой нейронной сети
  • Рекуррентная нейронная сеть для последовательного анализа данных

Сверточные нейронные сети

  • Понимание топологии ConvNet
  • Слои свертки
  • Объединение слоев
  • Анализ содержимого изображения
  • Работа с изображениями с использованием OpenCV-Python
  • Обнаружение краев
  • Выравнивание гистограммы
  • Обнаружение углов
  • Обнаружение характерных точек SIFT

Полный алгоритм нейронной сети с примером

8 | Визуализация данных с помощью Tableau

Как это использовать Зрительное восприятие

  • Что это такое, как это работает, почему Tableau
  • Подключение к данным
  • Построение диаграмм
  • Расчеты
  • Панели мониторинга
  • Делимся нашей работой
  • Расширенные диаграммы, вычисляемые поля, вычисляемые агрегаты
  • Условный расчет, параметризованный расчет

Концепции обработки и визуализации данных

9 | Язык структурных запросов (SQL)

  • Настроить SQL-сервер
  • Основы SQL
  • Написание запросов
  • Типы данных
  • Выбирать
  • Создание и удаление таблиц
  • Фильтрация данных
  • Заказ
  • Агрегации
  • Обрезать
  • Основной ключ
  • Внешний ключ
  • Союз
  • MySQL
  • Сложные вопросы
  • Решение вопросов интервью

Заметки и книги по SQL и управлению базами данных

10 | Большие данные и PySpark

Большие данные

  • Что такое большие данные?
  • Как BigData применяется в бизнесе?

PySpark

  • Устойчивые распределенные наборы данных
  • Схема
  • Лямбда-выражения
  • Преобразования
  • Действия

Моделирование данных

  • Дублирующиеся данные
  • Описательный анализ данных
  • Визуализации
  • библиотека ML
  • Пакеты машинного обучения
  • Трубопроводы

Потоковое

  • Упаковка приложений Spark

11 | Операции разработки с Azure

  • Фонд систем данных
  • Модели данных
  • Хранилище
  • Кодирование
  • Распределенные данные
  • Репликация
  • Разделение
  • Производные данные
  • Пакетная обработка
  • Потоковая обработка
  • Microsoft Azure
  • Рабочие нагрузки данных Azure
  • Фабрика данных Azure
  • Azure HDInsights
  • Azure Databricks
  • Аналитика синапсов Azure
  • Реляционная база данных в Azure
  • Нереляционная база данных в Azure

Плейлист YouTube для Azure ML Studio

12 | Проекты и Git

Git — система контроля версий Book For Git & GitHub

Проекты Все проекты

Свяжитесь со мной на этих платформах:

LinkedIn: https://www.linkedin.com/in/dev-parihar524/

Твиттер: https://twitter.com/Devendr74154261

Kaggle (текущий рейтинг эксперта по ноутбукам: 629): https://www.kaggle.com/dev523