Краткая статья о том, что составляет хороший проект Data Science.

Посмотрел это видео некоторое время назад и могу сказать, что оно было очень информативным, потому что он говорил с точки зрения работодателя или менеджера по найму. Он рассказал о том, что должен/не должен иметь полный проект по науке о данных, или о том, что вы должны и не должны делать при выполнении проекта, и вот что он перечислил:

  1. Не работайте с готовыми наборами данных, такими как наборы данных, найденные на kaggle.com. Лучше находить, очищать и обрабатывать данные, полученные вами самостоятельно, с помощью веб-скрейпинга или работы с API. Лично я сделал несколько веб-скрейпингов, используя BeautifulSoup4 и Selenium. Это лучше, потому что вы можете получать данные в реальном времени вместо данных, которые уже были очищены кем-то другим, и показываете своему работодателю, что вы можете работать с данными из реального мира.

Вы можете узнать больше о веб-скрейпинге и работе с API по этим ссылкам: https://www.edureka.co/blog/web-scraping-with-python/ https://realpython.com/python-web-scraping. -практическое-введение/»

  1. Он также говорит, что вы должны иметь возможность работать с базами данных в облаке, такими как GCP (Google Cloud Platform, AWS (Amazon Web Services, Microsoft Azure и т. д.). Выполнение проектов в облаке дает вам преимущество, поскольку показывает работодателям, что у вас есть знания. облака и работать с базами данных в облаке, что является важным требованием при работе с «большими данными», как в реальном мире.
  2. Построение моделей. Работодатели не хотят знать, является ли ваша модель точной на 99,99%, они хотят знать, почему вы используете такую ​​модель. Такие вопросы, как; Почему вы выбрали свою модель? Как вы очистили свои данные? Какие предположения были сделаны в вашей модели? Как вы тестировали свою модель? Можете ли вы объяснить математику, стоящую за вашей моделью? будет хорошо, если вы сможете ответить на такие вопросы.
  3. Развертывание вашего проекта. Он говорит о развертывании вашего проекта, и это очень важно, потому что большинство людей не воспримут вас всерьез, если вы просто покажете блокнот для своей работы😅. Узнайте, как развернуть свой проект, чтобы его могли использовать/просматривать другие. Вы можете развернуть свой проект как веб-приложение, используя такие технологии, как Streamlit, Django, Flask, FastAPI, и вы можете разместить их на таких сайтах, как Heroku, облачный обмен Streamlit, AWS (Amazon Web Services) и т. д. Это будет иметь большое значение и покажет вашу работодатели, что вы можете создавать модели, а также развертывать модели.

Ссылки на некоторые интересные проекты с исходным кодом: https://github.com/Nneji123/Credit-Card-Fraud-Detection https://github.com/Nneji123/Media-Recommendation-Engine https:// github.com/Nneji123/Обнаружение рака легких

Последние мысли

Самое главное, что какой бы проект вы ни выполняли, он всегда должен быть направлен на получение понимания или значимой информации, потому что это то, чем занимается наука о данных.

Вы дочитали статью до конца! Спасибо за чтение и надеюсь, что вы многому научились. Если вам понравился мой контент и вы хотите связаться со мной, вы можете сделать это:

  1. Следуйте за мной на канале.
  2. Связь со мной в LinkedIn и Twitter.