Мысли о том, как уравновесить потребность в изучении SOTA и реальность обязательств между работой и личной жизнью.

Вступление

Эта статья представляет собой краткое изложение этого твита (ниже) Сэма Боумена. Большая часть содержания взята из ответов из исходной беседы, переплетенных с моим собственным опытом.

Если вы работаете в области науки о данных, скорее всего, вы знаете кого-то, кто задавал этот вопрос раньше (или, возможно, этот человек на самом деле - вы сами). Особенно, если вы работаете в нетехнологической компании (на самом деле, даже технологические компании могут быть практичными в решении своих проблем) - скорее всего, ваша компания не будет ожидать, что вы потратите много времени на чтение / исследование / изучение в начале арт-техники (SOTA) для решения ваших бизнес-задач.

На самом деле это дилемма. Тот, который временами может быть довольно неприятным.

Это дилемма, поскольку у хорошего специалиста по данным есть стремление раздвинуть границы того, что может предложить наука о данных, но вас не поощряют делать это на рабочем месте.

И это расстраивает, поскольку у вас всегда есть подозрение, что все, что развертывается в вашей текущей производственной системе, можно легко заменить новейшими технологиями SOTA, но вам не дали зеленый свет, чтобы потратить несколько рабочих часов на то, чтобы прочитать некоторые соответствующие исследовательские работы, эксперименты и A / B-проверка вашей гипотезы.

Так что же должен делать специалист по данным, чтобы не отставать от мировых Хинтонов и Лекунов?

С одной стороны, стремление стать достойным специалистом по обработке данных заставляет вас быть в курсе последних достижений AI / ML, но, с другой стороны, есть так много статей, которые нужно прочитать, на очень многих домены публикуются каждый день. И работа в компании, которая не заинтересована в расширении границ в области ИИ, определенно не помогает.

Стратегии

Вот несколько стратегий, которые мне понравились (и, возможно, будут полезны и вам), из ветки твита.

1. Постепенное обучение

Что мне нравится в вышеизложенном, так это то, что оно подавляет эту потребность всегда быть в поиске новейших алгоритмов SOTA и просто заставляет вас сосредоточиться на конечной цели (т. Е. На решении бизнес-проблемы). Да, вы немного опоздаете на вечеринку (FOMO реально). Но вы также сможете сохранить то немного рассудка, которое у вас осталось в других делах (например, помогая с домашним заданием вашего ребенка или ходя по магазинам с женой, например).

Я вспоминаю, как несколько лет назад была выпущена статья BERT, и каждые несколько недель вы видели, как появлялся новый вариант Берта и требовал оценки SOTA. Я не думаю, что тестирование всех различных встраиваний является эффективным использованием вашего времени - и они, вероятно, не сильно увеличивают ваш уровень глубины знаний (поскольку все устаревает довольно быстро во время быстрого наращивания, когда все жаждет что-то доказать).

Таким образом, наличие годичного перерыва (или 6 месяцев) на то, чтобы просто дать осесть перед тем, как применить технику, звучит для меня как хорошая стратегия. Не говоря уже о том, что в течение этого годичного периода уже будет множество семинаров, руководств, статей, видео, примеров кода и того, что у вас есть, чтобы быстро дать вам суть того, что вам нужно знать об алгоритме и как эффективно разверните его (в рамках, с которыми вы знакомы не меньше).

2. Слушайте подкасты.

На мой взгляд, подкасты - это самый простой способ ознакомиться с последними новостями SOTA. День на поездку на работу (до Covid 19) занимает около 3 часов моего времени (туда и обратно), а продолжительность подкаста обычно составляет от 30 минут до 1 часа в зависимости от провайдера. Это означает, что в течение недели это составит до 15 часов качественного контента, к которому я всегда могу вернуться, если найду интересную тему.

Мои любимые, как показано ниже:

  1. TWIML (охватывает всю область искусственного интеллекта, бизнес-вертикаль и операции машинного обучения)
  2. Основные моменты НЛП (ребята из НЛП Аллена берут интервью у других экспертов НЛП)
  3. Искусственный интеллект с Лексом Фридманом

3. Присоединяйтесь к виртуальной группе чтения статей.

Если у Covid-19 и есть какие-то положительные моменты, так это то, что он послужил катализатором для виртуального обмена знаниями во многих компаниях. Вот некоторые из них, которые я недавно заметил на моем радаре:

  1. Algo Hours от Stitchfix (записи доступны на Youtube)
  2. Салон глубокого обучения от Weights and Biases (записи доступны на Youtube).
  3. HuggingFace делится большим количеством контента на различных технических встречах и на своем канале Youtube, но пока не дошел до того, чтобы делиться внутренними обсуждениями. Однако они делятся тем, что читают на Github.

4. Группа чтения Kaggle. Он довольно устаревший (последнее обновление - декабрь 19, так что, возможно, он не НАСТОЛЬКО старый…), но охватывает множество исследовательских работ по НЛП. Подготовила Рэйчел Татман из Kaggle.

5. Бумажное чтение и обсуждение от dair.ai. Это совершенно новая находка, организованная Элвисом из dair.ai, и у меня еще не было времени погрузиться в их материалы. Хотя заголовки из прошлых записей действительно выглядят интересно.

Однако, возвращаясь к реальности, я никогда не ставил себе целью прилежно смотреть или присоединяться к каждой сессии обмена знаниями, которая проходит в прямом эфире (обычно около 12:00 ++) по мере их появления. Что я обычно делаю (до Covid19), так это просматриваю запись, сохраняю ее на своем телефоне (что легко для Youtube) и просматриваю их в дороге.

Конечно, теперь, когда я в основном работаю из дома, я всегда могу смотреть их прямо на Youtube, когда у меня перерыв или что-то в этом роде. И большую часть времени я обычно сосредотачиваюсь на вещах, которые относятся к чему-то, что я могу немедленно использовать (возвращаясь к пункту № 1 выше) или где-то применяются в бизнес-среде (в отличие от того, чтобы быть просто последней версией SOTA). .

4. Сообщество / социальные сети

Вышеупомянутые элементы указывают на то, что вы можете делать, чтобы научиться чему-то самостоятельно. Но обратите внимание, что в большинстве случаев не существует обратной связи, которая сообщала бы вам, правильно ли то, что вы уже поняли.

В этом прелесть поддержания связи с сообществом. Некоторые преимущества, о которых я могу думать с головой:

  1. Проверьте и сбалансируйте свое понимание.
  2. Самый быстрый способ собрать идеи о том, как решить проблему. Люди в целом щедры до тех пор, пока вас не считают оскорбляющими.
  3. Уметь присоединяться к обучающим группам по различным темам (от новичка до продвинутого). На TWIML (Эта неделя в машинном обучении) и MLT (Машинное обучение в Токио) группа Slack даже проводит сессии для различных географических регионов, чтобы угодить аудитории). Для пользователей библиотеки fastai, в частности, очень активно на своей странице Discourse сообщество fast.ai.
  4. Прямой доступ к пионерам и первопроходцам отрасли через такие платформы, как Twitter / Slack. Что мне больше всего нравится в этой платформе, так это твиты (и их ответы, такие как тот, который вдохновил меня на этот пост), данные экспертами в этой области. Всегда приятно иметь возможность прочитать дискуссии по самым разным темам, от передовых методов машинного обучения, этики данных, методов НЛП и других, от авторов книг, лекторов, исследователей и тех, кто есть кто из круга ИИ.

5. Делаем

В конце концов, нужно активно работать над кодексами и создавать что-то, чтобы по-настоящему оценить полученные знания. Изучение исходных кодов, работа над собственными проектами, участие в соревнованиях Kaggle или даже написание статей о том, что вы узнали, - это очень поможет укрепить ваше понимание и сохранить его на гораздо более длительный период (т. Е. Сознательная практика).

Заключение

Быть в курсе последних разработок и современных достижений в области ИИ / машинного обучения / НЛП может быть сложной задачей, особенно если ваша повседневная работа не требует, чтобы вы были в авангарде исследований ИИ.

В этом посте мы дали несколько советов о том, как оставаться в курсе последних событий в области ML / NLP. Подводя итог, это непросто. Но что еще более важно, возможно, вам действительно не нужно оставаться на переднем крае прогресса.

В наши дни, когда прогресс в области НЛП происходит быстрее, возможно, даже не стоит отслеживать каждую вещь, которая появляется на еженедельной основе. Лучший и более простой подход - это варьировать скорость ввода, чтобы и то, и другое позволило выделить лучших представителей породы; в то же время отфильтровывая фальшивые претензии из циркуляции шумихи.

Остальные советы касались использования знаний в свободное время, использования сетей для фильтрации информации и выделения времени для осознанной практики.