Мысли о том, как уравновесить потребность в изучении SOTA и реальность обязательств между работой и личной жизнью.
Вступление
Эта статья представляет собой краткое изложение этого твита (ниже) Сэма Боумена. Большая часть содержания взята из ответов из исходной беседы, переплетенных с моим собственным опытом.
Если вы работаете в области науки о данных, скорее всего, вы знаете кого-то, кто задавал этот вопрос раньше (или, возможно, этот человек на самом деле - вы сами). Особенно, если вы работаете в нетехнологической компании (на самом деле, даже технологические компании могут быть практичными в решении своих проблем) - скорее всего, ваша компания не будет ожидать, что вы потратите много времени на чтение / исследование / изучение в начале арт-техники (SOTA) для решения ваших бизнес-задач.
На самом деле это дилемма. Тот, который временами может быть довольно неприятным.
Это дилемма, поскольку у хорошего специалиста по данным есть стремление раздвинуть границы того, что может предложить наука о данных, но вас не поощряют делать это на рабочем месте.
И это расстраивает, поскольку у вас всегда есть подозрение, что все, что развертывается в вашей текущей производственной системе, можно легко заменить новейшими технологиями SOTA, но вам не дали зеленый свет, чтобы потратить несколько рабочих часов на то, чтобы прочитать некоторые соответствующие исследовательские работы, эксперименты и A / B-проверка вашей гипотезы.
Так что же должен делать специалист по данным, чтобы не отставать от мировых Хинтонов и Лекунов?
С одной стороны, стремление стать достойным специалистом по обработке данных заставляет вас быть в курсе последних достижений AI / ML, но, с другой стороны, есть так много статей, которые нужно прочитать, на очень многих домены публикуются каждый день. И работа в компании, которая не заинтересована в расширении границ в области ИИ, определенно не помогает.
Стратегии
Вот несколько стратегий, которые мне понравились (и, возможно, будут полезны и вам), из ветки твита.
1. Постепенное обучение
Что мне нравится в вышеизложенном, так это то, что оно подавляет эту потребность всегда быть в поиске новейших алгоритмов SOTA и просто заставляет вас сосредоточиться на конечной цели (т. Е. На решении бизнес-проблемы). Да, вы немного опоздаете на вечеринку (FOMO реально). Но вы также сможете сохранить то немного рассудка, которое у вас осталось в других делах (например, помогая с домашним заданием вашего ребенка или ходя по магазинам с женой, например).
Я вспоминаю, как несколько лет назад была выпущена статья BERT, и каждые несколько недель вы видели, как появлялся новый вариант Берта и требовал оценки SOTA. Я не думаю, что тестирование всех различных встраиваний является эффективным использованием вашего времени - и они, вероятно, не сильно увеличивают ваш уровень глубины знаний (поскольку все устаревает довольно быстро во время быстрого наращивания, когда все жаждет что-то доказать).
Таким образом, наличие годичного перерыва (или 6 месяцев) на то, чтобы просто дать осесть перед тем, как применить технику, звучит для меня как хорошая стратегия. Не говоря уже о том, что в течение этого годичного периода уже будет множество семинаров, руководств, статей, видео, примеров кода и того, что у вас есть, чтобы быстро дать вам суть того, что вам нужно знать об алгоритме и как эффективно разверните его (в рамках, с которыми вы знакомы не меньше).
2. Слушайте подкасты.
На мой взгляд, подкасты - это самый простой способ ознакомиться с последними новостями SOTA. День на поездку на работу (до Covid 19) занимает около 3 часов моего времени (туда и обратно), а продолжительность подкаста обычно составляет от 30 минут до 1 часа в зависимости от провайдера. Это означает, что в течение недели это составит до 15 часов качественного контента, к которому я всегда могу вернуться, если найду интересную тему.
Мои любимые, как показано ниже:
- TWIML (охватывает всю область искусственного интеллекта, бизнес-вертикаль и операции машинного обучения)
- Основные моменты НЛП (ребята из НЛП Аллена берут интервью у других экспертов НЛП)
- Искусственный интеллект с Лексом Фридманом
3. Присоединяйтесь к виртуальной группе чтения статей.
Если у Covid-19 и есть какие-то положительные моменты, так это то, что он послужил катализатором для виртуального обмена знаниями во многих компаниях. Вот некоторые из них, которые я недавно заметил на моем радаре:
- Algo Hours от Stitchfix (записи доступны на Youtube)
- Салон глубокого обучения от Weights and Biases (записи доступны на Youtube).
- HuggingFace делится большим количеством контента на различных технических встречах и на своем канале Youtube, но пока не дошел до того, чтобы делиться внутренними обсуждениями. Однако они делятся тем, что читают на Github.
4. Группа чтения Kaggle. Он довольно устаревший (последнее обновление - декабрь 19, так что, возможно, он не НАСТОЛЬКО старый…), но охватывает множество исследовательских работ по НЛП. Подготовила Рэйчел Татман из Kaggle.
5. Бумажное чтение и обсуждение от dair.ai. Это совершенно новая находка, организованная Элвисом из dair.ai, и у меня еще не было времени погрузиться в их материалы. Хотя заголовки из прошлых записей действительно выглядят интересно.
Однако, возвращаясь к реальности, я никогда не ставил себе целью прилежно смотреть или присоединяться к каждой сессии обмена знаниями, которая проходит в прямом эфире (обычно около 12:00 ++) по мере их появления. Что я обычно делаю (до Covid19), так это просматриваю запись, сохраняю ее на своем телефоне (что легко для Youtube) и просматриваю их в дороге.
Конечно, теперь, когда я в основном работаю из дома, я всегда могу смотреть их прямо на Youtube, когда у меня перерыв или что-то в этом роде. И большую часть времени я обычно сосредотачиваюсь на вещах, которые относятся к чему-то, что я могу немедленно использовать (возвращаясь к пункту № 1 выше) или где-то применяются в бизнес-среде (в отличие от того, чтобы быть просто последней версией SOTA). .
4. Сообщество / социальные сети
Вышеупомянутые элементы указывают на то, что вы можете делать, чтобы научиться чему-то самостоятельно. Но обратите внимание, что в большинстве случаев не существует обратной связи, которая сообщала бы вам, правильно ли то, что вы уже поняли.
В этом прелесть поддержания связи с сообществом. Некоторые преимущества, о которых я могу думать с головой:
- Проверьте и сбалансируйте свое понимание.
- Самый быстрый способ собрать идеи о том, как решить проблему. Люди в целом щедры до тех пор, пока вас не считают оскорбляющими.
- Уметь присоединяться к обучающим группам по различным темам (от новичка до продвинутого). На TWIML (Эта неделя в машинном обучении) и MLT (Машинное обучение в Токио) группа Slack даже проводит сессии для различных географических регионов, чтобы угодить аудитории). Для пользователей библиотеки fastai, в частности, очень активно на своей странице Discourse сообщество fast.ai.
- Прямой доступ к пионерам и первопроходцам отрасли через такие платформы, как Twitter / Slack. Что мне больше всего нравится в этой платформе, так это твиты (и их ответы, такие как тот, который вдохновил меня на этот пост), данные экспертами в этой области. Всегда приятно иметь возможность прочитать дискуссии по самым разным темам, от передовых методов машинного обучения, этики данных, методов НЛП и других, от авторов книг, лекторов, исследователей и тех, кто есть кто из круга ИИ.
5. Делаем
В конце концов, нужно активно работать над кодексами и создавать что-то, чтобы по-настоящему оценить полученные знания. Изучение исходных кодов, работа над собственными проектами, участие в соревнованиях Kaggle или даже написание статей о том, что вы узнали, - это очень поможет укрепить ваше понимание и сохранить его на гораздо более длительный период (т. Е. Сознательная практика).
Заключение
Быть в курсе последних разработок и современных достижений в области ИИ / машинного обучения / НЛП может быть сложной задачей, особенно если ваша повседневная работа не требует, чтобы вы были в авангарде исследований ИИ.
В этом посте мы дали несколько советов о том, как оставаться в курсе последних событий в области ML / NLP. Подводя итог, это непросто. Но что еще более важно, возможно, вам действительно не нужно оставаться на переднем крае прогресса.
В наши дни, когда прогресс в области НЛП происходит быстрее, возможно, даже не стоит отслеживать каждую вещь, которая появляется на еженедельной основе. Лучший и более простой подход - это варьировать скорость ввода, чтобы и то, и другое позволило выделить лучших представителей породы; в то же время отфильтровывая фальшивые претензии из циркуляции шумихи.
Остальные советы касались использования знаний в свободное время, использования сетей для фильтрации информации и выделения времени для осознанной практики.