Подготовка данных и обучение на образце модели типа GPT

В этой статье я описываю процесс создания простого синтетического генератора твитов топ-компании. Он обучается на избранных твитах о ведущих компаниях NASDAQ с 2015 по 2020 год, собранных для следующей бумаги:

М. Доган, О. Метин, Э. Тек, С. Юмушак и К. Озтопрак, «Оценка спекулянтов и влиятельных лиц на фондовом рынке с использованием социальных сетей», Международная конференция IEEE по большим данным (большие данные), 2020 г., Атланта, Джорджия, США, 2020 г., стр. 4559–4566, doi: 10.1109/BigData50022.2020.9378170.

Набор данных твитов также общедоступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.

Шаг 1 — предварительная обработка данных

Здесь предварительная обработка данных состоит из следующих шагов:

  • выбор твитов с наивысшей общей вовлеченностью (определяемой как сумма комментариев, лайков и ретвитов);
  • сортировка оставшихся твитов по дате публикации (используется в дальнейшем для разделения поезда и проверки на основе времени);
  • наконец, твитите токенизацию с помощью пакета Google sentencepiece, используя Byte Pair Encoding для более быстрой обработки и словарь размером 30 000 различных токенов.

В результате мы получили очищенный набор данных, содержащий около 636 000 твитов (размером 90 МБ).

Шаг 2 — обучение модели машинного обучения

Здесь я в значительной степени повторно использую GhatGPT-подобную модель, созданную с нуля Андреем Карпатым (подробнее см. его очень подробное видео) с небольшими изменениями, а именно адаптацией к токенизации на основе предложения. (вместо посимвольного кодирования, использовавшегося в исходной модели), а также ручная настройка параметров модели для обучения на Графическом процессоре NVIDIA TESLA P100 доступна для пользователей Kaggle. Окончательная модель состоит примерно из 30 миллионов параметров, которых достаточно для обучения выбранного набора данных. Посмотрите, как потери при обучении и проверке зависят от количества итераций примерно через 3 часа обучения:

Шаг 3 — генерация примеров твитов

Ниже приведены несколько примеров твитов, созданных на основе образцов:

Clearly bot 3 PT "some attention" $AAPL

$AMZN how total assets went... lighted into $TSLA #drones with savings from dying... via @Econom Tumene believes online Death.Paypal to people get run on wheel today or to US Bangmanip dangerous game

@steinsoljvsdan $GOOGL $GOOGL hamd about 7 and $TWTR. The battle of the taps us at the very mouth. My @OBSITE @jimcramer says Satellon. Always a good thing!

This put $21bTop 7 Stock in the backgroundhttp://daytradersgroupofamerica.com$SPY $IWM $AAPL $AMZN $BTC.A $XBT $SPX $QQQ $AAPL $AAPL $DIA $IWM $ES $AMZN $GOOGL $FB

I don't know $AMZN

Tim Cook says retail & can even build buying calls when the event continues to do after selling Apple pulled back to $AMZN via Jan $200 to IPO.

"Our view in depth of $IBM for @AppStore key reasons why Nvidia has returned it over Oracle's @elonmusk's very bad addressable markets." @Citls-sport_cpuleInsights-bill">https://inside.com/news/Apexp/Download-hq2-illy-I-AMZN-watch-order-cap-ex99-MFCmonths-in-its-business/xbv-twitter?utm_source=twitter.com&utm_medium=twitterhandle&utm_campaign=@Citls-sport_cpuleInsights-bill...

@Apple Pay gov shalt ya tweet went after the largest session, but powering the bad correlation was to be $AAPL @Robinstocks @thefangccessside re some @EricDollung1 @Oprah

Apple is expected to begin extend from record low in session for some big up day this weekend.After March, Elon Musk promised, I'd expect away the next EPA #ModelS now? By selfteaser. $AAPL

Неудивительно, что хотя общая структура твитов выглядит довольно реалистично, между ними и примерами реальных твитов, используемых для обучения, все же есть разрыв, особенно в веб-ссылках:

2014 The Year in Review (Part II - THE END) http://optionmillionaires.com/stock-options-2014-rewind-year-review-part-iii-end/… $AAPL $GOOGL $SPY $VXX $X $USO $PCLN $BIDU $TLT

"http://iphone.appleinsider.com/articles/14/12/30/editorial-the-world-revolved-around-apple-inc-in-2014…" .@DanielEran Awesome journalism as usual. #mustread $GOOG $AAPL

Jeff Bezos lost $7.4 billion in Amazon's worst year since 2008: http://on.wsj.com/1Acvuo6 $AMZN

Jeff Bezos lost $7.4 billion in #Amazon worst year since 2008 (Wall Street Journal) http://on.wsj.com/1Acvuo6  $AMZN

$MU $AAPL $SUNE Propel Greenlight To 9% Return In 2014 http://valuewalk.com/2014/12/apple-micron-sune-greenlight/… $MRVL $GLD

H4LT group releases @Microsoft @Xbox One SDK online #infosec $MSFT http://tweaktown.to/1zSvw70

#FoolFaves2014 Lo, how the mighty have fallen? Why the future of $AAPL's iPad is looking murkier:

Earlier this month, a mysterious glitch caused $AAPL to suddenly drop 6% » http://cnb.cx/1wafKRS (via @JohnMelloy)

Jeff Bezos lost $7.4 billion in Amazon's worst year since 2008: http://on.wsj.com/1BmKuz3 $AMZN

Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.

Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.