Прежде чем погрузиться в некоторые проекты количественных исследований, которые я запланировал (подробнее о моих мотивах можно прочитать здесь и здесь»), я хотел предоставить точку зрения высокого уровня на подход, который я планирую использовать в этом начинании.

Поскольку Йода столь непреклонно советует Люку: «Делайте или не делайте... нет никакой попытки», я планирую применить аналогичный подход к своим личным усилиям по количественному исследованию, но с конкретной целью. Эта цель состоит в том, чтобы быть обдуманным в процессе исследования и избегать любых статистических проверок данных, чтобы увидеть, что работает.

Этот пост может показаться элементарным продвинутым количественным исследователям, но цель здесь — обобщить мой личный подход и понимание методов количественного исследования. Я изучил некоторые из этих методов на своей нынешней должности и считаю себя тем, кто постоянно учится в этой области. По мере того, как я продвигаюсь в этом путешествии по квантовым исследованиям, я планирую изучать и внедрять новые концепции, которые будут применяться к реальным данным, что является целью каждого количественного исследователя.

Как всегда, я приветствую все конструктивные мысли, мнения и советы в комментариях ниже по любой теме.

Цель статистического обучения

Целью будущих исследовательских проектов является использование методов статистического обучения на рыночных данных. Всем, кто знаком с количественными исследованиями и методами статистического обучения, на ум приходят модели регрессии, классификации и временных рядов.

Прогнозирование и вывод

Целью статистического обучения может быть либо предсказание результатов, либо вывод взаимосвязей между данными, которые мы тестируем. В этом смысле данные можно назвать «предикторами», а попытку смоделировать будущее поведение — «реакцией».

Предикторы и ответы

Примером того, какими «предикторами» могут служить цены закрытия индекса S&P 500 за последние 5 дней, чтобы предсказать завтрашнюю будущую цену — наш «ответ». Методы статистического обучения, такие как линейная регрессия, могут помочь оценить завтрашнюю будущую цену, тогда как использование метода классификации может помочь «классифицировать» завтрашнюю цену по таким категориям, как повышение, понижение или бездействие.

Ключевым моментом здесь является использование предыдущих «предикторов» в сочетании с их предыдущими «ответами», которые используются для обучения нашего статистического метода.

Таким образом, в зависимости от цели исследовательского проекта могут быть доступны различные методы, каждый из которых имеет свои преимущества и недостатки.

Статистический подход к обучению

На базовом уровне идея статистического обучения заключается в применении «метода» или «модели» к наблюдаемым данным.

Нужно сформулировать проблемы, используя статистические представления релевантных структур и отношений, которые моделируют тест, который мы хотим реализовать.

Пример исследования возврата к среднему

Вот пример того, как мы могли бы подойти к изучению возврата к среднему в данных о запасах.

Мы можем сформулировать эту цель исследования, используя модель непрерывного временного ряда, такую ​​как модель Орнштейна-Уленбека (OU), которая сама демонстрирует свойства возврата к среднему. Оценивая поведение предыдущего временного ряда данной акции (наши данные фондового рынка), мы можем проверить, демонстрируют ли данные те же свойства возврата к среднему, что и наша модель. Чтобы продемонстрировать свойства возврата к среднему, сам процесс должен вернуться к долговременному среднему значению. Используя статистический тест, такой как расширенный тест Дики-Фуллера (ADF), мы можем проверить, позволяют ли протестированные данные фондового рынка отвергнуть нулевую гипотезу с достаточной уверенностью. Если это так, мы можем продолжить наше исследование предмета и разработать реальную торговую модель на основе найденных свойств.

Вот приведенные выше шаги, обобщенные в виде пули:

  • Представьте модель возврата к среднему (OU), чтобы проиллюстрировать процесс, который мы ищем.
  • Используйте статистический тест (ADF), чтобы определить, существуют ли свойства в наших данных о запасах.
  • Если результаты нашего теста отклоняют нулевую гипотезу (нулевая гипотеза будет заключаться в том, что данные не демонстрируют характеристик возврата к среднему), убедитесь, что они проходят определенный уровень достоверности (т. е. уровень достоверности 1% или 5%).
  • Если все вышеперечисленное удовлетворено, мы можем перейти к разработке модели.

Обратите внимание, что в представленном примере отсутствуют другие важные детали расширенного теста Дики-Фуллера. Мы просто показываем, как может выглядеть подход к статистическому тестированию.

Дискретные и непрерывные данные

Упоминание непрерывного временного ряда упоминалось ранее. Кратко обсудим эти определения.

Непрерывные данные относятся к данным, которые измеряются. Его можно измерить настолько точно и практично, насколько это возможно. Возьмем, к примеру, измерение температуры. Если сегодняшняя наружная температура показывает 70,5 F на термометре, это может быть округленное значение. Если бы термометр мог отображать дробные значения, то истинная температура могла бы фактически быть 70,4999999 F. Поскольку это измерение может быть любым значением между двумя точками, мы считаем это непрерывным.

В контексте количественных исследований исторические рыночные данные, которые мы планируем использовать в нашем тестировании на исторических данных, можно рассматривать как дискретные данные. Мы можем подсчитать количество периодов в данных, например, оно конечно, и каждая точка данных различна. Например, исторические дневные цены закрытия для индекса S&P 500 за определенный год могут быть подсчитаны (конечные), и цена закрытия каждого дня различна — цена закрытия S&P не может быть 2200,2499999999, она должна быть точной, как 2200,25.

Эти термины появятся в будущих сообщениях блога.

Рекомендуемые внешние ресурсы

Существует множество отличных ресурсов, которые помогут создать основу для количественных исследований. Два источника, которые мне очень помогли, это Quantopian и Quantstart. Я очень рекомендую их в качестве отправной точки для тех, кто заинтересован.

Давайте теперь потратим некоторое время на фактические количественные исследования.