Подходит ли TraMineR для данных с разной длиной последовательности?

Мои данные содержат последовательность поведения каждого студента при посещении страницы во время учебной сессии. Например (ниже) Студент 1 прочитал инструкции, посетил три страницы (Посещение-Посещение-Посещение) и повторно посетил одну из страниц (Повторное посещение). Учащийся 2 прочитал инструкции и посетил две страницы без повторного посещения.

Учащийся 1: инструкции-посещение-посещение-посещение-повторное посещение

Студент 2: инструкции - посещение - посещение

Учащийся 3: инструкции-посещение-посещение-посещение-посещение-посещение-посещение-посещение-посещение-посещение-посещение-посещение

Мой вопрос: пакет TraMineR подходит для этого типа данных, когда разные люди имеют разную длину последовательности (у студента 1 - 5, у студента 2 - 3 и т. Д.). Пример mvad данных, обсуждаемый в виньетке TraMineR (https://cran.r-project.org/web/packages/TraMineR/vignettes/TraMineR-state-sequence.pdf) содержит информацию о состоянии, полученную за определенный период времени (с 93 июля по июнь 99). , что означает, что длина последовательности одинакова для всех людей. Учитывая эту разницу, я не уверен, можно ли использовать TraMineR для анализа моего свидания.

Я попробовал пару функций TraMineR для своих данных (seqdef, seqfplot и т. Д.). Эти результаты пока имеют для меня смысл, но я хочу убедиться, прежде чем идти дальше и делать что-то еще (кластерный анализ и т. Д.). Если у кого-то есть опыт использования TraMineR для этих типов данных, я был бы признателен за ваш вклад. Если TraMineR не подходит для этого, какие-либо предложения по альтернативному подходу? Моя цель - идентифицировать и визуализировать основные модели поведения в данных, возможно, используя кластерный анализ. Заранее спасибо!


person jakeM    schedule 18.09.2020    source источник


Ответы (1)


Да, вы можете использовать traMineR для анализа данных с различной длиной последовательностей, поскольку traMineR представляет собой набор инструментов для анализа последовательностей.

Когда у вас есть последовательности неравной длины, важно то, какой алгоритм расстояния вы используете. Оптимальное соответствие (OM), которое, как я считаю, является стандартом по умолчанию и часто используемым стандартом, принимает последовательности неравной длины, поскольку использует действия indel (вставка / удаление), чтобы сделать последовательности одинаковой длины. Однако другие типы алгоритмов расстояния, такие как расстояния Хэмминга (HAM или DHD), не допускают последовательностей неравной длины. Эти алгоритмы часто используются, когда важна синхронизация, и, вставляя состояния, чтобы сделать последовательности равной длины, аспекты синхронизации искажаются.

Короткий ответ - да, но обязательно ознакомьтесь с типом используемых вами алгоритмов расстояния, чтобы понять, что именно вы измеряете и каким образом это повлияет на ваши интерпретации.

person Sara Kalucza    schedule 29.03.2021