У меня действительно беспорядочный набор данных, где каждый столбец (правильно) соответствует интересующей переменной.
Набор данных, по сути, считает людей. Например, Var1 должен быть списком людей, для которых верно Var1. Представьте, что переменные - это вкусы мороженого. Var1 - шоколадное мороженое. Данные были записаны таким образом, что вместо того, чтобы указывать, нравится ли (1/0 или T / F) кому-то шоколадное мороженое, набор данных просто содержит имена людей, которые любят шоколадное мороженое.
Этот набор данных в виде списка затрудняет анализ данных, поскольку строки не соответствуют отдельным наблюдениям. Прямо сейчас каждый столбец содержит просто список имен. Например. Var1 может быть списком (не в смысле R, а в реальном смысле) имен людей, которые любят шоколадное мороженое.
Чтобы сделать этот набор данных доступным для анализа, я хочу использовать информацию, чтобы каждая строка в наборе данных соответствовала наблюдению, а каждое значение ячейки соответствовало тому, соответствует ли наблюдение T / F для данной переменной.
Сейчас набор данных выглядит примерно так:
Var1 Var2 Var3
Name1 Name1 Name2
Name2 Name3
Name4 Name4
или с точки зрения вкуса мороженого:
Chocolate Strawberry Raspberry
Barbara Barbara Shanshan
Shanshan Maria
Louis Louis
Итак, Барбара любит шоколадное и клубничное мороженое, но набор данных настолько запутан, что имя Шаньшан находится в той же строке, что и имя Барбары. Так быть не должно. Первая строка должна представлять значения Барбары, а значения ячеек должны быть 1/0 или T / F, указывая, нравится ли Барбаре определенный вкус мороженого.
Короче хотелось бы, чтобы это выглядело так
Var1 Var2 Var3
1 1 0
1 0 1
0 1 0
1 1 0