Уникальные идентификаторы для каждой точки данных в Mahout

Предположим, у меня есть набор данных, на котором я хочу запустить задание кластеризации Mahout. Я хочу, чтобы каждая точка данных имела уникальный идентификатор, например идентификационный номер. Я не хочу добавлять идентификатор к вектору, так как таким образом он будет включен в вычисления кластеризации. Как я могу включить идентификатор в данные без алгоритма, включающего идентификационный номер в свои расчеты? Есть ли способ, чтобы вход был парой ключ-значение, где ключ — это идентификатор, а значение — вектор, на котором я хочу запустить алгоритм?


person Alison    schedule 20.07.2012    source источник


Ответы (1)


Элисон, прежде чем беспокоиться об этом, сначала посмотрите на результат. Много раз у вас есть строки с назначенными идентификаторами CLusterID, где порядок строк во входных и выходных файлах одинаков. Например, узел в первой строке вашего входного файла будет в первой строке выходного файла. Таким образом, вы можете хранить идентификаторы в отдельном файле, а их векторы во входном файле. Затем вы можете объединить отдельный файл и выходной файл, чтобы увидеть, какой узел назначен какому кластеру.

person cuneyt    schedule 20.07.2012
comment
забыл добавить. Р делает это. - person cuneyt; 20.07.2012
comment
Спасибо за ответ, @cuneyt. Я снова посмотрел на вывод и, что интересно, в выводе есть какой-то порядок, но он не полностью совпадает с порядком ввода. Например, первые несколько точек в моем входном файле последовательно перечислены в выходном файле, однако первая из этих точек не появляется до середины выходного файла под заголовком CL-595, который, как я первоначально думал, был идентификатор кластера, за которым следуют точки в кластере. Вы видели это раньше? Я неправильно читаю выходной файл? - person Alison; 20.07.2012
comment
вставьте сюда 10-20 строк вывода, я уверен, что это будет достаточно понятно для нас - person cuneyt; 23.07.2012
comment
вот часть вывода (разделенная на несколько комментариев): CL-592{n=57 c=[30.726, 29.813, 30.744, 29.337, 29.865, 29.284, 29.719, 29.716, 28.154, 28.816, 27.901, 28.804, 22.8. , 28.464, 27.317, 27.985, 27.138, 27.178, 27.804, 27.598, 25.966, 26.486, 24.031, 23.986, 23.804, 24.387, 22.373, 23.139, 22.572, 21.657, 21.324, 21.325, 20.816, 20.613, 20.931, 20.134, 20.353, 19.669 , 20.701, 20.136, 20.429, 19.707, 18.946, 18.342, 18.807, 18.924, 18.014, 19.538, 18.749, 18.329, 19.114, 17.410, 16.727, 18.531, 17.307, 17.218, 17.721, 16.722, 17.235] - person Alison; 06.08.2012
comment
Weight : [props - optional]: Point: 1.0 : [distance=27.453962995925863]: [24.672, 35.261, 30.486, 34.447, 27.469, 33.179, 32.280, 31.612, 33.215, 30.145, 25.664, 26.510, 23.344, 22.746, 23.703, 25.613 , 27.950, 30.915, 27.055, 32.099, 28.053, 25.602, 25.857, 23.649, 23.729, 20.707, 26.265, 24.739, 23.297, 28.814, 28.322, 24.125, 27.636, 19.490, 20.211, 23.685, 17.537, 24.913, 23.852, 17.429, 18.166 , 26.208, 16.250, 18.389, 19.903, 17.949, 26.284, 16.435, 22.171, 16.566, 14.734, 20.814, 15.615, 25.051, 17.750, 22.335, 12.816, 20.545, 17.145, 16.969] - person Alison; 06.08.2012
comment
1.0 : [distance=27.675053294846002]: [25.592, 29.951, 34.188, 25.658, 26.887, 23.573, 34.070, 32.134, 24.226, 32.835, 28.736, 22.764, 27.075, 31.695, 23.068, 28.177, 30.347, 21.692, 23.520, 25.869, 20.738 , 26.484, 25.945, 26.356, 26.610, 27.923, 22.344, 18.341, 25.289, 17.043, 23.898, 21.450, 21.012, 26.453, 19.442, 19.780, 23.152, 16.660, 23.176, 24.844, 21.370, 24.335, 22.465, 17.060, 12.203, 11.832 , 15,639, 14,378, 17,319, 18,499, 10,786, 17,209, 15,585, 17,023, 19,042, 18,056, 17,958, 15,153, 9,625, 17,562] - person Alison; 06.08.2012
comment
1.0 : [distance=28.97727289419493]: [30.696, 32.667, 34.223, 33.183, 34.835, 33.391, 33.175, 32.804, 24.116, 25.190, 22.739, 25.053, 32.679, 31.196, 32.160, 29.381, 23.589, 31.786, 24.265, 30.298, 21.200 , 26,239, 30,859, 29,984, 21,029, 27,869, 18,415, 19,499, 23,458, 24,589, 25,958, 23,921, 26,189, 27,101, 27,984, 21,713, 20,958, 20,110, 16,1717, 26,001, 21,001, 21,001, 21,001, 21,001, 21,001, 21,001, 21,001, 21,001, 21,001, 21,001, 21,001, 21,984. , 24,850, 20,741, 23,414, 16,101, 15,681, 15,673, 23,288, 17,766, 21,817, 16,371, 12,139, 18,997, 17,320, 12,940] - person Alison; 06.08.2012
comment
1.0: [Расстояние = 21,999685652862784]: [32,702, 35,219, 30,143, 24,275, 28,156, 26,281, 26,887, 29,739, 28,588, 32,115, 28,952, 31,654, 23,860, 21,503, 26,115, 26,115, 26,115, 26,115, 26,115, 26,115, 26,115, 26,115, 26,115, 26,115, 26,115, 26,115, 26,115, 26,115, 26,11, , 28,435, 27,952, 23,764, 20,125, 24,848, 27,495, 24,808, 20,754, 24,518, 18,523, 22,455, 25,533, 19,716, 17,452, 17,16, 20,11, 21, 20, 20, 20, 20, 20, 21, 21, 21, 21, 21,452, 21,162, 21,452. , 20,590, 15,386, 23,640, 15,969, 16,974, 18,554, 18,152, 14,431, 18,404, 12,034, 16,727, 17,414, 10,661, 12,707] - person Alison; 06.08.2012
comment
1.0 : [distance=20.02515456205999]: [30.343, 33.085, 28.130, 31.294, 28.719, 30.306, 26.441, 29.986, 25.757, 26.601, 27.699, 27.233, 29.376, 31.373, 30.535, 24.821, 23.137, 24.924, 30.362, 29.024, 28.737 , 19.135, 19.318, 22.184, 24.326, 21.256, 24.222, 24.839, 24.351, 18.481, 21.962, 20.152, 18.972, 22.825, 22.988, 23.799, 18.610, 17.205, 17.968, 22.920, 21.987, 22.731, 18.080, 19.168, 20.863, 19.833 , 16.373, 19.790, 16.253, 15.409, 16.462, 19.237, 14.938, 12.695, 16.116, 19.813, 17.155, 19.612, 19.827, 13.522] - person Alison; 06.08.2012