Обычно я анонимизирую свои данные, используя хеш-библиотеку и функцию .apply(hash).
Теперь я пробую новый подход, представьте, что мне нужно следовать df под названием «данные»:
df = pd.DataFrame({'contributor':['eric', 'frank', 'john', 'frank', 'barbara'],
'amount payed':[10,28,49,77,31]})
contributor amount payed
0 eric 10
1 frank 28
2 john 49
3 frank 77
4 barbara 31
Который я хочу анонимизировать, превратив все имена в person1
, person2
и т. д., например:
output = pd.DataFrame({'contributor':['person1', 'person2', 'person3', 'person2', 'person4'],
'amount payed':[10,28,49,77,31]})
contributor amount payed
0 person1 10
1 person2 28
2 person3 49
3 person2 77
4 person4 31
Итак, сначала я суммировал столбец name, чтобы имена были привязаны к уникальному индексу, и я мог использовать этот индекс для числа после «человека».