У меня есть csv, который я прочитал с помощью pandas и создал фрейм данных. Фрейм данных выглядит так:
description title
lorem ipsum A
ipsum lorem A
dolor sit amet C
amet sit dolor B
Он имеет 1034 строки и 2 столбца
Теперь я хочу удалить все строки с повторяющимися заголовками из фрейма данных и получить такой фрейм данных:
description title
lorem ipsum A
dolor sit amet C
amet sit dolor B
Я нашел решение, в котором говорится об удалении дубликатов с помощью drop_duplicates()
. В моем сценарии я сделал:
df.drop_duplicates('title', inplace = True)
Когда я print df
, он все еще показывает 1034 строки, но в конце он отображает [967 x 2], что означает, что у него 967 строк, и он удалил дубликаты. Даже выполнение df.shape говорит мне то же самое. Но когда я печатаю или повторяю, кажется, что это не работает. Фактически, даже длина печати определенного столбца дает мне 967. Пример: print len(df['title'])
дает мне 967
. Просто индексы фреймов данных имеют одинаковую нумерацию? Или у него действительно все еще 1034 строки? В чем может быть проблема?
Прилагаю свой код:
df = pd.read_csv('latestdata.csv', sep='\t')
df.drop_duplicates('title', inplace=True)
print df