У меня есть данные, которые выглядят так:
ID lat long university date cat2 cat3 cat4 ...
00001 32.001 -64.001 MIT 2011-07-01 xyz foo NA ...
00002 45.783 67.672 Harvard 2011-07-01 abc NA lion ...
00003 54.823 78.762 Stanford 2011-07-01 xyz bar NA ...
00004 76.782 23.989 IIT Bombay 2011-07-02 NA foo NA ...
00005 32.010 -64.010 NA 2011-07-02 NA NA hamster...
00006 32.020 -64.020 NA 2011-07-03 NA NA NA ...
00006 45.793 67.700 NA 2011-08-01 NA bar badger ...
Я хочу вменять недостающие значения для столбца университета на основе долготных координат. Это, очевидно, надумано, поскольку данные содержат 500 000 строк и довольно редко встречаются в столбце университета. Пакеты импутации, такие как Амелия, похоже, хотят подогнать числовые данные в соответствии с линейной моделью, а зоопарк, похоже, хочет заполнить недостающие значения на основе какого-то упорядоченного ряда, которого у меня нет. Я хочу сопоставить close широту и долготу, а не только точные пары широта и долгота, поэтому я не могу просто заполнить один столбец, сопоставив значения из другого.
Я планирую подойти к этой проблеме, найдя все пары широта-долгота, связанные с университетом, нарисуйте вокруг них ограничивающую рамку, а затем для всех строк с парами широта-долгота, но с отсутствующими данными университета, добавьте соответствующее значение для университета в зависимости от того, какая широта -длинная коробка, в которой они находятся, или, возможно, в пределах определенного радиуса от середины известных мест.
Кто-нибудь когда-нибудь делал что-нибудь подобное? Существуют ли какие-либо пакеты, которые упрощают группировку географически близких пар широта-долгота или, возможно, даже выполнение географически обоснованного условного исчисления?
Если это сработает, я хотел бы попытаться вменять некоторые другие отсутствующие значения на основе существующего значения в данных (например, 90% строк с xyz, foo, значениями Гарварда также имеют лев в 4-й категории, поэтому мы может вменять некоторые пропущенные значения для cat4), но это другой вопрос, и я бы мог представить себе гораздо более сложный вопрос, который у меня может даже не хватить данных для успешного выполнения.