У меня есть две таблицы t1
и t2
(t1
имеет 1/10 размера t2
). Каждая таблица имеет два столбца <Lat, Long>
, которые содержат широту и долготу некоторых точек. Для каждой строки в t1
я хотел бы найти ближайшую к ней строку в t2
. Какой запрос будет наиболее эффективным для этого? Есть ли у Hive какие-либо библиотеки для геопространственного поиска?
Поиск ближайшего местоположения к значению широты и долготы
comment
Просто чтобы немного помочь следующему человеку, который этим занимается: в итоге я переместил свои данные в Solr и использовал его быстрый геопространственный поиск для запросов. Solr был очень быстр в этом.
- person Mark   schedule 08.09.2015
Ответы (1)
Вам нужно будет немного потренироваться.
См. эту статью в базе данных Журнал
Последняя процедура, которую я считаю, это то, что вы ищете (вам нужно будет изменить ее для вашего использования):
CREATE DEFINER=`root`@`localhost` PROCEDURE closest_restaurants_optimized`
(IN units varchar(5), IN lat Decimal(9,6), IN lon Decimal(9,6),
IN max_distance SMALLINT, IN limit_rows MEDIUMINT)
BEGIN
DECLARE ONE_DEGREE_CONSTANT TINYINT;
DECLARE EARTH_RADIUS_CONSTANT SMALLINT;
DECLARE lon1, lon2, lat1, lat2 float;
IF units = 'miles' THEN
SET ONE_DEGREE_CONSTANT = 69;
SET EARTH_RADIUS_CONSTANT = 3959;
ELSE -- default to kilometers
SET ONE_DEGREE_CONSTANT = 111;
SET EARTH_RADIUS_CONSTANT = 6371;
END IF;
SET lon1 = lon-max_distance/abs(cos(radians(lat))*ONE_DEGREE_CONSTANT);
SET lon2 = lon+max_distance/abs(cos(radians(lat))*ONE_DEGREE_CONSTANT);
SET lat1 = lat-(max_distance/ONE_DEGREE_CONSTANT);
SET lat2 = lat+(max_distance/ONE_DEGREE_CONSTANT);
SELECT pm1.post_id, p.post_title,
ROUND((EARTH_RADIUS_CONSTANT * acos( cos( radians(lat) )
* cos( radians(pm1.meta_value) )
* cos( radians(pm2.meta_value) - radians(lon)) + sin(radians(lat))
* sin( radians(pm1.meta_value)))
), 3) AS distance
FROM goodfood_wp_md20m_postmeta AS pm1,
goodfood_wp_md20m_postmeta AS pm2,
goodfood_wp_md20m_posts AS p
WHERE pm1.meta_key = 'latitude' AND pm2.meta_key = 'longitude'
AND pm1.post_id = pm2.post_id
AND pm1.post_id = p.id
AND p.post_status = 'publish'
AND pm2.meta_value between lon1 and lon2
AND pm1.meta_value between lat1 and lat2
ORDER BY distance ASC
LIMIT limit_rows;
END
person
Wranorn
schedule
31.08.2015