Как геокодировать миллион точек на Spark по-быстрому?

09.02.2019 10:30

Мегамозг

В моем предыдущем проекте перед нами встала задача провести обратное геокодирование для множества пар географических координат. Обратное геокодирование — это процедура, которая паре широта-долгота ставит в соответствие адрес или название объекта на карте, к которому принадлежит или близка заданная координатами точка. То есть, берем координаты, скажем такие: @55.7602485,37.6170409, и получаем результат либо «Россия, Центральный федеральный округ, Москва, Театральная площадь, дом такой-то», либо например «Большой театр».

Если на входе адрес или название, а на выходе координаты, то эта операция — прямое геокодирование, об этом мы, надеюсь, поговорим позже.

В качестве исходных данных у нас на входе было примерно 100 или 200 тысяч точек, которые лежали в кластере Hadoop в виде таблицы Hive. Это чтобы был понятен масштаб задачи.

В качестве инструмента обработки в конце концов был выбран Spark, хотя в процессе мы попробовали как MapReduce, так и Apache Crunch. Но это отдельная история, возможно заслуживающая своего поста.
Читать дальше →

Как геокодировать миллион точек на Spark по-быстрому?

Читайте на 123ru.net

Клин

Куровское

Можайск

Лосино-Петровский

Другие проекты от 123ru.net

«Северная красота» пусков Плесецка

"Возрождение интереса к народному искусству и ремеслам в современном мире"

Estischool - Школа за британською програмою

"Возрождение интереса к народному искусству и ремеслам в современном мире"

Five new Steam games you probably missed (May 20, 2024)

Путин назвал президента Раиси надежным партнером России

Glen Powell’s parents crash Texas movie screening to troll him

АО «ДиМ» демонтировало 40% старого путепровода над железнодорожными путями

Курс евро рухнул ниже 98 рублей на фоне укрепления рубля

В Душанбе открылась книжная выставка, посвящённая Юлии Друниной и Булату Окуджаве

Блинкен заявил, что народ Ирана выиграл от гибели президента Раиси

Шнайдер вышла в финал турнира WTA-125 в Париже, обыграв Грачёву

В Москве произошла драка с участием 15 человек, двое в больнице

Замгубернатора Томской области по экономике Потемкин высказался о гибели президента Ирана

Свыше 600 навалов мусора устранили в Подмосковье за неделю

Сергей Собянин принял решение о расширении мер поддержки промпредприятий

Lipatov Sound заявил о выходе нового трека “Red City”

Другие популярные новости дня сегодня

Топ 10 новостей последнего часа в Москве и Московской области

Сергей Собянин. Главное за день

Не сработает: Вашингтону предсказали провал из-за Москвы

Запись от имени Президента Беларуси сделана в книге соболезнований в посольстве Ирана

Зеленский заявил, что обеспокоен заявлениями республиканцев в США

Частные объявления в Москве, в Московской области и в России

Бизнесвумен Матильда Шнурова снялась без одежды в США

Паралимпиец из Звенигорода примет участие в международных соревнованиях

Друзья 123ru.net

Информационные партнёры 123ru.net

Спонсоры 123ru.net