Обратился ко мне потенциальный клиент с запросом парсинга Яндекс карт. Указал запросы, по которым парсить и нужна ему вся Россия. При парсинге Яндекс карт есть нюанс, что на каждый запрос Яндекс отдает весьма ограниченную выдачу. И если по каждому запросу организаций много, то, чтобы собрать все, необходимо крупные города разбивать на округа или районы, т.е. надо конкретизировать запрос. А если это вся Россия, то надо брать каждый город миллионник, гуглить какие в нем районы или округа и ручками формировать запросы, а это долго и нудно. Но что ни сделаешь, чтоб клиент получил хороший и, главное, полный результат. Соответственно, я прикидываю все эти трудности и называю клиенту цену с учетом возможных плясок. Как оказалось, в итоге запросы были низкочастотные, разбивать города на районы не понадобилось и цену можно было снизить порядков на 10 в итоге. Но это уже мне наука, что надо сначала запрос в крупном городе пробивать, а потом уже с ценой решать. Но тут опыт и ничего с этим не поделаешь. Но суть не в этом.
Клиент мне радостно доложил что ему на Кворке все сделали реально за копейки и он получил 8400 контактов. А я, в свою очередь, прям задумался, что нифига себе люди работают и прям за копейки парсят такие базы. И решил я проверить достоверность результатов. Сделать это оказалось не сложно. Мне не нужно собирать данные с карточек организаций, а надо понять просто сколько организаций по данным запросам есть на Яндекс картах всего. Сказано — сделано.
Как писал выше, чтобы спарсить всю Россию необходимо найти список всех городов нашей необъятной Родины. Сделать это оказалось не сложно. В итоге выяснилось, что городов в РФ ровно 1272. Забиваю все города в парсер вместе с запросами, а их было 4 штуки разных, и начинаю собирать список организаций. И что вы думаете? Еще только по первому запросу и на 800-м городе из 1272-х я уже собрал 8555 уникальных организаций, подходящих под данный запрос, что уже больше, чем получил клиент за свои копейки по всем городам и всем запросам вместе взятым. Тут я уже всё понял и потерял интерес у процессу. Представляете сколько бы данных еще получил бы клиент по оставшимся 472-м городам по текущему запросу и еще по оставшимся 3-м запросам, которые я вообще не проверял?
Что в итоге. А в итоге под видом актуальных данных вам продадут выборку из какой-нибудь старой базы. Да это будет стоить действительно копейки, но вы получите данные во-первых не полные, а во-вторых часто не актуальные, т.к. базы очень быстро устаревают.
В моем же случае у Вас всегда будут свежие данные, взятые именно сейчас и именно с конкретного сайта. Отрывок из того как проходил тест парсинга Яндекс карт можно посмотреть по ссылке.