Парсинг сайта emex.ru

Posted on

Заказчиком была поставлена с виду простая задача на парсинг сайта, которая потребовала совершено не тривиального решения.

По техническому заданию необходимо было выполнить парсинг сайта emex.ru и найти названия запасных частей для автомобилей, которые соответствовали их артикулам. Т.е. у заказчика есть артикулы, но ему необходимо знать название позиций по этим артикулам. Большинство необходимых запчастей имеется на сайте emex.ru. Их можно увидеть, вбив необходимый артикул в поисковую строку. Но вот незадача — в коде страницы, откуда собственно и производится парсинг, видимого на странице названия запчасти нет. Получается, что спарсить данную информацию нельзя. Конечно данное ограничение распространяется только на тех, кто занимается парсингом любительски. Меня же эти ограничения никак не коснулись. Ряд сайтов выводит информацию на страницу не через код, а скриптами непосредственно на экран. Но это совершенно не значит, что эти потоковые данные нельзя спарсить. Чуть больше времени на настройку проекта и заказчик получил требуемый результат.

Парсинг текста, которого нет в тексте страницы
Парсинг текста, которого нет в коде страницы