Парсинг сайта conteshop.ru

Posted on
Парсинг сайта conteshop.ru

Пример технического задания для парсинга товаров с сайта производителя и импорта результатов в интернет магазин Joomla на компоненте JoomShopping.

Страница сайта донора для данного примера: https://conteshop.ru/conte/kolgotki-poliamidnye-jenskie-prestige-40-natural

Результаты надо сохранить в файл CSV с разделителями строк ; и "

Требуемые данные:
Категория: Классические (Взять из хлебных крошек 2-ю с конца)
Производитель: Conte
Код товара: PRESTIGE 40
Псевдоним: prestige-40 (Взять из названия, перевести в нижний регистр, пробелы заменить на -)
Название: Колготки классические PRESTIGE 40 (Взять из хлебных крошек, привести к указанному виду)
Описание: Модель PRESTIGE уникальна не только высоким содержанием эластана …… а эффект нежного шёлка доставит вам максимум комфорта. (Взять все описание, очистить от всех тегов и стилей, оставить только тег br)
Модель: PRESTIGE 40 (Тоже, что и «Код товара»)
Состав полотна: 83% полиамид|17% эластан (Взять из таблицы (графа «Материал»). Привести надо к указанному виду)
Изображение: prestige-40.jpg (В эту графу надо скопировать значение ячейки «Псевдоним» и добавить в конце .jpg)

В общую папку надо загрузить картинку по адресу:
https://conteshop.ru/media/catalog/product/cache/11/image/1405×1879/602f0fa2c1f0d1ba5e241f914e856ff9/a/3/a3b49f90d01faf7fd58f95dfe7f87d6f_6.jpg (Картинку надо переименовать в соответствии со значением поля «Изображение») ВНИМАНИЕ! Нужна картинка, которая ВСЕГДА идет за тегом <meta property="og:image" content=".

Спарсить надо все товары из всех подкатегорий категории Колготы (Теплые, Корректирующие, Классические и т.д.)

Дополнительно по каждому спаршенному товару в другой файл CSV и другую папку для картинок надо собрать названия всех цветов модели и их картинки. Эту информацию надо разнести по следующим колонкам:

Модель: PRESTIGE 40
Картинки: prestige-40-shade.jpg (Название картинки с цветами каждой модели переименованной указанным образом: Название модели в нижнем регистре и название цвета с — вместо пробелов)
Оригинальное назв.файла: 26132d7b756e094bcc92fce839098068_1.jpg

В папку надо загрузить картинку по адресу (для каждого цвета свой адрес): https://conteshop.ru/media/catalog/product/cache/11/image/1405×1879/602f0fa2c1f0d1ba5e241f914e856ff9/2/6/26132d7b756e094bcc92fce839098068_1.jpg Каждый файл небходимо переименовать соответствии со значением ячейки «Картинки».

Для каждой модели надо скачать и занести в таблицу фото всех цветов. У модели из этого примера их 8. Соответственно должно получиться 8 строк в таблице с одинаковым значением ячейки «Модель» (PRESTIGE 40) и разным значением ячейки «Картинки». Сколько цветов у модели, столько и строк и скачанных файлов.

Результат составил 837 строк, соответственно столько же скачанных и преобразованных картинок. Результаты парсинга были адаптированы для переноса в интернет магазин. Были добавлены код товара, штрих код, розничная и оптовая цена в соответствии с прайсом компании заказчика.

Данный проект является повышенной сложности. По тех.заданию необходимо было произвести множество замен и изменений оригинального текста, а также подготовить проект к импорту на сайт заказчика. Срок реализации проекта составил 2 дня.

Парсинг товаров с сайта conteshop.ru
Парсинг товаров с сайта conteshop.ru
 Парсинг атрибутов с сайта conteshop.ru
Парсинг атрибутов с сайта conteshop.ru
 Парсинг фотографий товаров с сайта conteshop.ru
Парсинг фотографий товаров с сайта conteshop.ru
 Парсинг фотографий атрибутов с сайта conteshop.ru
Парсинг фотографий атрибутов с сайта conteshop.ru