Парсинг контента с помощью Content Downloader

Тема в разделе 'Обработки для 1С', создана пользователем savvato, 26 фев 2012.

  1. savvato Administrator

    Небольшой мануал по парсингу контента с помощью замечательной программы Content Downloader, приобрести которую можно здесь.

    1. Итак открываем Content Downloader. И нажимаем клавишу F6 (вызов встроенного браузера)

    2.

    [IMG]


    вводим в адресной строке имя сайта, с которого желаете получить контент, выбираете категорию. ВАЖНО: на приведеном выше рисунке выбрана категория LCD телевизоры/Panasonic, все товары выбранной категории должны отображаються на одной странице . Выделям мышью область страницы , содержащую товары. В нижнем поле делаем выбор что получать - ссылки, и нажимаем кнопку "Получить" . Можно закрыть встроенный браузер.

    3.

    [IMG]


    получаем список ссылок для парсинга, теперь его надо отфильтровать. Оставляем только ссылки с расширением HTML, содержащие описание товара, Выставляем настройки как приведено на рисунке выше, если необходимо парсить картинки, отмечаем и эту функцию для выполнения.

    4.

    [IMG]

    Далее необходимо задать границы парсинга, того контента который Вам необходми, нажав соответствующую кнопку. ВАЖНО: отметку "парсить с границами" не ставить, иначе заданные Вами границы будут отображаться в спаршеном контенте.

    [IMG]

    Далее необходимо задать границы парсинга, того контента который Вам необходим, нажав соответствующую кнопку. В примере парсится "код", "короткое описание товара", и "полное описание". Границы начала и конца парсинга элемнта задаются выделением мыши и нажатием соответствующей кнопки внизу. Начальная граница парсинга подсвечивается красным, конечная - малиновым. На рисунке выше - границы для элемента "код".

    [IMG]

    На рисунке выше - границы для элемента "полное описание". После проставления границ нажать кнопку "готово".

    5.

    [IMG]

    можно посмотреть предварительные результаты парсинга в *.txt, *.html, либо *.csv, кликнув по ссылке в списке ссылок внизу.

    6.

    [IMG]

    запустить процедуру парсинга нажав соответствующую кнопку в программе либо клавишу F5. Поуказанному Вами пути имеем контент в *.csv, где первая строка- "код", вторая "короткое описание", третья - "полное описание". Пример полученого контента в приложении.

    Вложения:

    • primer.zip
      Размер файла:
      11,9 КБ
      Просмотров:
      248

Поделиться этой страницей