Парсер без шаблонов

Парсер принимает URL и возвращает текст статьи
Парсер принимает URL и возвращает текст статьи

Парсер без шаблонов работает без настройки под конкретный сайт, его легко использовать с Вашими скриптами - грабберами ссылок, парсерами лент RSS и т.д. Просто подаете на вход скрипта URL страницы и на выходе получаете текст статьи в кодировке UTF-8. Парсер успешно работает в одном из проектов - автоматическом переводчике и публикаторе статей, и правильно распознает подавляющее большинство статей с самых разных сайтов, особенно если тексты достаточно длинные.

Принципы работы:

  • Распознает статьи с помощью статистического анализа содержимого страницы - ищет самый длинный блок текста, не разорванный другими блоками сайта
  • При распознавании нужного блока берет к сведению релевантность относительно мета-тегов description и keywords
  • Кодировка текста распознается автоматически на основе мета-тегов и HTTP заголовков
  • Очищает текст от лишних тегов, оставляет лишь самые базовые, например strong, p
  • Фильтрует текст от ложной кириллицы - похожих латинских символов, вставленных вместо русских

Стоимость скрипта 20 WMZ, по запросу можно потестировать демо-версию, которая на иллюстрации.