Парсер без шаблонов
Парсер без шаблонов работает без настройки под конкретный сайт, его легко использовать с Вашими скриптами - грабберами ссылок, парсерами лент RSS и т.д. Просто подаете на вход скрипта URL страницы и на выходе получаете текст статьи в кодировке UTF-8. Парсер успешно работает в одном из проектов - автоматическом переводчике и публикаторе статей, и правильно распознает подавляющее большинство статей с самых разных сайтов, особенно если тексты достаточно длинные.
Принципы работы:
- Распознает статьи с помощью статистического анализа содержимого страницы - ищет самый длинный блок текста, не разорванный другими блоками сайта
- При распознавании нужного блока берет к сведению релевантность относительно мета-тегов description и keywords
- Кодировка текста распознается автоматически на основе мета-тегов и HTTP заголовков
- Очищает текст от лишних тегов, оставляет лишь самые базовые, например strong, p
- Фильтрует текст от ложной кириллицы - похожих латинских символов, вставленных вместо русских
Стоимость скрипта 20 WMZ, по запросу можно потестировать демо-версию, которая на иллюстрации.