|
Назначение парсера AI-Parser
Универсальный парсер контента AI-Parser предназначен для сканирования сайтов и сохранения всех найденных статей в текстовом формате.
Принцип работы парсера AI-Parser
AI-Parser сканирует сайт, переходя по всем найденным ссылкам в пределах данного сайта.
Каждая страничка сайта анализируется на наличие в ней статьи.
Определением статьи на страничке занимается настраиваемый блок искусственного интеллекта парсера (его настройку можно произвести через WEB-интерфейс).
Найденные статьи сохраняются в текстовом виде (без тегов HTML) в папку сайта в папке со статьями.
Имя текстового файла получается из тега <TITLE> странички.
Если файл с данным именем существует, то в конец имени добавляется порядковый номер.
Дополнительные возможности парсера AI-Parser
Парсер AI-Parser обладает рядом полезных дополнительных возможностей.
- Сканирование одновременно нескольких сайтов.
- Многопоточное сканирование, повышающее скорость работы.
- Автоматическое игнорирование повторов статей.
- Встроенный синонимайзер.
- Поддержка куки (в результате можно сканировать и форумы, и специфические сайты).
- Сохранение статей в нужной кодировке.
- Возможность работы через прокси-сервер.
- Возможность остановки с последующим продолжением сканирования с момента остановки.
- Возможность защиты парсера паролем (против несанкционированного доступа к парсеру).
- Динамический вывод статистики сканирования в окно браузера.
- Игнорирование ссылок, содержащих заданный текст или сканирование только тех ссылок, которые содержат указанный текст.
- Просмотр результатов сканирования через браузер.
- Возможность закачки всех статей сайта в виде zip-архива.
- Интуитивно понятный интерфейс.
- Интерфейс парсера легко меняется, т.к. реализован в виде шаблонов.
Преимущества парсера AI-Parser
Практически каждый сайт в сети Интернет построен по своим собственным шаблонам.
Это означает, что статьи на сайтах располагаются в разных участках HTML-кода страничек.
Данный факт существенно усложняет автоматический поиск статьи в коде HTML и её извлечение от туда.
Большинство парсеров контента пишутся под конкретные сайта (а точнее, под конкретные шаблоны сайтов).
При этом они работают только в рамках данных шаблонов, сайты, построенные по другим шаблонам для них недоступны.
И так, используя универсальный парсер контента AI-Parser Вы получаете следующие преимущества.
- Экономия времени – Вам не придётся для каждого нового сайта искать программиста для написания парсера и обсуждать с ним задачу.
- Экономия денег – данный универсальный парсер стоит столько же, сколько примерно 4-5 обычных парсеров, заточенных под конкретные сайты.
Если Вам нужен контент с многих сайтов, Вам не придётся для каждого из них заказывать и оплачивать отдельный парсер.
- Бесплатные обновления – Вы сможете бесплатно получать обновления данного парсера даже в том случае, если в результате наращивания его функционала цена на парсер будет увеличена.
- Удобство в работе – использование парсер AI-Parser просто и понятно, Вам не требуется для этого каких-то специальных знаний.
- Проверенная временем система – парсер AI-Parser совершенствовался долгое время и был проверен на множестве сайтов.
Есть ли у парсера AI-Parser недостатки?
Как мы знаем, чудес в мире не бывает, а искусственный интеллект, сопоставимый по качеству человеческому, ещё не создан.
Парсер AI-Parser способен сканировать большинство сайтов и корректно находить в них контент.
Тем ни менее, иногда он может ошибаться, например, он может пропустить одну из статей или определить статью на страничке не совсем точно.
Так же он не умеет находить в пределах одной странички более одной статьи.
Для него статья либо присутствует в единственном экземпляре, либо её нет вовсе (хотя, мало сайтов, размещающих на одной страничке более одной статьи).
Также трудности могут возникнуть при сканировании сайтов, контент которых формируется с использованием технологии AJAX, Flash или Java (хоть это и бывает весьма редко).
Трудности в работе парсера могут возникнуть и при сканировании страничек, содержащих невалидный HTML-код (ошибки в синтаксисе HTML).
Работая с парсером AI-Parser, Вы должны понимать возможные недостатки, как и то, что идеальных парсеров не может быть в принципе.
Системные требования парсера AI-Parser
- HTTP-сервер (например, Apache).
- Интерпретатор PHP5.
- Поддержка расширения iconv.
- Поддержка сервером сокетов (socket).
- Современный браузер на Вашей стороне.
|
|