Универсальный парсер контента AI-Parser

Главная | О системе | Лицензия | Суппорт | Портфолио 00:00
О системе

Назначение парсера AI-Parser

Универсальный парсер контента AI-Parser предназначен для сканирования сайтов и сохранения всех найденных статей в текстовом формате.

Принцип работы парсера AI-Parser

AI-Parser сканирует сайт, переходя по всем найденным ссылкам в пределах данного сайта. Каждая страничка сайта анализируется на наличие в ней статьи. Определением статьи на страничке занимается настраиваемый блок искусственного интеллекта парсера (его настройку можно произвести через WEB-интерфейс). Найденные статьи сохраняются в текстовом виде (без тегов HTML) в папку сайта в папке со статьями. Имя текстового файла получается из тега <TITLE> странички. Если файл с данным именем существует, то в конец имени добавляется порядковый номер.

Дополнительные возможности парсера AI-Parser

Парсер AI-Parser обладает рядом полезных дополнительных возможностей.
  • Сканирование одновременно нескольких сайтов.
  • Многопоточное сканирование, повышающее скорость работы.
  • Автоматическое игнорирование повторов статей.
  • Встроенный синонимайзер.
  • Поддержка куки (в результате можно сканировать и форумы, и специфические сайты).
  • Сохранение статей в нужной кодировке.
  • Возможность работы через прокси-сервер.
  • Возможность остановки с последующим продолжением сканирования с момента остановки.
  • Возможность защиты парсера паролем (против несанкционированного доступа к парсеру).
  • Динамический вывод статистики сканирования в окно браузера.
  • Игнорирование ссылок, содержащих заданный текст или сканирование только тех ссылок, которые содержат указанный текст.
  • Просмотр результатов сканирования через браузер.
  • Возможность закачки всех статей сайта в виде zip-архива.
  • Интуитивно понятный интерфейс.
  • Интерфейс парсера легко меняется, т.к. реализован в виде шаблонов.

Преимущества парсера AI-Parser

Практически каждый сайт в сети Интернет построен по своим собственным шаблонам. Это означает, что статьи на сайтах располагаются в разных участках HTML-кода страничек. Данный факт существенно усложняет автоматический поиск статьи в коде HTML и её извлечение от туда. Большинство парсеров контента пишутся под конкретные сайта (а точнее, под конкретные шаблоны сайтов). При этом они работают только в рамках данных шаблонов, сайты, построенные по другим шаблонам для них недоступны. И так, используя универсальный парсер контента AI-Parser Вы получаете следующие преимущества.
  • Экономия времени – Вам не придётся для каждого нового сайта искать программиста для написания парсера и обсуждать с ним задачу.
  • Экономия денег – данный универсальный парсер стоит столько же, сколько примерно 4-5 обычных парсеров, заточенных под конкретные сайты. Если Вам нужен контент с многих сайтов, Вам не придётся для каждого из них заказывать и оплачивать отдельный парсер.
  • Бесплатные обновления – Вы сможете бесплатно получать обновления данного парсера даже в том случае, если в результате наращивания его функционала цена на парсер будет увеличена.
  • Удобство в работе – использование парсер AI-Parser просто и понятно, Вам не требуется для этого каких-то специальных знаний.
  • Проверенная временем система – парсер AI-Parser совершенствовался долгое время и был проверен на множестве сайтов.

Есть ли у парсера AI-Parser недостатки?

Как мы знаем, чудес в мире не бывает, а искусственный интеллект, сопоставимый по качеству человеческому, ещё не создан. Парсер AI-Parser способен сканировать большинство сайтов и корректно находить в них контент. Тем ни менее, иногда он может ошибаться, например, он может пропустить одну из статей или определить статью на страничке не совсем точно. Так же он не умеет находить в пределах одной странички более одной статьи. Для него статья либо присутствует в единственном экземпляре, либо её нет вовсе (хотя, мало сайтов, размещающих на одной страничке более одной статьи). Также трудности могут возникнуть при сканировании сайтов, контент которых формируется с использованием технологии AJAX, Flash или Java (хоть это и бывает весьма редко). Трудности в работе парсера могут возникнуть и при сканировании страничек, содержащих невалидный HTML-код (ошибки в синтаксисе HTML).
Работая с парсером AI-Parser, Вы должны понимать возможные недостатки, как и то, что идеальных парсеров не может быть в принципе.

Системные требования парсера AI-Parser

  • HTTP-сервер (например, Apache).
  • Интерпретатор PHP5.
  • Поддержка расширения iconv.
  • Поддержка сервером сокетов (socket).
  • Современный браузер на Вашей стороне.
Hosted by uCoz