InterNet Art Searcher

Тихий ужас, наблюдаемый вами на этих страницах - все, что осталось от старых версий сайтов компании Интернет Арт. Это - вечно живое воспоминание о том, как мы начинали.

Если вы видите какие-то цены - не обращайте на них внимание. Они безнадежно устарели.

Если вас заинтересовали наши вакансии - окститесь - места давно заняты.

Если вы заметили телефон и хотите по нему позвонить - не тратьте свое время и нервы того, кто сейчас уютно расположился на другом конце провода.

Если вам нужна актуальная информация о нас, просто перемотайте страницу до конца и жмякнитесь в копирайт. Там пока тоже все старое (надеемя обновиться к декабрю), но все же лет на 10 посвежее.

Спасибо. Компания "Интегрейт"

Вообще говоря, все поисковые системы устроены одинаково (если не вдаваться в подробности конкретной реализации, разумеется). То есть любая поисковая система должна содержать индексатор - модуль, бегающий по сайтам, как правило выбирающий их текстовое содержание, и заносящий это содержание в базу данных - и обработчик пользовательского запроса

Индексаторы бывают разные. Анализаторы пользовательского запроса - тоже. На этой странице мы не будем обсуждать плюсы и минусы реализаций этих модулей на популярных поисковых системах - мы просто укажем на отличия нашего подхода от имеющихся на настоящий момент.

Но прежде, немного о платформе, на которой все это тестировалось. Администраторский и пользовательский интерфейс работали под управлением СУБД PostgreSQL, каркас управляющих модулей собирался на PHP версии 4.1.0, работа со строками велась на Perl, а внутренние процедуры были написаны на C. В качестве WEB-сервера использовался Apache, ОС RedHat Linux 6.1. Система была установлена на сервере следующей конфигурации: Dual Intel PentiumIII-700/512Mb/3x36.1Gb. Хранилище данных, индексатор и анализатор пользовательских запросов создавались на C и Perl и PL/SQL и работали с СУБД Oracle 8i. СУБД и сопуствующие скрипты тестировались на 18-узловом кластере под управлением ОС RedHat Linux 6.1. Hardware конфигурация кластера - Dual Intel PentiumIII-550/1Gb/2x36,1Gb. Системные блоки объединялись с помощью сети SCI. Служебная сеть - Fast Ethernet. Дополнительно, в качестве головной машины для загрузки задач на кластер использовался системный блок Intel PentiumIII -500/512Mb/18Gb, а в качестве дополнительного файл-сервера - системный блок с конфигурацией Dual Intel PentiumIII-800/512Mb/36Gb+RaidU160SCSI-6x36Gb. Таким образом, система работоспособна при сравнительно небольших вложениях в аппаратную часть.

В качестве ограничения, вызванного первоначальной постановкой задачи, проводилась индексакция только Российской части сети Интернет - то есть индексации подлежали сайты, физически размещенные на територии Российской Федерации.

Перейдем к индексатору. Алгоритм его работы предельно прост - произвольная страница, доступная в интернет, назначается стартовой. Робот индексирует ее содержимое, и собирает все ссылки, ведущие с этой страницы. Затем, после ряда проверок, он выбирает следущую страницу, в свою очередь становящуюся "локально стартовой". Когда список страниц исчерпывается, индексатор запрашивает у администратора очередную "стартовую" страницу, либо, если таковая введена заранее, просто ее использует. Если список стартовых страниц исчерпан, происходит ряд проверок, позволяющих определить, закончена ли индексация. В случае, если существуют сайты, оставшиеся непроиндексированными, каждый из них поочередно выбирается стартовой страницей, а их URL автоматически заносятся в список стартовых страниц. По прошествии времени может возникнуть ситуация, когда одна или несколько стартовых страниц потеряют актуальность - то есть, все ссылки, ведущие с этих страниц будут перекрываться другими стратовыми страницами, находящимися в базе. В этом случае, лишние стартовые страницы автоматически удаляются.

Помимо индексации новых ресурсов, инедксатор регулярно обходит уже занесенные в базу сайты, автоматически фиксируя изменения.

Относительно организации хранения данныхЗадача эта заключалась в автоматической фильтрации результатов пользовательского запроса. То есть, когда обычные поисковые машины в ответ на пользовательский запрос выдают все адреса, где встречаются слова запроса, наш "движок", в соответствии с заданными правилами, отфильтровывает результаты, отбрасывая не имеющие отношения к сути запроса, позволяет категоризировать сайты.

Остается добавить, что индесатор обрабатывает все без исключения ссылки - HTML, javaScript, Flash ActionScript, всевозможные варианты CGI скриптов и т.д. Файл robots.txt, в зависимости от настроек системы, либо обрабатывается, либо игнорируется. Реализована индивидуальная подстройка для каждого проиндексированного сайта, в том числе и в автоматическом режиме.

Теперь несколько слов об анализаторе пользовательских запросов. Анализатор реализован частично в структуре базы данных, частично же - программно. Пользователю предоставляется возможность создавать правила анализа информации - каждому правилу по определенному алгоритму присваивается вес, затем система в автоматическом режиме анализирует соответствие содержимого базы данных введенным правилам, сопоставляет и выводит только результаты, непосредственно затребованные пользователем. Кроме того, при определенных обстоятельствах, система в состоянии генерировать правила на основе введенных пользователем. До полноценной экспертной системы она, вероятно, не дотягивает, но с поставленной задачей справляется замечательно.

Единственным минусом, о котором, тем не менее, нельзя не упомянуть, является интерфейс, проработанный под конкретного заказчика. По нашему мнению, данный интерфейс не достаточно приспособлен для поисковых систем общего назначения, поэтому поставка InterNet Art Searcher возможна только с месячной отсрочкой, необходимой для оптимизации usability.

Резюмируя:

  • Система InterNet Art Searcher может быть использована для создания обычного поискового сайта, при этом ее возможности как минимум сопоставимы с лучшими поисковыми движками РУНЕТа
  • Дополнительные возможности системы позволяют пользователю получить результаты, отфильтованные согласно его индивидуальным потребностям
  • Система не утрачивает работоспособность при использовании сравнительно слабой аппаратной части
  • Система спроектирована с учетом возможности дальнейшего расширения

Если вас заинтересовал проект InterNet Art Searcher - свяжитесь с нами.