Оглавление
1Введение 2
2Лабораторная работа №1. Изучение основных возможностей программного продукта Яндекс.Сервер. Установка окружения, установка и настройка приложения. 10
2.1Цели и задачи работы 10
2.2Теоретические сведения 10
2.3Методика выполнения работы 12
2.3.1Подготовка окружения 12
2.3.2Установка программного продукта Яндекс.Сервер 13
2.3.3Получение доступа к веб-приложению 17
2.3.4Проверка доступа к панели управления 18
2.3.5Конфигурирование Яндекс.Сервер, параметры конфигурационного файла 19
2.4Задание для самостоятельного выполнения 21
2.5Отчет по лабораторной работе 21
3Лабораторная работа №2. Настройка информационно-поисковой системы Яндекс.Сервер для поиска по SQL базе данных. Сравнение поисковых механизмов методом анализа иерархий 23
3.1Цели и задачи работы 23
3.2Теоретические сведения 23
3.2.1Модель булева поиска 23
3.2.2Модель ранжированного поиска 26
3.3Методика выполнения работы 26
3.3.1Подготовка окружения 26
3.3.2Настройка Яндекс.Сервер для работы с MySQL 29
3.3.3Установка MySQL ODBC Connector 29
3.3.4Создание источника данных 31
3.3.5Настройка Яндекс.Сервер 33
3.3.6Использование встроенного в WordPress механизма поиска 35
3.3.7Использование полнотекстового индекса MySQL 35
3.3.8Выбор системы поиска для веб-приложения методом анализа иерархий 38
3.4Задание для самостоятельного выполнения 43
3.5Отчет о лабораторной работе 44
4Лабораторная работа №3. Изучение основных возможностей программного продукта Apache Solr. Обработка XML документов с использованием XSLT преобразования. 45
4.1Цели и задачи 45
4.2Теоретические сведения 45
4.3Методика выполнения работы 46
4.3.1Подготовка окружения 46
4.3.2Добавление документов в поисковый индекс 49
4.3.3Формирование запросов 51
4.3.4Расширенный синтаксис запросов 52
4.3.5Взаимодействие Solr с другими системами, XSLT преобразование 52
4.4Задание для самостоятельного выполнения 60
4.5Отчет по лабораторной работе 61
1Введение
В широком смысле информационная система это совокупность технического, программного и организационного обеспечения, а также персонала, предназначенная для того, чтобы своевременно обеспечивать лиц, принимающих решения надлежащей информацией.
Существует несколько классификаций информационных систем, одной из таких является классификация по характеру обработки данных. По этой классификации информационные системы подразделяются на:
ИС обработки данных или решающие ИС, в которых данные подвергаются обработке по сложным алгоритмам. К таким системам относятся автоматизированные информационные системы и системы поддержки принятия решений.
Информационно-справочные или информационно-поисковые ИС, в которых нет сложных алгоритмов обработки данных, а целью системы является поиск и выдача информации в удобном виде.
Мы будем рассматривать информационно-поисковые ИС в контексте корпоративного поиска.
Давайте определим, как выглядит поисковое окружение для сотрудника какого-либо предприятия. Первое, с чем взаимодействует любой пользователь – это рабочий стол и все, что на этом рабочем столе есть и где мы можем выполнять поиск информации – это могут быть как файлы документов, электронная почта, возможно, доступ к личной папке на файловом сервере.
Вторая вещь, которая находится вокруг нас – это корпоративное окружение и здесь мы имеем уже другой набор объектов – корпоративный веб-сайт, который доступен только внутри организации и не доступен из интернета, системы управления содержимыми, базы данных, корпоративная электронная почта и корпоративная информационная система. В определенной ситуации может потребоваться выполнить поиск и по документам в этих системах.
И третья вещь – это Интернет. Здесь есть просто сайты, библиотеки, корпоративные сайты, социальные сети и много других источников информации, по которым можно выполнять поиск.
Рисунок Поисковое окружение сотрудника предприятия
На текущий момент существует большое количество исследований на тему поиска в Интернете, но достаточно мало по поводу использования корпоративного поиска. Наша дисциплина будет сосредоточена именно на корпоративном поиске.
Рассмотрим различные уровни поиска:
Персональный или настольный поиск – на данном уровне выполняет поиск по файлам и папкам, находящимся на локальном компьютере, например, по файлам, загруженным из интернета.
Корпоративный поиск. Есть два вида корпоративного поиска – интранет и поиск по публичному сайту. Поиск внутри интранет – это поиск внутри корпоративной сети или информационной системы. Вы можете выполнять поиск файлов или других документов, относящихся к вашей организации, департаменту, но все они доступны в рамках одной корпоративной сети. Поиск по общедоступному сайту - поиск по данным, которые организация опубликовала для общего доступа. Например, сотрудники озона могут искать товары с помощью своего общедоступного корпоративного сайта.
Веб поиск – поиск по общедоступным документам.
Перейдем конкретно к корпоративному поиску, зачем он нужен и какие преимущества он дает. Все преимущества, которые дает корпоративный поиск можно объединить в три большие группы:
Непосредственные преимущества для конечного пользователя – он может быстро найти требуемую ему информацию.
-
Финансовые преимущества:
Сокращение времени поиска информации. Обычно сотрудник проводит 20-50% времени в поисках необходимой ему информации. Сокращая это время, мы делаем его работу более эффективной.
Улучшение поиска по общедоступному корпоративному сайту позволяет повысить уровень продаж – посетители сайта в большей степени находят именно то, что они искали.
-
Преимущества стратегического уровня
Мониторинг тенденций активности поиска – предлагать именно то, что чаще всего ищут пользователи. В большей степени относится к общедоступным корпоративным сайтам.
Отслеживание трендов в поведении пользователей. При выходе нового продукта и публикации информации о нем на корпоративном сайте необходимо, чтобы именно на него совершалась большая часть переходов. Если это не так, то стоит пересмотреть систему поискового ранжирования.
Рассмотрим общую структуру системы корпоративного поиска. Это упрощенная структура и состоит она из следующих частей:
Робот-паук (crawler), который загружает и собирает данные.
Индексатор – механизм, который индексирует содержимое данных, которые собрал робот с предыдущего уровня. Он может как просто создавать индекс, так и, например, выделять какие-либо сущности из этой информации.
Система ранжирования – когда пользователь вводит какой-либо запрос, он получает отсортированный список результатов поиска. Сортировкой как раз и занимается система ранжирования.
Представление пользователю – отображение результатов поиска пользователю – с навигацией, изображениями или какими-либо другими возможностями.
Рисунок Структура корпоративной поисковой системы
Рассмотрим корпоративный поиск на конкретном примере. Здесь мы видим подсистему поиска в системе электронного документооборота БОСС-Референт. Кроме строки поиска у нас есть еще масса дополнительных параметров или фасетов, которые ограничивает результаты поиска.
Рисунок Поиск в СЭД БОСС-Референт
Как мы видим, корпоративный поиск гораздо более сложный, чем обычный веб-поиск, потому как гораздо сложнее выполнить поиск и вернуть именно те результаты, которые пользователь ожидает увидеть.
Отличительные особенности корпоративного поиска:
Сбор и индексирование данных из различных источников и различных форматов данных. Кроме того необходимо выполнять ранжирование результатов, которые относятся к разным сущностям – к веб-страницам, документам, вложенным в них файлам.
Недостаточность простого вывода списка результатов, скорее всего, понадобится выполнять какие-либо дополнительные действия с результатами поиска.
Появление специальных систем корпоративного поиска, которые специализируются на поиске данных из различных источников. По статистике на конец 2011 года 20% организаций имеют такие системы. Статистика предоставлена яндексом.
Недостаточно высокое качество поиска и удобство использования по сравнению с веб-поиском. Нужно задать гораздо больше различных параметров, чтобы хоть что-то найти по сравнению с веб-поиском.
Рассмотрим разницу между корпоративным и веб-поиском, почему для корпоративного поиска не всегда можно использовать те же механизмы, что и для веб-поиска. Рассмотрим отличия на каждом из уровней:
-
Уровень сбора данных
Наличие документов в различных формата – не все форматы удобны и пригодны вообще для сбора данных. Если с текстовыми документами и веб страницами все просто, то для обработки документов из базы данных необходимо сначала собрать эти данные, а затем объединить их в документы, так как в реляционных БД сущность документ будет разделена по нескольким таблицам.
Составные документы или документы, относящиеся к одному логическому объекту или бизнес-процессу. Каждый бизнес-процесс в своей основе имеет набор документов, которые он обрабатывает, все они относятся к нему и должны рассматриваться как единый набор документации. Первая проблема, которая здесь встает, это не только поиск документов по одному бизнес-процессу, но и определение критерия этого поиска.
Удаление документов или выход из строя узлов сети. При выходе из строя некоторого узла сети нельзя со 100% уверенностью сказать, что все документы, которые на этом узле хранились должны быть удалены из индекса, может быть этот узел просто находится на техническом обслуживании.
Ограничение на доступ к документам. В результаты конкретного поиска должны попадать только те документы, к которым конкретный пользователь имеет доступ – он не должен видеть все документы, а только свои.
-
Уровень индексирования
Данные часто полностью или частично структурированы. В рамках корпоративной системы можно, например, организационными мерами обеспечить структурирование информации внутри документа – можно будет определить, кто автор документа, на какую тему этот документ и т.п.
В рамках корпоративного поиска обычно выполняется поиск не просто абстрактной информации, а определенных объектов – документов, сотрудников организации в справочнике организации, принтеров в AD и т.п.
Необходимость работы совместно с корпоративной системой контроля доступа.
Несовпадение словаря терминов – в разных документах одни и те же понятия могут иметь разный смысл и наоборот. Для решения этой проблемы необходимо использование тезауруса, который составлен заранее.
Необходимость индексирования специальных символов, которые в повседневности не имеют смысла, например, регистрационные номера документов.
Наличие более сложного интерфейса поиска – корпоративный поиск должен удовлетворять большему количеству критерий, чем простой поиск.
-
Уровень ранжирования результатов поиска
Результатам поиска может соответствовать только один документ. Когда будут заданы все условия поиска, область поиска может очень сильно сократиться так, что результатом будет один или два документа.
Документы связаны друг с другом только по смыслу, гиперссылок между ними нет.
Документы изначально не размечаются таким образом, чтобы быть более удобными для поиска. В вебе страницы делаются с учетом того, что поисковые системы будут выполнять по ним поиск, в то время как в КИС просто создаются документы, о том, что с ними будут в дальнейшем выполняться какие-либо действия, никто не задумывается.
Использование контекста поиска для выдачи релевантных результатов.
Необходимость получения всех релевантных документов, а не только тех, которые находятся на первой странице.
Нет спама и страниц, которые специально продвигаются.
Многие корпоративные системы имеют свои системы поиска, поэтому необходимо их использование для того, чтобы не выходит за рамки контекста системы. Бухгалтерская система должна выдавать только данные бухгалтерии, и ничего больше.
-
Уровень представления пользователю
Поиск персонализирован, так как есть возможность получить контекст – известен конкретный пользователь, который выполняет поиск и все его предыдущие запросы.
Пользователи не всегда выполняют поиск из браузера, как в корпоративных системах. Пользователь может использовать и специализированные приложения для поиска. Необходимо продумать взаимодействия поисковой ИС с другими системами.
Необходимость дать пользователю больше возможностей для поиска, чем просто страница с полем для ввода запроса и выводом результатов. Вполне возможно, что корпоративному пользователю потребуется найти что-то еще, связанное с текущими результатами.
Как измерить результативность поиска? Методы, которые применяются в веб-поиске не подходят для оценки эффективности корпоративного поиска.
Оценка качества взаимодействия – насколько полно используются все возможности поисковой системы.
Успешность выполнения поставленных задач – насколько хорошо поисковая ИС справляется со своими задачами.
Удовлетворенность пользователей – насколько пользователь удовлетворен работой системы, насколько полно он может ее использовать.
|