Поисковые системы предназначены для того, чтобы пользователи находили нужную для них информацию. Для осуществления связи между поисковыми системами и пользователями используются поисковые запросы.
Алгоритмы поиска подразделяются на ряд классов, большая часть которых нуждается в предварительном индексировании. Если используется прямой поиск, то потребность в индексировании не нужна, так как поиск совершается немедленно. Это осуществляется благодаря просмотру найденных документов по порядку. Одна из самых известных поисковых систем - Яндекс применяет индекс, который основан на инвертированных файлах.
Что же означает определение инвертированные файлы? Это словосочетание подразумевает достаточно не сложное определение, которое встречается в нашей повседневной жизни. Всякий индекс базы данных посредством ключевого поля есть не что иное, как форма инвертированного списка. Однако данные списки могут быть реализованы не только на ПК: словари, где слова перечислены по алфавиту, которые употребляют писатели частота, с которой их употребляют.
Само собой, эффективно работать с таким индексом, нежели без такового. Конкорданс и просмотр по ссылкам позволит Вам быстрее найти нужное слово, чем искать данное слово в книге.
Детальный инвертированный индекс, как Вы понимаете, может оказаться достаточно объемным. Чтобы уменьшить размеры файла используют, как правило, два приёма. Во-первых, нужно минимализировать объём информации, хранящейся в инвертированном файле. Другими словами, нужно удалить всё бесполезное и оставить то, что поистине потребно для подавляющего большинства запросов. Во-вторых, нужно указать относительные адреса. Относительные адреса – это разница адресов между нынешней и предыдущей позициями. Большая эффективность файла достигается путем сжатия, но действительно результативное сжатия – редкость. Распаковка данных – это затрата процессорного времени. Обычно, упакованный инвертированный файл имеет соотношение 7-30 процентов от первоначального текста.
Таким образом, два различных процесса: индексирование (процесс получения документов, переработки, сохранения индекса) и поиск выполняются поисковой системой для нахождения чего-либо. Индекс сделан так, что процесс поиска осуществляется очень быстро и качественно. Также поиск должен искать всё необходимое, распределять полезную и точную информацию без ошибок.
В экономике поисковых систем самым критичным оказывается поиск, нежели индексирование. Потому что, чтобы ответить на такое огромное количество запросов , нужны громоздкие компьютерные комплексы. Главным фактором, определяющим число серверов, является поисковая нагрузка. Отсюда и различные плохие стороны у систем поиска.