Кластеризация
Нельзя сказать, что подобная проблема появилась только сейчас. Вопросы упорядочивания больших и очень больших массивов информации благополучно изучаются десятилетиями, разработаны эффективные методы классификации таких массивов данных. Однако, как правило, это достаточно сложные и дорогостоящие решения, зачастую требующие участия человека-специалиста. Кластеризация за счет небольшой потери в общем качестве существенно удешевляет построение таких классификаций. Таким образом, технологии продвинутой обработки данных наконец-то пошли в массы. Если давать определение понятию "кластеризация", то, наверное, это организация массива документов в тематические группы. От других способов классификации она отличается в первую очередь полной автоматизацией. Кроме того, кластеризация не проводится заранее, тематические группы выделяются уже при отработке поступившего в систему поискового запроса. Кластерный интернет-поисковик в общем виде работает следующим образом. После нахождения массива страниц, соответствующих вашему запросу, система анализирует их содержимое и выделяет ключевые слова, которые встречаются на них вместе с терминами из вашего запроса. В результате формируются подмножества-кластеры страниц, с большой долей вероятности связанных тематически. "Чистых" кластерных поисковиков, мягко говоря, немного. Поисковая машина Ask.com — это старый добрый AskJeeves под новой вывеской, окончательно пересевший на технологии и базы первого крупного кластерного интернет-поисковика Teoma.
История: кластерный поисковик Teoma
Поисковик Teoma ("эксперт") первоначально был вполне самостоятельным проектом, разработанным на базе известного IBM'овского алгоритма HITS. О серьезности подхода разработчиков Teoma к делу говорит тот факт, что данный поисковик работал по самостоятельно собираемой индексной базе, которая благополучно входила в число крупнейших современных сетевых поисковых баз. Однако главной изюминкой Teoma была даже не уникальная база данных, а примененный механизм сортировки результатов поиска, основанный на кластеризации. Для обработки веб-страниц Teoma использовал наработки так называемой "теории сообществ". Весь массив страниц на основе анализа набора встречающихся на них ключевых слов автоматически разделялся на тематические подгруппы-кластеры. Далее начиналось самое интересное. При сортировке списка найденных по запросу ссылок для оценки релевантности результатов и, соответственно, позиции определенной ссылки в этом списке использовался хорошо знакомый по тому же Google алгоритм, учитывавший популярность ресурса и количество ссылок на него с других сайтов. Однако если другие поисковики учитывали все такие ссылки, присутствующие в индексной базе, Teoma рассматривал только ссылки, ведущие на рассматриваемую страницу с ресурсов, относящихся к одному тематическому кластеру. Это значит, что такая оценка становилась, так сказать, более квалифицированной. Действительно, при вдумчивом поиске ссылка с близкого по тематике ресурса по определению должна быть более весомой, поскольку владельцы такого проекта уже определенным образом оценили внешний ресурс, поставив у себя такую ссылку. Кроме улучшения качества поиска, кластеры дали Teoma возможность реализовать некоторые дополнительные сервисы. В 2001 году поисковик Teoma был приобретен компанией AskJeeves, которая использовала полученные технологии для совершенствования собственной поисковой машины. Несколько лет поисковики Teoma и AskJeeves работали параллельно. Сравнительно недавно Teoma приказал долго жить, а проекты окончательно слились под вывеской Ask.com.
Современность: поисковик Ask.com
сайт

На стартовой странице Ask.com, кроме собственно поля поискового запроса, находится панель Search Tools. С ее помощью можно как отправить запрос к различным базам данных (веб, изображения, новости, локальный поиск, словари, фильмы), так и воспользоваться расширенным поиском, а также различными конвертерами. Всего на этой панели находятся ссылки на добрых два десятка инструментов. Содержание разделов Advanced Search и Preferences вполне стандартно. В режиме расширенного поиска можно составить сложный запрос с использованием логических операторов. Среди других опций — фильтр ключевых слов, ограничение по домену или сайту, поиск в заголовках и ссылках, поиск документов на определенном языке. К сожалению, русского среди поддерживаемых языков пока нет, и для нас это главный недостаток данного поисковика.
Давайте перейдем к десерту — запустим поиск по какому-нибудь широкому запросу и посмотрим, чем же Ask.com собирается нас удивить. Страница результатов поиска состоит из трех разделов: собственно списка ссылок и двух дополнительных разделов, отображаемых в виде единой колонки справа от общего списка. Как и у предка Ask.com — поисковика Teoma, рейтинг страницы определяется путем обработки ссылок, ведущих на нее с других сайтов, однако Ask.com учитывает только ссылки с ресурсов, тематически соответствующих запросу, а не со всех проиндексированных страниц базы. Раздел Narrow Your Search работает на уточнение запроса. Здесь кластерная технология проявляется в полной красе: в этом разделе выводятся ключевые слова, которые встречаются в найденных в кластере страницах вместе с ключевыми словами вашего запроса. Щелкая по таким ссылкам, вы переходите к поиску в более узком подмножестве, быстро отсекая ненужные ссылки.


Алексей Кутовенко
Опубликовано: "Компьютерная газета"
Комментариев нет:
Отправить комментарий