2. Проблемы поиска информации в Сети.
2.1. Общие принципы
После знакомства с несколькими глобальными поисковыми машинами Сети, пользователь, как правило, останавливается на одной-двух, с которыми и предпочитает работать в дальнейшем. На основе каких же мотивов делается такой выбор? Рейтинги популярности поисковых систем по опросам читателей, публикуемые такими известными изданиями как PC Magazine, Internet World и другими, оставляют не лучшее впечатление. Эмоции торжествуют над осознанием реальных возможностей, маркетинговые решения над техническими. Так, каталог Yahoo с легкостью одерживает победу над индексами HotBot и Lycos, Excite и WebCrawler - над AltaVista, а одна из крупнейших поисковых машин Northern Light какое-то время безоговорочно проигрывает почти всем.
|
Поисковая машина |
AltaVista |
Excite |
HotBot |
InfoSeek |
Lycos |
Northern Light |
Web Crawler |
|
Показатели индексирования |
|||||||
|
Размер индекса в млн. документов |
150 |
55 |
110 |
45 |
50 |
140 |
2 |
|
Скорость индексирования, документов в день |
10 млн |
3 млн |
до 10 млн |
Нет данных |
от 6 до 10 млн |
более 3 млн |
Нет данных |
|
Время регистрации |
1-2 дня |
2 недели |
2 недели |
2 дня |
2-3 недели |
2-4 недели |
2 недели |
|
Полная глубина индексирования |
Да |
Нет |
Да |
Нет |
Нет |
Да |
Нет |
|
Полная поддержка фреймов |
Да |
Нет |
Нет |
Нет |
Нет |
Да |
Нет |
|
Закрытые паролем узлы |
Да |
Нет |
Да |
Нет |
Нет |
Нет |
Нет |
|
Учет частоты обновления |
Да |
Нет |
Нет |
Да |
Нет |
Нет |
Нет |
|
Особенности поисковых языков |
|||||||
|
Поиск по домену |
Да |
Нет |
Да |
Да |
Да |
Нет |
Нет |
|
Поиск по URL |
Да |
Нет |
Нет |
Да |
Да |
Да |
Нет |
|
Учет регистра |
Да |
Нет |
Частично |
Да |
Нет |
Частично |
Нет |
|
Поиск по заголовку |
Да |
Нет |
Да |
Да |
Да |
Да |
Нет |
|
Использование маски "*" |
Да |
Нет |
Да |
Нет |
Нет |
Да |
Нет |
|
Поддержка NEAR и его ширина |
10 слов |
Нет |
Нет |
Нет |
25 слов |
Нет |
2 слова |
|
Поддержка кириллицы |
Да |
Нет |
Нет |
Да |
Да |
Да |
Нет |
Таблица 1. Сравнительные показатели глобальных поисковых машин общего назначения. Сетевые адреса поисковых машин строятся на базе их имен по шаблону www.имя.com (двусложные имена пишутся слитно)
В нижнем блоке таблицы выделены возможности поисковых языков отдельных систем, которые также допускают специфичное применение.
Так, ключевые слова, входящие в доменное имя узла, сегодня широко используются при поиске всевозможных компаний. Если есть начальные сведения о терминах, которые могут быть включены в названия каталогов или файлов - носителей релевантной информации, то следует использовать поисковые машины, поддерживающие поиск по URL. Даже такая казалось бы незначительная деталь как учет регистра при построении запроса в определенных ситуациях становится крайне полезной. Например, при сборе сведений о Турции (Turkey) системы, которые фиксируют при индексировании регистр каждой буквы слова, позволяют легко избавиться от документов с термином turkey (индюк).
Поиск по заголовку страницы (элемент title) достаточно эффективно применяется, когда разыскиваются организации, особенно с двусложным длинным названием. Односложное название обычно входит в имя домена или в URL как есть, а многосложное формирует аббревиатуру. По домену или URL их легче всего и оказывается локализовать.
|
Полнотекстовая |
Полнотекстовая |
Полнотекстовая |
Полнотекстовая |
Полнотекстовая |
|
|
500.000 |
140.094 |
2.500.000 |
2.000.000 |
2.600.000 |
|
|
20 дней |
3-4 недели |
1 раз в неделю |
перманентно |
раз в сутки (от 10 до 40 тысяч документов) |
|
|
Нет, в проекте да |
Да |
Да, при расширенной выдаче результатов |
Да |
Да |
|
|
20 дней |
- |
7-14 дней |
1-2 дня |
1-15 дней |
|
|
20 дней |
- |
до 3 месяцев |
в зависимости от популярности документов |
лимитируется скоростью обновления индекса |
|
|
5.000 документов на глубину 150 |
20 документов |
Не ограничена |
Не ограничена |
неограничена |
|
|
Да |
Да |
Да |
Да |
Да |
|
|
Возможно |
Нет |
Возможно |
Возможно |
Нет |
|
|
Нет (в проекте - да) |
Нет |
Нет |
Да |
Нет |
|
|
Да |
robots.txt - да META - нет |
Да |
Да |
Да |
|
|
Нет |
Пока нет, в проекте - META-Keywords |
Нет и не будет |
Пока не поддерживаются |
Пока не поддерживаются |
|
|
пока URL |
title |
title или URL и относительная мера релевантности |
title и URL |
title |
|
|
META-таг Description и часть текста документа |
Первые строки документа |
Первые 512 байт документа исключая meta, javascript, images... Существуют еще две формы вывода описания - короткая и длинная |
Выдаются первые 1024 байт текста, мера релевантности, дата создания и объем документа |
Предложения, содержащие слова запроса (1, 3 или до 10) |
|
|
Нет |
Явно - нет, косвенно - указав в качестве критерия URL |
Да |
Пока нет |
Да |
|
|
www.search.ru |
- |
StackRambler/1.2 |
YandexWeb |
Aport |
Таблица 2. Сравнительные показатели отечественных глобальных поисковых машин общего назначения.
Название же компании из двух слов, например, American Cybernetics, не позволяет точно угадать имя сервера (ни www.americancybernetics.com, ни www.ac.com не являются верными). Поэтому в синтаксисе AltaVista запрос title:"American Cybernetics" является наиболее эффективным. Ясно, что лидеры некоторых опросов - поисковые службы Excite или WebCrawler выглядят здесь несостоятельными.
Следует помнить, что одноименные операторы в разных поисковых системах могут иметь неодинаковые свойства. Оператор близости NEAR иллюстрирует этот факт. На запрос типа "термин_1 NEAR термин_2" откликнутся документы, заиндексированные роботами AltaVista, Lycos или WebCrawler, если заданные термины присутствуют в документах в пределах определенной близости друг к другу, неодинаковой для разных систем (см. таблицу).
AltaVista отличается, пожалуй, самым изысканным и гибким языком запросов, требующим однако специального изучения. Но он того стоит. Посмотрите, например, как изящно выглядит запрос на получение электронных текстов Джека Лондона с какого-либо нерусского сервера.
(url:etext) and text:(Jack near London) and not (text:(city or capital) or domain:ru)
Запрос тут же отсекает нерелевантную информацию о столице Великобритании.
Другая черта AltaVista - это многоязыковая поддержка индекса и возможность перевода в режиме on-line текста Web-страницы с распространенных европейских языков на английский.
HotBot отличает от AltaVista шаблонный и поэтому более простой подход к построению запроса, а также богатый набор фильтров для поиска специфических объектов, таких как ActiveX,VRML, VB Script и других.
Northern Light в этом отношении имеет достаточно стандартный набор функций. Система пытается заработать очки на сопровождении уникальной коллекции ссылок (более 5 тысяч записей) в основном на статьи из периодических изданий. Поддержка индексом кириллицы делает его вместе с AltaVista неплохим дополнением к региональным российским поисковым системам Рамблер, Яндекс и Апорт при русскоязычном поиске.
Если нам требуется что-то найти в Internet, мы отправляемся на поисковый сервер и запрашиваем нужную информацию. Можно также послать свой запрос сразу на несколько серверов с метапоисковой страницы, такой как All-in-One (www.allonesearch.com), Inference Find (www.infind. com) или наш российский "Следопыт" (http://www.medialingua.ru/www/ wwwsearc.htm), который, помимо прочего, умеет запрашивать заданные слова во всех формах, а также переводить их с русского на английский и обратно. Еще один вариант - воспользоваться метапоисковой клиентской программой, которая будет отправлять запросы непосредственно с вашей машины, например Copernic (www.copernic.com) или Inforia Quest (www.inforia.com).
Трудоемкие поисковые работы, связанные с масштабным сбором информации из Сети, нуждаются в планировании. Ошибочная логика построения запроса, неоптимизированная последовательность применения инструментов, попытка форсировать поиск - все это не просто затягивает получение результата на дни и даже недели, но может поставить под вопрос смысл всей поисковой кампании.
Рис. 1. Изменение числа заиндекированных на май 1999 года документов (правый столбец) в процентах от их общего количества в Паутине по отношению к апрелю 1998 года (левый столбец) для различных поисковых машин: 1-AltaVista, 2-Northern Light, 3 - HotBot , 4- Excite, 5- Lycos, 6- Infoseek, 7- WebCrawler (по материалам Science magazine и Forrester Research)
Несмотря на постоянный рост индексов поисковых систем, оценки показывают, что увеличение общего числа документов в WWW за последний год с 320 до 550 миллионов в целом ухудшило картину доступности информации. Из гистораммы на рис.1 следует, что доля документов, захваченная отдельным индексом значительно упала и не превышает 30 процентов. Отсюда ясно, что только применение совокупности поисковых машин, способно дать полноценную информационную картину для поисковых задач, при решении которых существенна полнота поиска.
Прецедент существования в Сети необходимых данных лучше всего найти в известном каталоге, поддерживающем поиск по ключевым словам. В целом при решении простых, "любительских" задач уровня "погода в Риме" или "карта метро Лондона" каталог может быть более быстрым источником получения информации, чем на автоматический индекс и при больших гарантиях достоверности.
Вот пример такого каталога, размещенного на одном из продвинутых серверов.
Желтые страницы
Тематический каталог ресурсов,
посвященных различным областям информационных технологий
Параллельные архитектуры и суперкомпьютеры Постоянные конференции и выставки Телеконференции и листы рассылок Тематические каталоги и поисковые системы |
Найдя интересующий сервер, мы можем продолжить поиск внутри него. Естественно, это возможно при наличии на нем поисковой программы.
Введите строку поиска, и Вам будет предоставлены все документы нашего сервера, содержащие эти слова, причем во всех словоформах. Документы будут упорядочены по релевантности.
|
Синтаксис запроса |
|
|
пробел или & |
логическое И (краткое - в пределах одного абзаца) |
|
&& |
логическое И (в пределах документа) |
|
, или | |
логическое ИЛИ |
|
( ) |
группирование слов |
|
~ |
бинарный оператор И НЕ (в пределах одного абзаца) |
|
~~ |
бинарный оператор И НЕ (в пределах документа) |
|
/(n m) |
расстояние в словах (-назад +вперед) |
|
&&/(n m) |
расстояние в абзацах (-назад +вперед) |
|
Зоны: |
|
|
$Title |
- поиск в заголовках документов |
|
$A |
- поиск в ссылках |
Заглавные (прописные) буквы считаются отличающимися от строчных.
Если в запросе слово написано строчными буквами, то поиск будет произведен без учета больших и маленьких букв (без совпадения регистра). Если первая буква в слове прописная, найдутся только те документы, где это слово написано с большой буквы.
Примеры правильных запросов:
беспроводные сети
информационные технологии 99
разработка /1 приложений
(звонок,звонить) (Web, Internet, Интернет)
(модуль|продукт|технология)/(-3 +2)(морфология|лингвистический)
$Title (КомпТек | Dialogic)
$A (Яndex бесплатно)
После лексического анализа информации наступает технологический этап. Выбор информационного поля Сети и поисковых инструментов производится на основе подходов, изложенных ранее.
Используются тестовые запросы из 1-2 ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы по релевантности отклика. В этой работе могут применяться и метапоисковые, и крупные автономные системы. В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов.
На практике часто возникает вопрос - что становится причиной неудачного поиска: отсутствие ли в Сети с высокой вероятностью на данный момент времени информации, релевантной запросу, или то, что эта информация потенциально не доступна для рассматриваемой поисковой системы. "Подводным камнем" этот аспект становится тогда, когда получен ненулевой отклик на поисковый запрос, а доля недополученных данных оказывается неконтролируемой.
Общие замечания
Интрига Сети, которую порождают информационно-поисковые системы (ИПС), связана с особенностями работы алгоритма, ранжирующего результаты в списке отклика. Эти сведения обычно не предаются широкой огласке, но они крайне необходимы Web-мастерам, продвигающим в конкурентной борьбе свои узлы через ИПС Интернета. Попасть в первые несколько десятков записей из списка отклика на ИПС по часто повторяющимся в Сети запросам - значит обеспечить свою доступность для потенциальных клиентов. Обычно в списке отклика появляется информация, которая включает в себя заголовок страницы, адрес и аннотацию. Аннотация берется либо из специального META-элемента, задаваемого автором документа, либо в ее качестве выступают несколько первых нередактируемых строк текста, взятых со страницы. В некоторых случаях указывается язык документа.
Подавляющее большинство ИПС Интернета сегодня активно работает с так называемыми стоп-словами (stop-words). К последним относят служебные части речи, которые не несут смысловую нагрузку, а также некоторые наиболее общеупотребительные в Сети слова, такие как information, Internet, Web, business и другие. Известно, что AltaVista, Excite, HotBot и Lycos применяют в работе технику стоп-слов, а Infoseek и NorthernLight ее не практикуют. При появлении стоп-слов в поисковом запросе без специальных ухищрений ИПС может не учитывать их при поиске и ранжировании результатов, иногда информируя об этом пользователя, иногда - нет. В целом неучет стоп-слов при обработке запроса сокращает время поиска и повышает релевантность отклика. Однако, стоит вам захотеть отыскать что-нибудь вроде классической фразы Шекспира "to be or not to be", состоящей только из стоп-слов, и вы уже не владеете ситуацией.
Наиболее общие принципы выхода из проблемной ситуации следующие: по возможности избегать употребления стоп-слов в запросах, исключить применение логических операторов типа and, or, not и других в тех шаблонах, в которых они не поддерживаются и будут восприняты как стоп-слова. Если же без стоп-слов в запросе нельзя обойтись, то следует включить их во фразу, что во многих системах означает заключение в кавычки. В отдельных случаях полезно протестировать работу шаблонов простого и расширенного поиска ИПС, в которых техника поддержки стоп-слов может быть различной.
|
Один из самых известных сайтов. Материалы для поисковиков и Web-мастеров по всем аспектам работы поисковых систем под редакцией Danny Sullivan. Действует бесплатный список рассылки - более 60 тыс. подписчиков Англ. |
|
|
Обширные и систематически обновляемые материалы по поиску, новости. Англ. |
|
|
Promo.ru., свежие материалы по поисковым машинам и каталогам, освещены русскоязычные поисковые системы. Рус. |
|
|
Редактор сайта Greg R. Notess - автор нескольких бестселлеров об Интернете и стратегиях поиска. Обзоры поисковых систем. Англ. |
|
|
AskScott, материалы по глубинным аспектам поисковых технологий. Англ. |
|
|
Новые статьи по поиску, советы пользователям. Англ |
|
|
Новые статьи по поиску. Англ. |
|
|
Обзор и сравнительная характеристика поисковых языков наиболее известных поисковых машин. Англ. |
|
|
Подборка оригинальных статей по поиску, обновляется систематически. Рус. |
|
|
Ссылки на русскоязычные статьи о системах и секретах поиска, не обновляется, интересен с скорее с "исторической" точки зрения. Рус. |
Таблица 3. Перечень серверов, публикующих информацию о проблемах поиска
Для людей, занимающихся поиском профессионально, на Западе издается журнал "Searchers" ( http://www.infotoday.com/searcher ). В таблице 3 представлен перечень серверов, публикующих информацию о проблемах поиска, а также их краткая характеристика.
2.2. Наличие материалов по отдельным отраслям знаний в Интернете
Поисковая машина www.yahoo.com дает в разделе "Science" следующий перечень:То же в www.altavista.com
Еще www.hotbot.com:
Agriculture (1216) Anomalies and Alternative Science (131) Astronomy (1843) Biology (14350) Chemistry (1417) Conferences (3) Directories (36) Earth Sciences (3381) Educational Resources (250) Environment (2431) Institutions (648) Instruments and Supplies(150)ournals and Magazines (40) Math (2447) Methods and Techniques (756) News (109) Physics (1285) Publications (78) Reference (207) Science in Society (299) Social Sciences (6277) Software (42) Technology (4744)
В скобках указано количество зарегистрированных на данном сервере ссылок по указанному разделу. Например, в последнем случае Agriculture (1216) означает, что по разделу "Сельское хозяйство" дано 1216 ссылок на ресурсы. Фактически, это только первый шаг в дереве поиска ресурсов науки на данной поисковой машине.

Рис. 2. Гистограмма представленности на поисковых машинах различных отраслей науки.
Из приведенной гистограммы видно примерное количественное соотношение ресурсов отображаемых отраслей науки в данных поисковых машинах. Специалисты, работающие в какой-либо отрасли знаний, стремятся обозначить себя в информационном пространстве. Это делается всеми возможными способами, в том числе и путем публикации своих исследований в такой мощной информационной системе, каковой является Интернет. На мой взгляд, достаточно очевидна корреляция между количеством зарегистрированных на поисковых машинах ресурсов и количеством печатных публикаций в данной отрасли науки. Проведя более расширенный поиск ресурсов и, проведя систематизацию полученных данные по времени, можно с достаточной степенью достоверности делать выводы о количестве публикаций по различным тематикам, а, значит, и о приоритетах исследований в различных отраслях науки в различные периоды.
Подобной методикой пользуются многие фирмы, изучающие рынок предложения различных товаров и услуг. Метод хорош тем, что при минимальных затратах обеспечивает в первом приближении достаточную точность и позволяет концентрировать усилия для поиска на вполне конкретных направлениях деятельности. Данная методика очень эффективна при проведении различных экспресс анализов.