Норма АД        29.06.2021   

Поиск информации в сети по заданным критериям. Этап получения новых знаний

Говорят, что в Интернете есть все. На самом деле – это не так. Материалы для размещения в сети готовят живые люди, и потому там можно найти лишь то, что они сочли нужным опубликовать. Впрочем, река питается ручьями, и, благодаря их творчеству сегодня в Интернете уже образовалось около двух миллиардов Web-страниц. В результате каталогизация имеющихся в сети ресурсов стала серьезной проблемой. Несмотря на то, что проблемой занимаются тысячи организаций, она не только не приближается к разрешению, но и становится острее. Процент каталогизированных ресурсов неуклонно падает. В последние годы это падение стало катастрофическим. Так, если в 1999 году процент каталогизированных ресурсов приближался к 40%, то всего лишь за один следующий год он опустился до 25 %.

Вывод простой: пространство Web быстрее наполняется, чем систематизируется.

К сожалению, у нас нет оснований предполагать, что в ближайшее время что-нибудь может измениться к лучшему. В итоге поиск информации в Интернет можно считать одной из самых трудных задач.

Для поиска интересующей вас информации необходимо указать браузеру адрес Web-страницы, на которой она находится. Это самый быстрый и надежный вид поиска. Для быстрого доступа к ресурсу достаточно запустить браузер и набрать адрес страницы в строке адреса.

Адреса Web-страниц приводятся в специальных справочниках, печатных изданиях, звучат в эфире популярных радиостанций и с экранов телевизора.

Если вы не знаете адреса, то для поиска информации в сети Интернет существуют поисковые системы, которые содержат информацию о ресурсах Интернета.

Каждая поисковая система – это большая база ключевых слов, связанных с Web-страницами, на которых они встретились. Для поиска адреса сервера с интересующей вас информацией надо ввести в поле поисковой системы ключевое слово, несколько слов или фразу. Тем самым вы посылаете поисковой системе запрос. Результаты поиска выдаются в виде списка адресов Web-страниц, на которых встретились эти слова.

Как правило, поисковые системы состоят из трех частей: робота, индекса и программы обработки запроса.

Робот (Spider, Robot или Bot) - это программа, которая посещает веб-страницы и считывает (полностью или частично) их содержимое.

Роботы поисковых систем различаются индивидуальной схемой анализа содержимого веб-страницы.

Индекс - это хранилище данных, в котором сосредоточены копии всех посещенных роботами страниц.

Индексы в каждой поисковой системе различаются по объему и способу организации хранимой информации. Базы данных ведущих поисковых машин хранят сведения о десятках миллионов документов, а объемы их индекса составляют сотни гигабайт. Индексы периодически обновляются и дополняются, поэтому результаты работы одной поисковой машины с одним и тем же запросом могут различаться, если поиск производился в разное время.

Программа обработки запроса - это программа, которая в соответствии с запросом пользователя «просматривает» индекс на предмет наличия нужной информации и возвращает ссылки на найденные документы.

Множество ссылок на выходе системы распределяется программой в порядке убывания от наибольшей степени соответствия ссылки запросу к наименьшей.

В России наиболее распространенными поисковыми системами являются:

  • Рамблер (www.rambler.ru);
  • Яндекс (www.yandex.ru);
  • Мэйл (www.mail.ru).

За рубежом поисковых систем гораздо больше. Самыми популярными являются:

  • Alta Vista (www.altavista.com);
  • Fast Search (www.alltheweb.com);
  • Northern Light (www.northernlight.com).

Яндекс является пожалуй наилучшей поисковой системой в российском Интернете. Эта база данных содержит около 200 000 серверов и до 30 миллионов документов, которые система просматривает в течение нескольких секунд. На примере этой системы покажем как осуществляется поиск информации.

Поиск информации задается введением ключевого слова в специальную рамку и нажатием кнопки «Найти», справа от рамки.

Результаты поиска появляются в течение нескольких секунд, причем ранжированные по значимости – наиболее важные документы размещаются в начале списка. При этом ранг найденного документа определяется тем, в каком месте документа находится ключевое слово (в заглавии документа важнее, чем в любом другом месте) и числом упоминаний ключевого слова (чем больше упоминаний, тем ранг выше).

Таким образом, сайты, расположенные на первых местах в списке, являются ведущими не с содержательной точки зрения, а практически, по отношению к частоте упоминания ключевого слова. В связи с этим, не следует ограничиваться просмотром первого десятка предложенных поисковой системой сайтов.

Содержательную часть сайта можно косвенно оценить по краткому его описанию, размещаемому Поисковой системой под адресом Сайта. Некоторые недобросовестные авторы сайтов, для того, чтобы повысить вероятность появления своей Web-страницы на первых местах Поисковой системы, умышленно включают в документ бессмысленные повторы ключевого слова. Но как только поисковая система обнаруживает такой «замусоренный» документ, она автоматически исключает его из своей базы данных.

Даже ранжированный список документов, предлагаемый поисковой системой в ответ на ключевую фразу или слово, может оказаться практически необозримым. В связи с этим в Яндекс (как и других мощных Поисковых Машинах) предоставлена возможность в рамках первого списка, выбрать документы, которые точнее отражают цель поиска, то есть уточнить или улучшить результаты поиска. Например, на ключевое слово список из 34 899 Веб-страниц. После ввода в команду «Искать в найденном» уточняющего ключевого слова список сокращается до 750 страниц, а после ввода в эту команду еще одного уточняющего слова этот список сокращается до 130 Веб-страниц.

Поисковые каталоги представляют собой систематизированную коллекцию (подборку) ссылок на другие ресурсы Интернета. Ссылки организованы в виде тематического рубрикатора, npeдставляющего собой иерархическую структуру, перемещаясь по которой, можно найти нужную информацию.

Приведем в качестве примера структуру поискового интернет-каталога Яндекс.

Это каталог общего назначения, так как в нем представлены ссылки на ресурсы Интернета практически по всем возможным направлениям. В этом каталоге выделены следующие темы:

  • Бизнес и экономика;
  • Общество и политика;
  • Наука и образование;
  • Компьютеры и связь;
  • Справочники и ссылки;
  • Дом и семья;
  • Развлечения и отдых;
  • Культура и искусство.

Каждая тема включает множество подразделов , а они, в свою очередь, содержат рубрики и т. д.

Предположим, вы готовите мероприятие ко Дню победы и хотите найти в Интернете слова известной военной песни Булата Окуджавы «Вы слышите, грохочут сапоги». Поиск можно организовать следующим образом:

Яндекс > Каталог > Культура и искусство > Музыка > Авторская песня

Такой способ поиска является достаточно быстрым и эффективным. В конце вам предлагается всего несколько ссылок, среди которых есть ссылки на сайты с песнями известных бардов. Остается только найти на сайте архив с текстами песен Б. Окуджавы и выбрать в нем нужный текст.

Другой пример. Предположим, вы собираетесь приобрести мобильный телефон и хотите сравнить характеристики аппаратов разных фирм. Поиск мог бы вестись по следующим рубрикам каталога:.

Яндекс > Каталог > Компьютеры и связь > Мобильная связь > Мобильные телефоны

Получив ограниченное количество ссылок, можно достаточно оперативно их просмотреть и выбрать телефон, исследовав характеристики по фирмам и модификациям аппаратов.

Большинство поисковых машин имеют возможность поиска по ключевым словам. Это один из самых распространенных видов поиска.

Для поиска по ключевым словам необходимо ввести в специальном окне слово или несколько слов, которые следует искать, и щелкнуть на кнопке Найти.

Поисковая система найдет в своей базе и покажет документы, содержащие эти слова. Таких документов может оказаться множество, но много в данном случае не обязательно означает хорошо.

Проведем несколько экспериментов с любой из поисковых систем. Предположим, что мы решили завести аквариум и нас интересует любая информация по данной теме. На первый взгляд самое простое - это поиск по слову «аквариум». Проверим это, например, в поисковой системе Яндекс. Результатом поиска будет огромное количество страниц - огромное количество ссылок. Причем, если посмотреть внимательнее, среди них окажутся сайты, упоминающие группу Б. Гребенщикова «Аквариум», торговые центры и неформальные объединения с таким же названием, и многое другое, не имеющее отношения к аквариумным рыбкам.

Нетрудно догадаться, что такой поиск не может удовлетворить даже непритязательного пользователя. Слишком много времени придется потратить на то, чтобы отобрать среди всех предложенных документов те, что касаются нужного нам предмета, и уж тем более на то, чтобы ознакомиться с их содержимым.

Можно сразу сделать вывод, что вести поиск по одному слову, как правило, нецелесообразно, ведь по одному слову очень сложно определить тему, которой посвящен документ, веб-страница или сайт. Исключение составляют редкие слова и термины, которые практически никогда не используются вне своей тематической области.

Имея определенный набор наиболее употребительных терминов в нужной области, можно использовать расширенный поиск. На рис. показано окно расширенного поиска в поисковой системе Яндекс. В этом режиме возможности языка запросов реализованы в виде формы. Подобный сервис, включающий словарные фильтры, предлагается почти всеми поисковыми системами.

Попробуем уточнить условия поиска и введем словосочетание «аквариумные рыбки». Количество ссылок уменьшится более чем в 20 раз. Этот результат нас устраивает больше, но все равно среди предложенных ссылок могут встретиться, например, русские сувенирные наборы спичечных этикеток с изображениями рыбок, и коллекции заставок для Рабочего стола компьютера, и каталоги аквариумных рыбок с фотографиями, и магазины аквариумных аксессуаров. Очевидно, что следует продолжить движение в направлении уточнения условий поиска.

Для того чтобы сделать поиск более продуктивным, во всех поисковых системах существует специальный язык формирования запросов со своим синтаксисом. Эти языки во многом похожи. Изучить их все достаточно сложно, но любая поисковая машина имеет справочную систему, которая позволит вам освоить нужный язык.

Приведем несколько простых правил формирования запроса в поисковой системе Яндекс.

Ключевые слова в запросе следует писать строчными (маленькими) буквами.

Это обеспечит поиск всех ключевых слов, а не только тех, которые начинаются с прописной буквы.

При поиске учитываются все формы слова по правилам русского языка, независимо от формы слова в запросе.

Например, если в запросе было указано слово «знаю», то условию поиска будут удовлетворять и слова «знаем», «знаете» и т. п.

Для поиска устойчивого словосочетания следует заключить слова в кавычки.

Например, «фарфоровая посуда».

Для поиска по точной словоформе перед словом надо поставить восклицательный знак.

Например, для поиска слова «сентябрь» в родительном падеже следует написать «!сентября».

Для поиска внутри одного предложения слова в запросе разделяют пробелом или знаком &

Например, «приключенческий роман» или «приключенческий&роман». Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа.

Если вы хотите, чтобы были отобраны только те документы, в которых встретилось каждое слово, указанное в запросе, поставьте перед каждым из них знак плюс «+». Если вы, наоборот, хотите исключить какие-либо слова из результата поиска, поставьте перед этим словом минус «-». Знаки « + » и «-» надо писать через пробел от предыдущего и слитно со следующим словом.

Например, по запросу «Волга -автомобиль» будут найдены документы, в которых есть слово «Волга» и нет слова «автомобиль».

При поиске синонимов или близких по значению слов между словами можно поставить вертикальную черту «|».

Например, по запросу «ребенок | малыш | младенец» будут найдены документы с любым из этих слов.

Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки

Например, «(ребенок | малыш | дети | младенец) +(уход | воспитание)».

Знак «~» (тильда) позволяет найти документы с предложением, содержащим первое слово, но не содержащим второе.

Например, по запросу «книги ~ магазин» будут найдены все документы, содержащие слово «книги», рядом с которым (в пределах предложения) нет слова «магазин».

Если оператор повторяется один раз (например, & или ~), поиск производится в пределах предложения. Двойной оператор (&&,~~) задает поиск в пределах документа.

Например, по запросу «рак ~~ астрология» будут найдены документы со словом «рак», не относящиеся к астрологии.

Вернемся к примеру с аквариумными рыбками. После про¬чтения нескольких предлагаемых поисковой системой документов становится понятно, что поиск информации в Интернете следует начинать не с выбора аквариумных рыбок. Аквариум - сложная биологическая система, создание и поддержание которой требует специальных знаний, времени и серьезных капиталовложений.

На основании полученной информации человек, производящий поиск в Интернете, может кардинально изменить стратегию дальнейшего поиска, приняв решение изучить специальную литературу, относящуюся к исследуемому вопросу.

Для поиска литературы или полнотекстовых документов возможен следующий запрос:

«+(аквариум | аквариумист | аквариумистика) +начинающим +(советы | литература) +(статья | тезис | полнотекстовый) -(цена | магазин | доставка | каталог)».

После обработки запроса поисковой машиной результат оказался весьма успешным. Уже первые ссылки приводят к искомым документам.

Теперь можно подытожить результаты поиска, сделать определенные выводы и принять решение о возможных действиях:

  • Прекратить дальнейший поиск, так как в силу различных причин содержание аквариума вам не под силу.
  • Прочитать предлагаемые статьи и приступить к устройству аквариума.
  • Поискать материалы о хомячках или волнистых попугайчиках.
  1. Какой вид поиска является самым быстрым и надежным?
  2. Где пользователь может найти адреса Web-страниц?
  3. Каково основное назначение поисковой системы?
  4. Из каких частей состоит поисковая система?
  5. Какие поисковые системы вы знаете?
  6. Какова технология поиска по рубрикатору поисковой системы?
  7. Какова технология поиска по ключевым словам?
  8. Когда в критерии поиска надо задавать + или -?
  9. Какие критерии поиска в Яндексе заданы следующей фразой:

    (няня|воспитатель|гувернантка)++(уход|воспитание|присмотр) ?

  10. Что означает удвоение знака (~~ или ++) при формировании сложного запроса?

Задание.

Задание 1. Поиск по каталогам.

Пользуясь каталогом поисковой системы, найдите следующую информацию (по указанию учителя):

  1. Текст песни популярной музыкальной группы
  2. Репертуар Мариинского театра на текущую неделю
  3. Характеристики последней модели мобильного телефона известной фирмы (по вашему выбору)
  4. Рецепт приготовления украинского борща с галушками
  5. Долгосрочный прогноз погоды в вашем регионе (не менее чем на 10 дней)
  6. Фотография любимого исполнителя современной песни
  7. Примерная стоимость мультимедийного компьютера (прайс)
  8. Информация о вакансиях на должность секретаря в вашем регионе или городе
  9. Гороскоп своего знака зодиака на текущий день

По результатам поиска составьте письменный отчет в Word: представьте в документе найденный, скопированный и отформатированный материал. Предъявите отчет учителю.

Задание 2. Формирование запроса по точному названию или цитате.

Вам известно точное название документа, например «Гигиенические требования к персональным электронно-вычислительным машинам и организации работы». Сформулируйте запрос для поиска в Интернете полного текста документа.

Результат поиска сохраните в своей папке. Предъявите учителю.

Задание 3. Формирование сложных запросов.

  • В любой поисковой системе составьте запрос для поиска информации о русской бане. Исключите предложения об услугах, рекламу банных принадлежностей и прочую рекламу. Сосредоточьте поиск на влиянии русской бани на организм.
  • Составьте сложный запрос на поиск информации по уходу за домашними кошками. Исключите из поиска крупных кошек (например, львов), а также предложения о покупке, продаже, фотографии для обоев и т. п.
  • Текст запроса и результат поиска оформите в Word и представьте учителю.
Задание 4. Тематический поиск.

Всеми известными вам способами выполните поиск в Интернете информации по истории развития вычислительной техники. Поиск производите по различным направлениям: историческая обстановка, техника, личности. Результаты поиска оформите в виде презентации. Используйте в презентации многоступенчатой оглавление в виде гиперссылок.

Думаю, что меня не закидают помидорами, прочитав название статьи. Согласитесь, что без информации мы сейчас и дня прожить не можем. Только для того, чтобы информацией обладать, ее нужно сначала найти. Разве существуют правила поиска информации в Интернете ? — спросите вы.

Предлагаю вспомнить себя новичком в Интернете или оглянуться на своих знакомых, которых у каждого из нас найдется предостаточно. Тех, кто использует Интернет в очень ограниченном количестве. А происходит это зачастую только из-за того, что человек не знает, как правильно составлять поисковые запросы, чтобы найти нужную ему информацию. В результате — сидение на одних и тех же сайтах и ресурсах, не понимая, что под ногами, то есть под руками есть огромный и неизведанный мир.

Как происходит поиск информации в Интернете?

Для начала, давайте определимся, кто для нас находит нужную нам информацию? Главные труженики — это поисковые системы и каталоги. Как верно замечено в справочнике Яндекса, умение искать — это искусство. Вести поиск эффективно при всей простоте интернета, могут далеко не все.

Находят для русского пользователя информацию различные поисковые системы, такие как Google, Yandex, Ramble, Mail, Yahoo… Общих правил поиска у них нет, так что нам предоставляется полная свобода действий. Я предпочитаю использовать Google, так как он имеет лучший в мире алгоритм ранжирования запросов. Для сравнения результатов всегда обращаюсь к Yandex. Если вы будете использовать эти два поисковика, то увидите, что результаты поиска в обоих случаях при одинаковом запросе будут отличаться друг от друга.

Поисковые системы ищут для нас информацию, учитывая следующие критерии:

  • Ключевое слово содержится в заголовке
  • Наличие ключевого слова в адресе домена или в названии страницы
  • Ключевое слово выделено жирным шрифтом
  • Плотность ключевого слова
  • Ссылки на странице и название ключевого слова в тексте ссылки

То есть, поисковой системе нужно проделать огромную работу, чтобы выдать нам результат. Поэтому первое, что мы должны научиться делать, правильно оформлять поисковые запросы, прежде чем их ввести в поисковую строку.

Правила поиска информации в Интернете

1. Сформулируйте несколько запросов по вашему вопросу. Учитывайте при этом, что если вам надо найти реферат о слоне, то по слову слон вы найдете слонов и всего того, что может и не может относиться к слову слон. Это могут быть книги со словом слон в заголовке, это могут быть сайты, статьи, анекдоты, сказки, вообщем все то, к вашему настоящему запросу не имеет никакого отношения. Поэтому пишем коротко и ясно: рефераты о слонах. Для увеличения нажмите на картинку.

Яндекс нам выдал 2 млн ответов, Гугл оценил, что нам будут полезны 335000 страниц. Как видите, придется попотеть, чтобы найти то, что нам действительно нужно.

2. Сузим область поиска. Для этого заключим в кавычки наш запрос, и он будет выглядеть так: «рефераты о слонах». Посмотрим, что получится:


О чудо! Искать придется теперь гораздо меньше! Теперь мы уверены, что на этих страницах, которые нам выдали поисковики, будет информация, связанная с рефератами о слонах.

3. Не забываем о том, что писать поисковый запрос нужно грамотно. От этого также зависит качество выданной нам информации.

4. Поисковый запрос пишем только маленьким буквами. Если мы используем в запросе большие буквы, то не сможем увидеть ответы, где данное слово пишется с маленькой буквы. Используйте заглавные буквы только в именах собственных.

5. Активно используем поиск в картинках. Обычно, картинки имеют подписи при загрузке, в которых могут прописаны именно ваши ключевые слова.

6. С помощью знаков + и — можно указать какие слова мы хотим или не хотим видеть. Например, при запросе «зеленый чай» можно отметить знаком (-) слово пакетированный. В этом случае, можете рассчитывать на то, что информацию о зеленом чае в пакетиках вы не увидите.

7. Знак | сможет дать понять поисковым системам, что вы хотите найти «или-или». Если вы спросите «как написать реферат|оформить реферат», то в ответах у вас будут и как написать реферат и как его оформить.

8. Знаком! мы указываем, что хотим знать точную информацию по конкретному слову. Например, при поиске запроса!слон, мы увидим точное соответствие данному слову без словоформ. То есть, в поиске не будут отображены различные формы слова «слон» — слоны, слонов, слонами, о слонах и т.д.

9. Принимайте во внимание, что через какое-то время поиск может выдать вам совершенно другую информацию. Поэтому найденную информацию, если она вам действительно важна, лучше всего сохранять в избранном или в закладках браузера. Используйте систему хранения информации в своем браузере с помощью папок, их можно создавать прямо на панели, нажав правой кнопкой мыши и выбрав «добавить папку». Я предпочитаю сохранять с метками в Evernote, можете прочитать о моем любимом помощнике в статье

10. Используйте функции расширенного поиска поисковых систем, если вам нужны уточнения по датам, географии, языку, формату файла.

11. Не пренебрегайте поиском на 2-й и последующих страницах. Часто бывает, что свежая и новая информация еще не успела попасть в ТОП 10, поэтому ее придется поискать. Иногда, свои ответы я нахожу на пятой, или даже десятой странице.

12. Если вам постоянно нужна информация по конкретной сфере деятельности, используйте для сбора информации социальные сети, сообщества, группы, форумы, каталоги. Рассылка Subcribe может предложить вам большое количество специализированных, тематических групп, которые будут постоянно присылать вам новую информацию. Самое нужно вы также можете сохранять в закладках или в Evernote.

Если эта статья для вас оказалась полезной и интересной, поделитесь ею с друзьями, нажав на кнопку любой социальной сети.

Есть такой тип людей, которые просто обожают употреблять большое количество красивых метафор. Вот такие люди сравнивают всемирную сеть со свалкой. Будто бы в сети все свалено в большую кучу и черт там может сломать ногу. Будто бы в сети есть все, но чтобы что-то найти, приходится перекопать огромные горы мусора.

Ну что ж, красивая метафора. Только это не означает, что она верна. Вот у многих людей на столе, на первый взгляд, навалено огромное количество бесполезных вещей. Но для тех людей, которые за этими столами работают, расположение вещей поддается вполне определенной логике. Те вещи, которые необходимы наиболее часто, как, например, чайная кружка, лежат на расстоянии вытянутой руки. А те вещи, которые необходимы не всегда, расположены дальше. И это никак нельзя назвать свалкой или беспорядком.

В Интернете также есть своя логика. Если вы будете знать несколько правил и использовать их при поиске, то любая информация из Интернета будет, как кружка для чая, находиться на расстоянии вытянутой руки, и ощущение, что Сеть - это свалка, сразу же исчезнет.

В этой статье мы поговорим о поисковых системах и правилах поиска в Интернете.

УСТРОЙСТВО ПОИСКОВОЙ СИСТЕМЫ

Для начала - маленькое лирическое отступление об устройстве поисковой системы. Так устроено, что пользователь видит только лишь интерфейс самой системы, то есть строку поиска, а все, что находится внутри системы, так там и остается.

Первая составляющая поисковой системы - это так называемый "паук", поисковый робот. Каковы его функции? Он странствует по всей Сети, просматривая интернет - страницы, посещая ссылки. И все это он делает без остановок. Странствует паук не для собственного удовольствия. Он заносит в индекс поисковой системы абсолютно все страницы, которые просмотрел. Заносит их в виде значащих слов, которые встречаются на странице.

Таким образом, получается, что индекс, вторая составляющая поисковой машины, представляет собой огромнейшую базу данных, при помощи которой есть возможность быстро узнать, на каких страницах в Сети встречается слово поиска. Информация для справки - весь объем индекса известной всем поисковой системы Yandex составляет более восьмидесяти гигабайт.

Третья составляющая после индекса - собственно сама поисковая машина. Ее назначение - поиск нужных слов или фраз в индексе. Запомните, что поисковая система не занимается поиском во всем интернете - это не так. Только представьте, что это действительно так: например, весь объем проиндексированной информации на Yandex составляет 269 гигабайт. И если бы не было индекса после ввода вашего запроса, системе бы пришлось загрузить и просмотреть 260 гигабайт информации. Это нереально. Только подумайте, сколько времени уйдет на обработку одного единственного запроса.

Следуя из того, что поиск осуществляется не во всей Сети, а по индексу, напрашиваются два вывода. Во-первых, если поисковая система не нашла какой-то информации, это вовсе не означает, что этой информации в Сети нет, ее нет в индексе конкретно этого поисковика. Во-вторых, системы поиска информации в сети отличаются друг от друга не только интерфейсом, но и, к примеру, индексом и методами его составления. Следовательно, если вы не нашли нужной вам информации в одной поисковой системе, необходимо поискать ее в другой.

Поисковый робот, который составляет индекс, обходит все сайты по кругу и очень регулярно - таким образом, индекс всегда правильно показывает изменения, которые произошли на сайте. Сайты, которые только появились "паук" может найти самостоятельно, попав на них по ссылке с других сайтов. Также авторы сайтов могут дать знать о своем сайте "пауку".

Последняя составляющая поисковой системы - ее World Wide Web-сервер, который является лицом системы. Это интерфейс, при помощи которого пользователи делают запросы и получают на них ответы. World Wide Web-сервер - это лишь одна из частей системы, причем не самая крупная.

ЯЗЫК ПОИСКОВЫХ ЗАПРОСОВ

Для того, чтобы общаться с поисковыми системами, существуют специальный язык и специальные правила. Конечно, было бы просто великолепно, если бы на ваш вопрос сразу же выдавался исчерпывающий ответ. Но сейчас над этим только ведутся работы.

Для начала необходимо выделить ключевые слова. Надо решить, какие несколько слов более полно охарактеризуют то, что вы ищете и вводить именно эти слова. Вы скажете, что это очевидно. Да, это так. Но вы удивитесь, узнав, что многие люди вводят в строку поиска.

На Yandex есть хорошая вещь, называемая "прямой эфир" . Это страница, на которой можно увидеть 20 последних запрашиваемых фраз или слов. Понаблюдайте за этой страницей подольше, и вы испытаете множество разных чувств. Некоторые запросы можно заносить в отдельную книгу - настолько они поразительны. Глядя на некоторые запросы, вы поймете, что так искать точно НЕ надо.

Обычно, огромный процент запросов не несет в себе никакой ясности: "видео", "тв", "скачать" и так далее. Запрашивающие думают, что система сама должна догадываться, что же пользователи от нее хотят. Формируйте поисковый запрос четче, и чем конкретнее он будет, тем меньше ненужных результатов выдаст поисковик.

Некоторые поисковые системы различают одинаковые запросы, но начинающиеся с большой или маленькой буквы. Например, Яндекс выдаст разное количество результатов поиска, а система Google регистр игнорирует.

Используя знаки "+" и "-", можно либо исключать слова из поиска, либо делать их обязательными. При этом между знаком и словом не должно быть пробела. Это правило действует во всех поисковых системах.

В этом запросе мы ищем с вами интернет-магазины компьютерной техники, не специализирующиеся на ноутбуках, а в следующем, наоборот, те магазины, которые эти самые ноутбуки продают.

Как видите, поисковая система действительно выдала разные результаты.

Если в вашем запросе несколько слов просто разделены пробелами, то поисковая система будет искать те страницы, на которых эти слова входят в состав одного предложения. Ну а если вы хотите найти документ, в котором содержится любое слово из перечисленных вами в запросе, необходимо использовать знак "|".

Яндекс выдал просто чудовищное количество результатов, а все по тому, что теперь мы ищем не конкретное словосочетание, а все результаты содержащие любое из этих популярных слов. Вообще такой запрос наиболее удобно делать, если есть много слов синонимов.

Если вы хотите найти устойчивые словосочетания, то вводите их в кавычках. Это можно применить, если вы, например, ищите строчки из каких-нибудь литературных произведений или цитаты.

Как видите, конкретизировав запрос и дав задание поисковику искать конкретно это предложение, мы получили уже заметно меньшее количество результатов.

ЗАКЛЮЧЕНИЕ

Используя все вышеперечисленные методы, вы без труда найдете нужную вам информацию. Благо, поисковых систем хватает. Однако, существует огромное количество задач, выполнить которые поисковые системы не в силах.

Представим следующую ситуацию: вам срочно требуется лучший в городе системный администратор. Как вы будете его искать? Например, вы можете дать объявление в газету, а потом несколько месяцев отвечать на множество телефонных звонков. А можете прийти в специализированное агентство и достаточно быстро найти там подходящую кандидатуру.

Точно так же и с поисковыми системами - они рассчитаны на охват как можно большего количества информации. Если же вам нужно найти что-то особенное, тут есть смысл использовать специализированные поисковые системы, которые ищут по различным областям.

В заключении хотелось бы дать один совет. В рамках этой статьи мы дали вам лишь обобщенную информацию по составлению поисковых запросов. На самом же деле каждая поисковая система имеет свой расширенный язык запросов. Не поленитесь изучить возможности синтаксиса запросов своей любимой поисковой системы. В будущем это значительно упростит поиск необходимых материалов. В помощь вам ссылки на справочные материалы двух самых популярных поисковиков:

Проблема поиска и средства его организации

Гигантские и непрерывно увеличивающиеся объемы доступной в Интернет информации, в т.ч. оперативной, делает проблему поиска необходимых сведений весьма актуальной и сложной. Скорость поиска нужной информации определяет в значительной степени профессионализм пользователя Интернет. Стоит сказать, для автоматизации ϶ᴛᴏй задачи разработаны различные, как зарубежные, так и отечественные системы поиска, представляющие собой Web-страницы специального вида. При этом, несмотря на наличие многочисленных средств автоматизации поиска, эта задача остается достаточно трудоемкой, требующей от пользователя определенного опыта, интуиции, знания терминологии, используемой в его предметной области.

По оценке, опубликованной в журнале Nature от 8 июля 1999 г., число публично индексируемых Web-страниц составляло 800 млн. Спустя год автор исследования (Стив Лоуренс из института NEC Research Institute) полагал, что их число увеличилось почти вдвое – до 1,5 млрд. Даже лучшие поисковые механизмы индексируют не более чем одну страницу из шести. Стоит сказать, для того ɥᴛᴏбы извлечь полезную информацию из сети Интернет, нужно знать, где и как вести поиск.

Имеющийся в Internet Explorer инструмент Поиск упрощает обращение к средствам поиска, избавляя от знания адресов поисковых машин. При этом лучше непосредственно обращаться к поисковым системам, загружая ϲᴏᴏᴛʙᴇᴛϲᴛʙующую страницу.

По способу организации поиска и по предоставляемым возможностям все средства поиска могут быть условно разбиты на следующие группы:

каталоги и специализированные базы данных;

поисковые системы;

метапоисковые системы.

Каталоги и базы данных

Каталоги в WWW аналогичны систематическим библиотечным каталогам. Поиск по каталогам состоит в последовательном движении по иерархическому списку ссылок, называемых рубриками или категориями. На первой странице каталога содержится ссылки на крупные темы, например, Культура и искусство; Медицина и здоровье; Общество и политика; Бизнес и экономика; Развлечения и др. Щелчок мыши на ϲᴏᴏᴛʙᴇᴛϲᴛʙующей ссылке (категории) открывает страницу, содержащую ссылки, детализирующие выбранную тему (рубрику) Двигаясь вниз по детализирующим категориям, можно найти страницу с нужной информацией. На каждой странице, открываемой при движении по каталогу тем или иным способом, указывается последовательность просмотренных вложенных рубрик, например, Деловой мир: Финансы: Аналитика и т.д.

Все каталоги создаются и поддерживаются в актуальном состоянии вручную специалистами, аналогично тому, как библиографы составляют и поддерживают библиотечные каталоги. Уместно отметить, что описание документа делается либо составителями каталога, либо автором. Благодаря ϶ᴛᴏму, содержание страниц, включенных в каталог, наиболее адекватно ϲᴏᴏᴛʙᴇᴛϲᴛʙует рубрике, к кᴏᴛᴏᴩой они отнесены. Но, учитывая скорость пополнения и изменения информации в Интернет, «ручной» способ ведения каталогов не позволяет равноценно отражать реальное состояние ресурсов Интернет на данную тему.

Поисковые системы

(поисковые машины, поисковые серверы, поисковые роботы)

Существуют десятки крупных и тысячи малых и специализированных Web-узлов, предназначенных для поиска в Интернете. Средства поиска ϶ᴛᴏй группы позволят пользователю по определенным правилам сформулировать требования к необходимой ему информации (с помощью языка запросов создать запрос) После ϶ᴛᴏго машина поиска автоматически просматривает документы на контролируемых (индексируемых) ею сайтах и отбирает те из них, кᴏᴛᴏᴩые, «по мнению» поискового сервера, ϲᴏᴏᴛʙᴇᴛϲᴛʙуют сформулированным пользователем требованиям (релевантны запросу) В поисковых узлах могут быть использованы собственные индексы Интернета, постоянно обновляемые особыми программами, называемыми пауками (spiders) Программа-паук обследует Web, проверяя каждую ссылку на данной странице, затем на страницах, адресуемых ссылками, и т. д., и сообщает ϲʙᴏему владельцу сведения обо всех страницах для последующей индексации.

В результате поиска создается одна или несколько страниц, содержащих ссылки на релевантные запросу документы (Web-страницы) Стоит сказать, для каждой ссылки обычно также указываются дата создания документа, его объем, степень ϲᴏᴏᴛʙᴇᴛϲᴛʙия релевантности запросу, фрагменты текста, характеризующие содержание документа. Щелчок мышью на такой ссылке позволяет загрузить заинтересовавшую страницу. В случае очень большого количества найденных документов можно уточнить запрос и в ϲᴏᴏᴛʙᴇᴛϲᴛʙии с ним повторить поиск, но только среди отобранных страниц (такой поиск в разных машинах называется по-разному, но обычно ϶ᴛᴏ – искать в найденном) В ряде машин поиска можно определенным способом поменять ссылку на страницу, содержание кᴏᴛᴏᴩой в наибольшей степени удовлетворяет вашим потребностям, и повторить поиск, потребовав искать похожие.

Достоинство автоматизированного поиска состоит по сути в том, что он обеспечивает просмотр очень больших объемов информации, имеющейся в Интернет в данный момент. При этом сложность точного описания запроса, адекватно отражающего ваши информационные потребности, а также еще большая сложность задачи автоматического определения степени ϲᴏᴏᴛʙᴇᴛϲᴛʙия вашему запросу просматриваемых страниц, приводит к тому, что количество страниц, отобранных «с первого захода»традиционно или очень мало, или чрезмерно велико. В целом поиск с использованием поисковой машины представляет собой итерационный (многоходовой) процесс, в результате кᴏᴛᴏᴩого постепенно уточняется форма запроса.

Метапоисковые системы

Как отмечалось выше, любая поисковая система просматривает определенный набор серверов и отбирает документы в ϲᴏᴏᴛʙᴇᴛϲᴛʙии с присущими ей критериями. В итоге поиск разными системами по одним и тем же ключевым словам дает различные результаты. Это привело к идее создания так называемых метапоисковых (или мультипоисковых) систем, кᴏᴛᴏᴩые сами ничего не ищут, но обращаются за помощью сразу к нескольким поисковым системам. Отметим, что каждая из метапоисковых систем имеет ϲʙᴏй язык запросов. Система переводит сформулированный на ее языке запрос на языки запросов, используемые каждой машиной поиска. Далее, результаты поиска всеми системами объединяются и представляются в ϲᴏᴏᴛʙᴇᴛϲᴛʙующей форме. Естественно, что поиск с помощью метапоисковых систем занимает большее время по сравнению с обычными системами поиска.

Обзор наиболее популярных поисковых систем

В Интернет имеется большое количество поисковых систем, и каждый пользователь ориентируется на ту, к кᴏᴛᴏᴩой он привык или кᴏᴛᴏᴩую ему посоветовали его коллеги. Воспользуемся краткой характеристикой наиболее популярных поисковых систем, кᴏᴛᴏᴩая приводится на одном из сайтов.

1. Google (www.google.com) Самая быстрая и самая большая поисковая система. Проиндексировано более 1,3 миллиарда страниц (из них полностью - немногим более 700 миллионов, про остальные известен только адрес и текст ссылки) Нормально ищет по русскоязычным ресурсам (разумеется, без словоформ), есть возможность выбрать язык интерфейса. Можно включать/исключать результаты с определенных сайтов и/или доменов. В отличие от большинства поисковых систем, Google оценивает популярность ресурса по количеству ссылок, ведущих к нему с других страниц. Присутствует тематически ориентированный поиск - Apple Macintosh, BSD UNIX, Linux, правительство США и University searches - поиск в ресурсах ведущих научных и учебных институтов.

2. Яndex (www.yandex.ru) Лучшая из поисковых систем отечественного производства. Индексирует в основном русскоязычные ресурсы, при ϶ᴛᴏм по возможностям не уступает зарубежным системам. Поиск можно осуществлять точно или в любых словоформах, с ограничением по дате, с указанием сайта или его поддиректории. Можно вести поиск с учетом так называемого индекса цитируемости, искать изображения, скрипты, апплеты; задавать язык документа. Нужные ссылкитрадиционно обнаруживаются уже в первой десятке результатов. Имеет "облегченную" версию (с минимумом элементов дизайна) на http://www.ya.ru.

3. AltaVista (www.altavista.com) Предоставляет большое расширение критериев поиска: в Advanced search есть выбор отрезка времени, к кᴏᴛᴏᴩому относится дата создания или изменения ресурса, поддержка 25 языков; присутствует возможность выдачи одного результата на сайт (϶ᴛᴏ сужает круг поиска без ущерба для качества) Power search имеет стандартный набор возможностей. До недавнего времени AV была крупным порталом, но по причинам финансового (и не только) характера значительно сократила количество сервисов.

4. Yahoo! (www.yahoo.com) Важно заметить, что один из первых поисковых серверов в Интернет. Помимо стандартного набора функций, позволяет отбирать ресурсы по дате (4 года, 1, 3, 6 месяцев, неделя, 1, 3 дня) Поддерживает возможность указания знака "*" вместо любой последовательности символов в ключевых словах. На Yahoo! составлен большой структурированный каталог категорий (categories) Сначала поиск осуществляется в них, потом в собственном архиве, потом - с использованием системы Google. Поиск в категориях дает хорошие результаты - их немного и ϲᴏᴏᴛʙᴇᴛϲᴛʙие хорошее.

5. Lycos (www.lycos.com) В последнее время - одна из самых популярных систем. При всем этом никаких особенных возможностей она не предоставляет - "AND" "OR", поиск фраз, обязательное присутствие/отсутствие слова; в расширенных возможностях - поиск в названии, URL, имени хоста и/или названии домена; 25 языков, включая русский, - словом, весь "общепринятый" набор. Можно указать тип содержания ресурса - авто, книги, ftp, download, новости и т.д. Очевидно, популярность Lycos - следствие масштаба ϶ᴛᴏго крупного проекта.

6. Рамблер (www.rambler.ru) До недавнего времени самая известная русская поисковая система. Расширенный поиск не позволяет искать фразы, а обычный поиск до февраля ϶ᴛᴏго года редко выдавал приемлемые результаты. С февраля в ϶ᴛᴏй системе используется улучшенный механизм поиска, сменился дизайн, но по качеству Rambler все равно не сравнялся с Яндексом и Апортом (по мнению автора, проводящего анализ поисковых систем) На сайте присутствует рейтинг-каталог ресурсов Rambler Top 100, один из признанных источников статистической информации об интернет-проектах.

7. Апорт (www.aport.ru) Другой хороший русский поисковый сервер. Поиск ведется по тексту (только во всех словоформах) и по URL, с использованием логических операторов и оператора "…" (однако стоп-слова во фразе все равно игнорируются), по дате и в отдельных полях (название, описание и т.д.), поддерживаются мета-символы * и! Представление результатов поиска наиболее хорошо оформлено по сравнению с остальными русскими поисковыми машинами. Некᴏᴛᴏᴩые сомнения вызывает дизайн главной страницы, кᴏᴛᴏᴩая явно перегружена информацией. Имеется немного более "легкая" версия на http://aport.ru.

Как выбрать поисковую машину

При поиске в Интернет важны две составляющие - полнота (ничего не потеряно) и точность (не найдено ничего лишнего) Обычно ϶ᴛᴏ все называют одним словом - релевантность, то есть ϲᴏᴏᴛʙᴇᴛϲᴛʙие ответа вопросу.

1. Охват и глубина

Под охватом имеется в виду объем базы поисковой машины, кᴏᴛᴏᴩый измеряется тремя показателями – общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается – существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

Как проверить: Некᴏᴛᴏᴩые машины пишут на ϲʙᴏем сайте статистику робота. Но можно проверить и самому – надо задать несколько поисковых запросов, состоящих из одного слова (ɥᴛᴏбы исключить влияние языка запросов, в т.ч. – различного трактования пробела), и при ϶ᴛᴏм смотреть на статистику результатов, выдаваемую машиной – обычно в начале списка указано, сколько всего было найдено документов. Помимо того, что слова должны быть из разных областей, хорошо еще взять слова разных весов – редкие, «средние» и «тяжелые» (частотные), и сравнить количество найденного. Тяжелые слова, в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой машины.

Глубину хождения робота проверить сложнее - для ϶ᴛᴏго надо взять какие-то сайты, например, с разветвленной структурой архивов, и проверить, проиндексированы ли документы, на кᴏᴛᴏᴩые можно попасть только, например, за 6 переходов по ссылкам.

2. Скорость обхода и актуальность ссылок

Скорость обхода Сети показывает, насколько быстро происходит индексация свежедобавленного ресурса и насколько быстро обновляется информация в базе. Не стоит забывать, что важным показателем качества поисковой машины (ее робота) будет не только захват новых территорий: но и отслеживание состояния уже охваченных. Сервера исчезают и побудут, страницы на них обновляются. Ссылки, кᴏᴛᴏᴩые выдает поисковая машина в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно ϲᴏᴏᴛʙᴇᴛϲᴛʙовать запросу.

Как проверить: Объективную информацию можно получить, проанализировав логи серверов – робот поисковой машины представляется обычно именем ϲʙᴏей машины (или похожим образом), так что можно увидеть, как часто он бывает на сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения бывает доступен лог только ϲʙᴏего сайта, по϶ᴛᴏму остается экспериментальный способ.

Для определения скорости обхода надо создать где-нибудь страничку текста, добавить ее в поисковые машины и посмотреть, как быстро она начнет находиться. Или изменить уже имеющуюся страничку. Стоит сказать, для определения актуальности ссылок – проверить документы хотя бы на первой странице списка найденного по нескольким запросам. Сообщение Not Found свидетельствует о том, что документ более не существует.

3. Качество поиска (субъективный показатель)

Стоит сказать, что каждая поисковая машина имеет ϲʙᴏи алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.

Как проверить: Только путем эксперимента. Рекомендуется для сравнения делать запросы разной длины. Можно также использовать язык запросов, при ϶ᴛᴏм те, кому неохота читать описание, могут воспользоваться развернутой страницей запроса («расширенный поиск» в Апорте и Яндексе, «детальный запрос» в Рэмблере – варианты перевода на русский язык «advanced search»)

Кроме релевантности, существуют важные пользовательские характеристики.

4. Скорость поиска

В случае если поисковая машина отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой машины, но и от Интернет-каналов.

Как проверить: Путем эксперимента – надо поискать запросы разной длины, разной <тяжести> слов и в разное время суток (загрузка серверов существенно неравномерна по суткам, пик – около трех-четырех часов дня)

5. Поисковые возможности (работа с языком документа, язык запросов)

Еще один пункт сравнения - что именно и как поисковая машина вносит в индекс. Стоит сказать - полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме ϶ᴛᴏго, в языке HTML существуют тэги, кᴏᴛᴏᴩые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.)

Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех машин. Некᴏᴛᴏᴩые умеют искать словосочетания или слова на заданном расстоянии - ϶ᴛᴏ часто важно для получения разумного результата. Дополнительной возможностью будет поиск в зонах документа – заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная возможность языка запросов - естественно-языковый запрос, кᴏᴛᴏᴩый не требует знания операторов.

Как проверить: Обычно эта информация публикуется на сервере поисковой машины (в Help"е) Отметим, что тем не менее, рекомендуется проверить на реальных запросах, поскольку иногда желаемое выдается за действительное.

6. Дополнительные удобства

Это - дополнительные возможности, кᴏᴛᴏᴩые предоставляет пользователям поисковая машина. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой машины, и возможность его персонализации.

Как проверить: Информация может быть частично опубликована на сервере поисковой машины, но лучше всего попробовать самому поработать с данными возможностями.

Понятно, что указанный анализ займет некᴏᴛᴏᴩое время. Кроме ϶ᴛᴏго, поисковые машины, как и весь Интернет, не стоят на месте. При этом, учитывая, что поиск информации – одна из важных составляющих компьютерных технологий, ϶ᴛᴏму стоит уделить достаточное внимание – по крайней мере, не меньшее, чем умению работать в локальной сети.

На Yandex.ru был проведен опрос: зачем нужен Интернет и чего в нем не хватает (http://www.yandex.ru/polling/9.html) В порядке убывания данные опроса распределились следующим образом: Интернет используют как справочник (23,76%), инструмент исследования (15,.45%), развлечение (14,15%), и только на четвертом месте - источник новостей (12,32%) Оптимистично прозвучало, что 10% пользователей всегда, а 73% часто удается найти нужную информацию. А не хватает в Интернете: информации, хорошего поиска и порядка (в т.ч.: упорядоченности, структуры, структурности, структурированности, структуризации, а также системы, систематизации, системности, систематичности и систематизированности)

ОТВЕТЬТЕ НА ВОПРОСЫ:

Назовите, какие способы организации поиска существую в сети Интернет?

Как осуществляется поиск информации в каталогах и базах данных?

Как заносится информация в каталоги и базы данных?

Что в Интернет относится к поисковым системам?

Как формируется информационная база данных в поисковых машинах?

С чего начинается поиск информации в поисковых системах?

Что такое запрос?

Как осуществляется поиск информации в поисковых машинах?

Что понимают под релевантностью запросу?

Что можно предпринять в случае очень большого количества найденных документов при дальнейшем поиске?

Что такое метапоисковые системы?

В чем состоит принципиальное отличие метапоисковых систем от обычных поисковых машин?

Какие из следующих систем будут метапоисковыми:

Назовите наиболее популярные отечественные поисковые системы?

Назовите наиболее популярные зарубежные поисковые системы?

Какие две составляющие важны при поиске информации в сети Интернет?

Какие характеристики определяют эффективность поисковых систем при проведении поиска информации в сети Интернет?

Пользовательское соглашение:
Интеллектуальные права на материал - Информационные компьютерные сети - Борисов Н.А., Лукин А.А. принадлежат её автору. Данное пособие/книга размещена исключительно для ознакомительных целей без вовлечения в коммерческий оборот. Вся информация (в том числе и "Тема 3. Поиск информации в сети ИНТЕРНЕТ") собрана из открытых источников, либо добавлена пользователями на безвозмездной основе.
Для полноценного использования размещённой информации Администрация проекта сайт настоятельно рекомендует приобрести книгу / пособие Информационные компьютерные сети - Борисов Н.А., Лукин А.А. в любом онлайн-магазине.

Тег-блок: Информационные компьютерные сети - Борисов Н.А., Лукин А.А., 2015. Тема 3. Поиск информации в сети ИНТЕРНЕТ.

(С) Юридический репозиторий сайт 2011-2016

Поиск информации в Интернете

Поиск информации в Интернете

Для поиска информации в обычно используются три способа (См. Рис.1). Первый из них - поиск по адресу. Он применяется, когда пользователю известен адрес информационного ресурса, содержащего необходимую ему информацию. При организации поиска информации по адресу (форма адреса - IP, доменный или URL - в этом случае значения не имеет) пользователю достаточно просто ввести адрес ресурса в соответствующее поле браузера - программы, предназначенной для обеспечения доступа к сетевым ресурсам.

Рис. 1. Способы поиска информации в гипертекстовых базах данных

Второй - поиск с помощью навигации по гиперсвязям. При использовании этого вида поиска случае пользователь сначала должен получить доступ к серверу, связанному с соответствующей БД. После этого можно найти документ, используя гиперссылки. Очевидно, что этот способ удобен, когда адрес ресурса неизвестен пользователю. Для использования в качестве исходной точки для поиска при реализации этого способа предназначены Web-порталы - серверы, предоставляющие прямой доступ к некоторому множеству серверов, включая установленные на них информационные ресурсы, а также Web-приложения, которые реализуют Web-сервисы, соответствующие назначению портала. Доступные через портал серверы могут относиться к определенной системе (например - корпоративной) или различным системам и быть специально подобраны по видовому, тематическому или другим признакам документов и данных, содержащихся на их сайтах. Обычно порталы совмещают в себе разнообразные функции с целью удержать клиента как можно дольше. Доминирующим сервисом портала является сервис справочной службы: поиск, рубрикаторы, финансовые индексы, информация о погоде и т.д. Если Web-сайты в большинстве случаев представляют собой наборы статических Web-страниц, то порталы являются совокупностями программных средств и заранее неструктурированной информации, которую эти средства превращают в структурированные данные по запросу конкретных пользователей.

Третий способ поиска предполагает использование поисковых серверов Интернета. Поисковыми серверами называют выделенные хост - компьютеры, в которых размещаются базы данных ресурсов Интернета. Пользовательский интерфейс такого сервера имеет поле для ввода ключевых слов, описывающих тему, интересующую пользователя (См. Рис. 2).

Рис.2. Вид окна поискового сервера системы Яндекс

Эти слова сервер воспринимает как информационный запрос, в соответствии с которым он осуществляет поиск ресурсов и представляет список найденных документов пользователю. Очевидно, что при реализации этого способа возможны ошибки как 1-го (пропуск цели), так и 2-го рода (информационный шум). Следует упомянуть, что различаются две группы поисковых серверов: поисковые машины и предметные каталоги. Их отличие обусловлено способом создания и последующего пополнения базы данных ресурсов Интернета, которой данный сервер осуществляет информационный поиск. Так, поисковые машины имеют в своем составе специальную программу - поисковый робот. Она осуществляет постоянный мониторинг сети, собирает информацию с Web- страниц, индексирует их и фиксирует их поисковый образ в своей базе данных. В предметных каталогах база данных о документах Интернета формируется «вручную» специалистами-редакторами. Поскольку в Интернете отсутствует единое администрирование, постольку его информационные ресурсы постоянно меняются. В нём могут появляться новые и исчезать существующие документы. Частота обновления информации в документах для разных сайтов различна: для некоторых — это несколько раз в час, для некоторых — раз в сутки, день, месяц и т.д. Поэтому очень важно понимать, что при использовании информационно-поисковых систем для нахождения информации в Интернете, поиск осуществляется не на реальном пространстве документов Сети, а в некоторой модели, содержание которой может значительно отличаться от действительного содержания Интернет в момент проведения поиска. По степени охвата индексируемых ресурсов поисковые системы можно разделить на две группы: международные и русскоязычные. Первые индексируют все опубликованные в Интернете документы подряд. Вторые индексируют ресурсы, расположенные в доменных зонах с преобладанием русского языка. Список наиболее популярных систем приведен в Табл. 1.

Табл. 1. Наиболее популярные поисковые системы

Международные Русскоязычные
Google Яндекс (44,4 % Рунета)
Yahoo! Rambler (10,6 % Рунета)
Bing Mail.ru (7,3 % Рунета)
MSN Nigma (0,5 % Рунета)
AltaVista Gogo.ru (0,3 % Рунета)
Ask Aport (0,2 % Рунета)

Примечание: Рунет - это русскоязычная часть Интернета, составляющая домены с именами ru и рф .

Необходимо упомянуть, что существует особая категория поисковых серверов - метапоисковые системы. Их принципиальное отличие от поисковых машин и предметных каталогов состоит в том, что у них отсутствует собственная индексная база данных, и поэтому они, получив запрос пользователя, перенаправляют его сразу к нескольким поисковым серверам (См. Рис. 3).

Рис. 3. Схема работы метапоисковой системы

Возможность одновременного использования нескольких поисковых серверов по одному запросу является очевидным преимуществом метапоисковых систем. В настоящее широкое применение время нашла система Metabot.ru, интерфейс которой представлен на Рис. 4. Эта система позволяет использовать для поиска ресурсов как международные, так и русскоязычные поисковые серверы.