Результаты исследования группы Ок,Бубен! в проекте Объединённые сетью-2015
Содержание
Авторы и участники проекта
Тема исследования группы
Поиск в Интернете
Проблемный вопрос (вопрос для исследования)
Как организовать эффективный поиск в Интернете?
Гипотеза исследования
Мы считаем, чтобы организовать эффективный поиск в Интернете, мы должны использовать поисковую систему с бОльшей релевантностью и уметь грамотно и четко формулировать свой запрос.
Цели исследования
Выявить критерии, по которым можно вести сравнение поисковых систем; проанализировать по этим критериям 3-4 поисковые системы.
Результаты проведённого исследования
Поисковик Бубен [1]
Исходя из итогов тестового поиска было выяснено, что наибольшее количество результатов предоставляет поисковик Яндекс,но как и Google не способен опознать запрос, введённый с неверной раскладкой клавиатуры.
Исходя из итогов социологического опроса было выяснено:
- Самой популярной поисковой системой является Google
- Самым популярным браузером является Google Chrome
- Самым значимым критерием при выборе поисковой системы является большая релевантность ответов
Вывод
В ходе исследования было установлено что все поисковые системы имеют одинаковое принципиальное устройство, основываясь на принципах, заложенных ещё в 1993-м году Мэттью Греем из Массачусетского технологического института в его поисковый робот Wandex.
Подводя итоги нашего исследования можно отметить, что "количество" не равно "качество", как мы можем судить исходя из тестовых запросов. Пусть Яндекс и выдал 24 миллиона ответов, их качество было сомнительным и реально полезные для изучения ресурсы практически перестали появляться уже через несколько страниц.
Исходя из социологического опроса можно заключить о превосходстве корпорации Google на современном рынке интернет-медиа. Именно их поисковик и бразуер являются самыми популярными у простых пользователей.
Ради объективности следует отметить преимущества и недостатки применённых поисковых систем.
Преимущества:
- Простота использования
- Обширная база данных (более 3 миллиардов вэб-страниц)
- Высокая скорость поиска (за счёт минимизации выводимой для предпросмотра информации и наличие функции "Мне повезёт!", открывающей первый же сайт, который был бы выведен при обычном запросе)
- Точность выдаваемой информации (соответствие ответов поисковому запросу)
- Постоянное улучшение технических возможностей и базы данных поисковика
Недостатки:
- Переход на ресурсы, чьё формирование не закончено
- Невозможность указать ударение в слове (вывод информации по другому, ненужному для пользователя, слову)
Яндекс
Преимущества:
- Подбор результатов заранее
- Легко переключать поиск с одного языка на другой
- Система позволяет ограничить "ареал" поиска до одной страны или города
- Виджеты и элементы в поиске можно поменять местами, убрать и настроить
Недостатки:
- Часто появляющаяся капча
- Аляпистое оформление
- Нагромождение функциональных элементов на стартовой странице
- Страница с результатами поиска полна нерелевантных ответов и дорвеев (от английского Doorway, страниц-обманок, пересылающих на другой сайт)
Bing
Преимущества:
- Возможность смотреть видео с любой страницы без необходимости перехода на неё
- Удобная компоновка
- Наилучшее взаимодействие с сайтами, применяющими Flash
- Поиск по изображениям позволяет при желании отбирать только портреты и изображения по плечи
- Удобный расширенный поиск
Недостатки:
- Плохая база данных о русских сайтах
- Плохой поиск по адресам на карте
- Карты составляют неверные маршруты и не учитывают общественный транспорт
Ниже будет дано краткое описание особенностей синтаксиса и работы поисковых систем.
Поиск начинается с определения ключевых слов. Например, нас интересует адрес фирмы, которая бы продала отопительный котел средней мощности фирмы Gefest в Нижнем Новгороде и смонтировала его. Получаем следующие ключевые слова: Отопительный котел Gefest, Нижний Новгород. 'Отопительный котел' - именно так это должно быть написано в прайс-листе на сайте. Если, например, там написано 'Продажа отопительных котлов', то поисковая система нам покажет и этот сайт, так как все современные поисковые системы имеют средства лексического разбора запросов. 'Gefest' - фирма-производитель, что также обычно указывается в прайс-листах на сайте. Заметьте, 'средней мощности' мы не пишем, если точно не знаем. Если мы это укажем, то при строго заданном запросе поисковая система, скорей всего, не найдет достаточное количество сайтов с таким содержанием, потому, что редко в прайс-листах используют такие заголовки. Обычно прайс-листы содержат в .ZIP файлах, которые недоступны для поиска. А вот краткий перечень продукции и фирм-производителей приводят все. 'Нижний Новгород' - местоположение. Обычно, адрес всегда указывается на сайте, поэтому это тоже необходимо использовать, чтобы поисковик не выдал в списке всех Российских продавцов данного товара. Можно оставить поисковый запрос в таком виде, но результат будет не самым эффективным.
Всё дело в том, что по умолчанию система настроена на максимальные возможности поиска и без использования синтаксиса выдаст все сайты, где находится хотя бы одно из указанных слов. Как правило же в быту хватает и стандартных алгоритмов поиска. Обычно в начало выносятся сайты с максимальным количеством совпадающих слов. То есть, при определенных условиях вперед может попасть страница с 50 словосочетаниями 'Отопительный котел' и 14 словосочетаниями 'Gefest', а страница, содержащая все слова запроса может оказаться в середине списка из 9000 страниц и у Вас не хватит терпения до нее дойти. Во-вторых, в таком гигантском списке Вам все равно не выбрать все подходящие сайты - результат поиска придется сужать.
Синтаксис у разных поисковых систем отличается, но незначительно.
Поисковая система не чувствительная к регистру текста запроса, до тех пор, пока Вы не поставите первую букву заглавной. Например, на запрос 'урал' Вы получите список всех страниц, которые содержат слова с указанным сочетанием букв в любом регистре (например: 'Урал', Уралмаш', 'уральские'), на запрос 'Урал' получите страницы, слова на которых начинаются с 'Урал' (например: 'Уралмаш').
Если запрос поставить в двойные кавычки, то поисковая система будет искать указанное словосочетание или только те страницы, где присутствуют все указанные в кавычках слова, а не хотя бы одно из указанных, как по умолчанию. Причем обычно, даже ищется только точное совпадение (без описанного выше лексического разбора).
В запросах можно использовать круглые скобки и булеву логику (OR, AND, NOT или соответственно символы '|',' &', '!'), например: ((Урал OR Cибирь) NOT Екатеринбург) - надет все страницы с содержанием слов 'Урал' или 'Сибирь', но не содержащих слово 'Екатеринбург'.
Можно использовать специальные символы '*' и '?' для замены части слова или буквы в слове соответственно (как в MS-DOS).
Более сложные конструкции поиска уже зависят от системы. Более подробную инструкцию по каждой системе Вы найдете в конце статьи.
Используя синтаксические возможности можно составить запрос:
Отопительный AND котел AND gefest AND Нижний Новгород
Обратите внимание, что gefest - с маленькой буквы. Это потому, что возможно написание 'GEFEST' - многие сайты используют написание заглавными буквами для привлечения внимания, а на него также отреагирует малочувствительная к регистрам поисковая система.
Если на запрос поисковая система Вам все равно выдает список из сотен и тысяч страниц, - сужайте поиск дальше. Для данного примера можно попробовать использовать в качестве дополнительных условий тип котла по виду топлива и числу контуров. То есть можно попробовать ввести следующий запрос:
Отопительный AND котел AND газовый AND gefest AND Нижний Новгород AND монтаж
Если ни одной страницы не найдено, тогда можно попробовать перефразировать запрос, проверить орфографию и расширить условия поиска.
Если все же поиском Вы ничего не нашли, то можете попробовать аналогичный запрос в другой поисковой системе. Возможно, что не все страницы нужного Вам сайта проиндексированы, и поиск на них невозможен. Во-первых, для поиска доступны только страницы, которые были специально добавлены или же найдены по ссылкам с уже известных поисковой системе страниц. Все найденные страницы обрабатываются специальной программой, которую обычно называют роботом. Этот робот индексирует страницу, то есть создает ее уникальный образ, который обычно содержит такие параметры страницы как адрес, слова, название страницы, дата последней обработки роботом, тэги и верхний фрагмент. Так как алгоритмы поиска новых страниц и индексации у разных поисковиков отличается, поиск в разных системах даст разный результат. Отсюда следует, что не все страницы в Интернете могут быть найдены и тем более проиндексированы. Индексация страниц проходит с различными интервалами - от одного дня до месяца и более. Интервал индексации зависит от количества страниц на сайте, настроек страниц, местоположения на сайте и от самой поисковой системы. Страницы, добавленные недавно, а также изменения внесенные в существующих некоторое время могут быть недоступны до обнаружения роботом. В случае безалаберной работы веб-мастера новые страницы могут быть не обнаружены никогда.
Обычно все каталоги доступны для поиска из поисковых систем, но здесь информации будет явно меньше чем на конечных сайтах, так как содержат только их краткое описание. Обычно каталоги содержат собственные поисковые системы, но поиск осуществляется только внутри самого каталога. Каталоги удобны тем, что они содержат уже упорядоченную систему. И например, для нашего запроса можно войти в каталог и пройти по следующему пути: Предприятия -> Строительство -> Отопительное оборудование -> Нижегородская область.
И там Вы найдете, хоть и не все, адреса сайтов с кратким описанием. По этой причине лучше пользоваться большими или местными каталогами. Еще одна проблема каталогов - у них нет общих стандартов и найти местоположение нужного раздела может оказаться более сложным, чем поиск в поисковой системе.
Самое главное, о чем стоит помнить всегда, это терпение - на поиск надо время. Также нужно учесть, что в Интернете есть далеко не все. Однако для успешного поиска седи существующих страниц потребуется определённый опыт.