Результаты исследования группы Ок,Бубен! в проекте Объединённые сетью-2015
Содержание
Авторы и участники проекта
Тема исследования группы
Поиск в Интернете
Проблемный вопрос (вопрос для исследования)
Как организовать эффективный поиск в Интернете?
Гипотеза исследования
Мы считаем, чтобы организовать эффективный поиск в Интернете, мы должны использовать поисковую систему с бОльшей релевантностью и уметь грамотно и четко формулировать свой запрос.
Цели исследования
Выявить критерии, по которым можно вести сравнение поисковых систем; проанализировать по этим критериям 3-4 поисковые системы.
Результаты проведённого исследования
Поисковик Бубен [1]
Исходя из итогов тестового поиска было выяснено, что наибольшее количество результатов предоставляет поисковик Яндекс,но как и Google не способен опознать запрос, введённый с неверной раскладкой клавиатуры.
Исходя из итогов социологического опроса было выяснено:
- Самой популярной поисковой системой является Google
- Самым популярным браузером является Google Chrome
- Самым значимым критерием при выборе поисковой системы является большая релевантность ответов
Вывод
В ходе исследования было установлено что все поисковые системы имеют одинаковое принципиальное устройство, основываясь на принципах, заложенных ещё в 1993-м году Мэттью Греем из Массачусетского технологического института в его поисковый робот Wandex.
Подводя итоги нашего исследования можно отметить, что "количество" не равно "качество", как мы можем судить исходя из тестовых запросов. Пусть Яндекс и выдал 24 миллиона ответов, их качество было сомнительным и реально полезные для изучения ресурсы практически перестали появляться уже через несколько страниц.
Исходя из социологического опроса можно заключить о превосходстве корпорации Google на современном рынке интернет-медиа. Именно их поисковик и бразуер являются самыми популярными у простых пользователей.
Ради объективности следует отметить преимущества и недостатки применённых поисковых систем.
Преимущества:
- Простота использования
- Обширная база данных (более 3 миллиардов вэб-страниц)
- Высокая скорость поиска (за счёт минимизации выводимой для предпросмотра информации и наличие функции "Мне повезёт!", открывающей первый же сайт, который был бы выведен при обычном запросе)
- Точность выдаваемой информации (соответствие ответов поисковому запросу)
- Постоянное улучшение технических возможностей и базы данных поисковика
Недостатки:
- Переход на ресурсы, чьё формирование не закончено
- Невозможность указать ударение в слове (вывод информации по другому, ненужному для пользователя, слову)
Яндекс
Преимущества:
- Подбор результатов заранее
- Легко переключать поиск с одного языка на другой
- Система позволяет ограничить "ареал" поиска до одной страны или города
- Виджеты и элементы в поиске можно поменять местами, убрать и настроить
Недостатки:
- Часто появляющаяся капча
- Аляпистое оформление
- Нагромождение функциональных элементов на стартовой странице
- Страница с результатами поиска полна нерелевантных ответов и дорвеев (от английского Doorway, страниц-обманок, пересылающих на другой сайт)
Bing
Преимущества:
- Возможность смотреть видео с любой страницы без необходимости перехода на неё
- Удобная компоновка
- Наилучшее взаимодействие с сайтами, применяющими Flash
- Поиск по изображениям позволяет при желании отбирать только портреты и изображения по плечи
- Удобный расширенный поиск
Недостатки:
- Плохая база данных о русских сайтах
- Плохой поиск по адресам на карте
- Карты составляют неверные маршруты и не учитывают общественный транспорт
Ниже будет дано краткое описание особенностей синтаксиса и работы поисковых систем
Поиск начинается с определения ключевых слов. Например, нас интересует адрес фирмы, которая бы продала отопительный котел средней мощности фирмы Gefest в Нижнем Новгороде и смонтировала его. Получаем следующие ключевые слова: Отопительный котел Gefest, Нижний Новгород. 'Отопительный котел' - именно так это должно быть написано в прайс-листе на сайте. Если, например, там написано 'Продажа отопительных котлов', то поисковая система нам покажет и этот сайт, так как все современные поисковые системы имеют средства лексического разбора запросов. 'Gefest' - фирма-производитель, что также обычно указывается в прайс-листах на сайте. Заметьте, 'средней мощности' мы не пишем, если точно не знаем. Если мы это укажем, то при строго заданном запросе поисковая система, скорей всего, не найдет достаточное количество сайтов с таким содержанием, потому, что редко в прайс-листах используют такие заголовки. Обычно прайс-листы содержат в .ZIP файлах, которые недоступны для поиска. А вот краткий перечень продукции и фирм-производителей приводят все. 'Нижний Новгород' - местоположение. Обычно, адрес всегда указывается на сайте, поэтому это тоже необходимо использовать, чтобы поисковик не выдал в списке всех Российских продавцов данного товара. - Осталось просто ввести ключевые слова в строку поиска и нажать на Enter? - Можно, но результат будет не самым эффективным. - Почему? - Потому что по умолчанию поисковик настроен на максимальные возможности поиска и без использования синтаксиса поисковая система выдаст все сайты, где находится хотя бы одно из указанных слов. - Но ведь это обычно работает! - Да, но: Во-первых следует отметить, что алгоритм построения списка очень сложный, то есть сортировка происходит по заданному сценарию. Обычно в начало выносятся сайты с максимальным количеством совпадающих слов. То есть, при определенных условиях вперед может попасть страница с 25 словосочетаниями 'Отопительный котел' и 10 словосочетаниями 'Mora', а страница, содержащая все слова запроса может оказаться в середине списка из 25000 страниц и у Вас не хватит терпения до нее дойти. Во-вторых, в таком гигантском списке Вам все равно не выбрать все подходящие сайты - результат поиска придется сужать. - Понятно. Как тогда мне правильно создать запрос? - Использовать возможности синтаксиса.
Синтаксис у разных поисковых систем немного отличается, но ненамного. Поисковая система не чувствительная к регистру текста запроса, до тех пор, пока Вы не поставите первую букву заглавной. Например, на запрос 'урал' Вы получите список всех страниц, которые содержат слова с указанным сочетанием букв в любом регистре (например: 'Урал', Уралмаш', 'уральские'), на запрос 'Урал' получите страницы, слова на которых начинаются с 'Урал' (например: 'Уралмаш'). Если запрос поставить в двойные кавычки, то поисковая система будет искать указанное словосочетание или только те страницы, где присутствуют все указанные в кавычках слова, а не хотя бы одно из указанных, как по умолчанию. Причем обычно, даже ищется только точное совпадение (без описанного выше лексического разбора). В запросах можно использовать круглые скобки и булеву логику (OR, AND, NOT или соответственно символы '|',' &', '!'), например: ((Урал OR Cибирь) NOT Екатеринбург) - надет все страницы с содержанием слов 'Урал' или 'Сибирь', но не содержащих слово 'Екатеринбург'. Можно использовать специальные символы '*' и '?' для замены части слова или буквы в слове соответственно (как в MS-DOS). Более сложные конструкции поиска уже зависят от системы. Более подробную инструкцию по каждой системе Вы найдете в конце статьи. У нас получился следующий запрос: Отопительный AND котел AND gefest AND Нижний Новгород Обратите внимание, что gefest - с маленькой буквы. Это потому, что возможно написание 'GEFEST' - многие сайты используют написание заглавными буквами для привлечения внимания. Если на запрос поисковая система Вам все равно выдает список из сотен и тысяч страниц, - сужайте поиск дальше. Для данного примера можно попробовать использовать в качестве дополнительных условий тип котла по виду топлива и числу контуров. То есть можно попробовать ввести следующий запрос: Отопительный AND котел AND газовый AND gefest AND Нижний Новгород AND монтаж - А если наоборот - ни одной страницы не найдено? Если ни одной страницы не найдено, тогда можно попробовать перефразировать запрос, проверить орфографию в запросе и расширить условия поиска - принцип, думаю, Вы поняли. - Мы пробовали - не помогает. Как быть? Если все же поиском Вы ничего не нашли, то можете попробовать аналогичный запрос в другой поисковой системе. Возможно, что не все страницы нужного Вам сайта проиндексированы, и поиск на них невозможен. - Что значит 'проиндексирован', и почему может помочь поиск в другой системе? Во первых, для поиска доступны только страницы, которые были специально добавлены или же найдены по ссылкам с уже известных поисковой системе страниц. Все найденные страницы обрабатываются специальной программой, которую обычно называют роботом. Этот робот индексирует страницу, то есть создает ее некий уникальный образ, который обычно содержит такие параметры страницы как адрес страницы, слова, название страницы, дата последней обработки страницы роботом, тэги и верхнюю часть страницы (ее фрагмент). От сюда следует, что не все страницы в Интернете могут быть найдены и тем более проиндексированы. Так как алгоритмы поиска новых страниц и индексации у разных поисковиков отличается, то поиск в разных системах даст разный результат. Страницы, добавленные недавно, а также изменения внесенные в них могут быть некоторое время недоступны. А если вебмастер не постарался, то новые страницы, возможно, вообще никто и никогда не найдет. Индексация страниц проходит с различными интервалами - от одного дня до месяца и более. Интервал индексации зависит от количества страниц на сайте, настроек страниц, местоположения на сайте и от самой поисковой системы.
- Ладно, что насчет каталогов? Обычно все каталоги доступны для поиска из поисковых систем, но здесь информации будет явно меньше чем на конечных сайтах, так как содержат только их краткое описание. Обычно каталоги содержат собственные поисковые системы, но поиск осуществляется только внутри самого каталога. Каталоги удобны тем, что они содержат уже упорядоченную систему. И например, для нашего запроса можно войти в каталог и пройти по следующему пути:
Предприятия -> Строительство -> Отопительное оборудование -> Свердловская область.
И там Вы найдете, хоть и не все, адреса сайтов с кратким описанием. По этой причине лучше пользоваться большими или местными каталогами. Еще одна проблема каталогов - у них нет общих стандартов и найти местоположение нужного раздела может оказаться более сложным, чем поиск в поисковой системе.
- Это все, что нужно знать? Самое главное, о чем стоит помнить всегда, это терпение - на поиск надо время. И не забывайте, что в Интернете есть далеко не все - иногда ту же книгу дешевле купить в обычном магазине, чем занимать выделенную линию для поиска и перекачивания. Для успешного поиска нужен опыт - у меня это стало хорошо получаться только после первых 100 часов работы в Интернете.