Результаты исследований студентов в проекте кто ищет тот всегда найдет

Материал из Wiki Mininuniver
Перейти к навигацииПерейти к поиску

Авторы и участники проекта

  1. Глушенков Вадим
  2. Миронов Андрей
  3. Солодухин Александр

Тема исследования группы

Поисковые системы

Проблемный вопрос (вопрос для исследования)

Как эффективно искать нужную нам информацию в интернете?

Цели исследования

Как организовать эффективный поиск в Интернете?

Какая поисковая система лучше?

В чём популярность поисковой системы Google?

Как эффективно использовать возможности поисковой системы Google?

Как создать свою поисковую систему?

Результаты проведённого исследования

Как организовать эффективный поиск в Интернете?

Поисковые системы на сегодняшний день обеспечивают наиболее полный охват сайтов в интернете и наиболее быстрое обновление информации, по сравнению с другими сервисами. Кроме того, освоив базовые приёмы работы с поисковыми системами, Вы без труда справитесь и с другими механизмами поиска.

Несмотря на всю мощь и продвинутость своих алгоритмов, поисковые системы всё равно остаются машинами и думать за Вас они не будут. Кроме того, им абсолютно чужда человеческая логика - они просто действуют в соответствии с программами, которые в них заложены.

Точность и простота запроса

Важнейшим фактором и залогом нашего успеха является правильность поискового запроса. К примеру, Вы хотите найти информацию о Евро 2012 в России. Набрав в поисковой строке "футбол Россия", Вы в ответ получите кучу ссылок на сайт "Спартака" и других российских команд. Если наберёте "Евро 2012" - получите массу разной информации о футболе, но лишь самого общего свойства и придётся эту информацию долго и тщательно просеивать. А вот, набрав что-либо подобное "EURO 2012 футбол Россия", Вы получите ответ, который будет более соответствовать Вашим ожиданиям.

Конечно, это лишь пример (причём, не самый удачный - профессионалы поиска в этой ситуации могут придумать массу более точных запросов и получить нужный результат с первой ссылки), но он показывает, что машина не думает за Вас, она не знает, что Вы хотите найти - она всего лишь ищет в своей базе слова и словосочетания, которые Вы ввели в строку поиска, и выдаёт все совпадения в ответ на запрос. Кроме того, любой современный поисковик перед выдачей ответа сортирует найденную информацию по релевантности (степени совпадения и соответствия Вашего запроса с найденными страницами), т. е. самый подходящий, на взгляд машины, ответ будет находиться в списке ссылок на первом месте.

Ниже тех ссылок, которые выдаст поисковик обычно находятся две-три строчки текста, взятого со страницы - по ним можно приблизительно оценить, насколько предлагаемая ссылка соответствует Вашим ожиданиям. Не пытайтесь полностью описать поисковой системе тему своего реферата или диплома. Постарайтесь быть лаконичным и максимально точным.

Также следует учитывать, что поисковая машина не индексирует предлоги и часто употребляющиеся слова ("где", "кто", "когда" и т.д.) и не учитывает их при поиске; знаки пунктуации также опускаются. Исключения составляют лишь очень распространенные комбинации (например, $10 или С++).


Какая поисковая система лучше?

Оценить, насколько эффективна та или иная поисковая система, довольно сложно. Google и Yandex обладают самыми большими базами по русскому Интернету. Но Rambler, так как это первая поисковая машина, начавшая индексировать российский Интернет, лучше ведет поиск по старым документам, которые в силу каких-либо причин не стали популярны. Кроме того, ресурсы с установленным счетчиком Rambler Top 100 (а это одни из самых популярных рейтингов) имеют на Rambler больший вес и индексируются еще чаще.

Особенность Google состоит в том, что благодаря применяемой там системе присвоения веса PageRank хорошо ищутся авторитетные сайты. В этом отношении Google был первым, но сейчас подобные ссылочные алгоритмы используют почти все поисковики. Yandex отличается своим развитым языком запросов и большими познаниями в морфологии русского языка, но разработчики системы всегда видели своей задачей обеспечение точности поиска при так называемом естественно-языковом запросе, то есть когда неподготовленный человек просто пришел и просто спросил.


В чём популярность поисковой системы Google?

Поисковая система Google по-прежнему остается самой популярной поисковой системой сети Интернет. За все время нахождения Google на рынке пока ещё ни одной из конкурирующих поисковых систем не удалось сместить американскую поисковую систему с лидирующих позиций. Однако же, как и у других Интернет-ресурсов у Google имеются как существенные преимущества, так и недостатки.

Основным преимуществом поисковой системы Google является простота её использования. Разработчики этой поисковой системы – студенты стэндфордского университета Ларри Пейдж и Сергей Брин стремились создать поисковую систему, которая была бы доступна каждому пользователю сети Интернет без использования каких-либо специальных знаний. Им это удалось. Поисковая система является простым и удобным Интернет-ресурсом. При внесении ключевых слов, она не требует использования кавычек, заглавных букв и так далее, что значительным образом облегчает процесс поиска информации. Кроме того, среди плюсов Google можно назвать её обширную базу данных. На настоящий момент там насчитывается более 3 миллиардов вэб-страниц, благодаря чему эта база данных этой поисковой системы входит в список самых крупных.

Кроме того, среди основных преимуществ этой поисковой систем можно назвать высокую скорость работы. Перед специалистами компании Google стояла задача сделать работу поисковой системы быстрой и эффективной, и им это удалось. Сделав запрос, пользователи практически мгновенно получают результаты поиска (на это уходит всего лишь несколько секунд). Это стало возможным благодаря тому, что разработчики значительно «облегчили» страницы с результатами поиска. Там содержится минимальное количество графики, рекламных объявлений, кроме того, значительно сокращен текст с описанием сайтов.

Плюс ко всему поисковая система Google выдает достаточно точную информацию. Результаты поиска в большинстве случаев соответствуют совершаемым запросам. При этом ссылки к сайтам, которые более всего соответствуют указанным ключевым словам, находятся в верхней части страницы. Также отметим, что Google является практически единственной поисковой системой, в которой учитывается не только количество страниц в результатах поиска, но и их качество. Особые специалисты этой компании регулярно производят «чистку» результатов поиска своей поисковой системы, благодаря чему достигается достаточно высокое качество предлагаемой информации. Кроме того, одним из неоспоримых преимуществ Google является наличие дополнительных функций. Так, например, эта поисковая система позволяет пользователям ознакомиться с содержанием некоторых страниц, которые уже были закрыты.

Вместо привычной надписи «errоr 404», пользователи могут ознакомиться в с Интернет -страницами, правда в том виде, в каком они были размещены в поисковой системе. Кроме того, повторяющиеся ссылки, ведущие к одному и тому же сайту отображаются в Google в правой части страницы с результатами поиска. Подобная функция значительно сокращает время поиска информации, поскольку в этом случае пользователи не обращаются по нескольку раз на один и тот же сайт.

И, наконец, пользователям предлагается функция «Мне повезёт», благодаря которой, не дожидаясь результатов поиска они сразу же попадают на сайт, находящийся в списке на первом месте. Однако же у Google имеется и ряд недостатков. Так, например, нередко там встречаются ссылки на сайты с уже устаревшей информацией. Кроме того, также случается, что ссылки, которые находятся в результатах поиска, ведут на сайт, находящийся в стадии разработки. Из-за подобных сайтов пользователи тратят свое время впустую, в связи с чем снижается продуктивность работы поисковой системы. Кроме того, при совершении запросов пользователям необходимо проявлять внимательность. Так, например, результаты поиска, содержащие слово «фильм» будут значительно отличаться от результатов поиска, содержащих слово «фильмы». Вместе с тем, результаты поиска будут содержать и сайты, в которых находятся слова «фильм», «фильмов» и так далее.


Как эффективно использовать возможности поисковой системы Google?

Интернет – это накопительная база знаний миллионов людей, со всего света, которые становятся доступны в любой точке планеты. Это имеет много положительных сторон, однако есть и отрицательные. Например, Вам надо найти фразу «кино вино и домино». Но к сожалению вы не знаете ни адрес сайта, где эта фраза опубликована, ни автора, ни название страницы.

Для решения подобных вопросов существуют поисковые системы (searching engine) или поисковики. Главное преимущество Google в том, что он индексирует информацию по всему миру.

Чтобы получить интересующую вас информацию введите в строке поиска запрос «кино вино и домино». Однако вы получите много лишних Последовательно просматривать несколько тысяч результатов очень долго и крайне не эффективно. Вот тут и начинается самое интересное. Для более точного поиска мы будем использовать язык поисковых запросов. У разных поисковой систем этот язык немного отличается. Мы рассмотрим основные операторы googla, однако многие из них применимы и к yandexу.

«””» (кавычки) Поиск конкретного содержания. На запрос “кино вино и домино” вы получите только те страницы, на который опубликована данная фраза дословно. Т.е. страницы, содержащие слова из запроса в другом порядке, не отобразятся.

«-»(минус) Исключение из результатов поиска. Если послать запрос кино вино –домино ссылки на страницы содержащие слова кино и вино, но из результата будут исключены страницы содержащие слово домино

«+» (плюс) Обязательное присутствие. Если ввести кино вино +домино, вы получите список ссылок на страницы, которые содержат слова кино, вино и обязательно слово домино.

«|» (или) Поиск одного из вариантов. Введя в стоке поиска кино|вино|домино вы получите сначала сайты, содержащие все слова, а после те, которые содержат хотя бы одно из слов запроса.

«*» (умножение) Маска поискового запроса. На запрос кино * домин* отобразятся сайты содержащие: слово кино, после произвольное количество любых символов, за которыми следует слово, начинающееся с домин (домино, доминик, доминиканец и пр.).

«..» (две точки) Поиск в числовом интервале. На запрос кино 2000..2010 вы получите ссылки на страницы содержащие слово кино и год в интервале с 2000 по 2010.

«define:» (определение) Выводит ссылку на определения понятия запроса. Например введя define: кино гугл выдает определение Kino (Кино? "cinema", often written uppercase (КИНО); ) was a Soviet rock band headed by Viktor Tsoi. И ссылку на википедию en.wikipedia.org/wiki/Кино. Однако на запрос define:интерполяция мы получаем вполне вменяемый результат.

«site:» (сайт) Поиск по заданному сайту. Запрос site:kino.ru вино выдаст ссылки на все страницы сайта kino.ru ,на которых есть слово вино. Эта волшебная функция спасает на сайтах с «кривым» поиском, а также без поиска вообще.

«link:» (ссылка). link:kino.ru Выдает ссылки на сайты, содержащие ссылку на сайт kino.ru . Однако стоит упомянуть о том, что в результат поиска будут включены только сайты , проиндексированные поисковиком.

«movie:» (кино) Поиск по киноафише и рецензиям к фильмам. На запрос movie:домино вы получите рецензии к фильмам, содержащие слово домино. А если в кинотеатрах идет фильм, содержащий в названии слово домино, то вы увидите, в каких кинотеатрах он идет.

«nusic:» (музыка) Поиск информации об артисте, произведениях и альбомах. Введя запрос music:kino вы получите информацию об исполнителях, треках и альбомах, содержащих в себе слово kino. Стоит отметить, что данный сервис пока доступен только на английском языке. То есть запрос music:кино не даст никаких результатов.

«filetype:» (тип файла) «ext:» (расширение файла) Поиск в документах обозначенного типа. Запрос кино filetype:doc выдает все документы формата doc содержащие слово кино. Список форматов файлов, поддерживаемых на момент написания данного текста: PDF, PS, DWF, KML, KMZ, XLS, PPT, DOC, RTF, SWF .

«intext:» (в тексте) Поиск в тексте страницы. На запрос intext: кино отобразятся ссылки на страницы, в тексте которых есть слово кино.

«intitle:» (в заглавии) Поиск в заголовках страниц. Т.е. в тексте, который отображается непосредственно на вкладке страницы в браузере. Запрос intitle:кино выдаст список страниц , в заглавии которых имеется слово кино.

«inurl:» (в адресе) Поиск в URL. Если отправить запрос inurl:kino, то вы получите ссылки на страницы, в адресе которых содержится слово kino.

«inanchor:» (в тексте ссылки) Поиск в тексте ссылки. Отправив запрос inanchor:kino вы получите ссылки на страницы, на которых размещены ссылки, содержащие слово kino.

«cached:» (в кэше) Поиск в копиях страниц, Введя запрос cached:кино вы получите ссылки на копии страниц, содержащих слово кино. Это может помочь, если сама страница была удалена или ее содержание изменилось.

«cache:» (кэш) Поиск копии страницы. На запрос cache:kino.ru вы получите ссылку на копию страницы kino.ru.

«Infp:» (информация о сайте) Вывод информации о сайте, которой обладает google. Т.е. запрос info:kino.ru отобразит информацию о сайте kino.ru.

«related:» (похожие) Отображает сайты, похожие, по мнению google, на заданный. related:kino.ru выдаст ссылки на страницы схожие по содержанию с kino.ru. А эти возможности googla нам не помогут при поиске нашей фразы, однако очень упростят Вашу жизнь.

Калькулятор

В выражениях можно использовать операторы +, -, *, /, ^ (степень), sqrt (квадратный корень), sin, cos, tan, ln, lg, exp (ex), скобки и многое другое.

Введите выражение 2+6-1*24/11^3 и получите 2 + 6 - ((1 * 24) / (11^3)) = 7.98196844

Преобразование единиц измерения

Google переводит единицы длины, веса, массы и т. п., из одних единиц измерения в другие. Для этого используется простой и доступный синтаксис.

Например 1 meter in inch или 1 м в дюймах выдаст 1 meter = 39.3700787 inch

Конвертация валют

Введите в строке поиска 15000 рублей в долларах США и получите ответ 15 000 российских рублей = 502.72500 доллара США. Как вы понимаете ответ будет постоянно меняться. Данные о курсах валют Google получает из Citibank N.A.

Карта

Вообще в Googl есть отдельный сервис карта, расположенный по адресу maps.google.com. Этот ресурс показывает карту, спутниковую фотографию, и накладывает их друг на другую Кроме того позволяет прокладывать маршруты, отмечать нахождение организаций, привязывать фотографии к месту, отображает пробки и многое другое.

Введите в строке поиска карта москвы и получите быстрый доступ к карте.

Погода на пять дней

Введите погода в москве и получите сводку погоды от google

Как видно, возможности поисковой системы google гораздо шире, чем кажется на первый взгляд.


Как создать свою поисковую систему?

Поисковая система. Для чего она нужна? Поисковая система позволяет найти то, что мы ищем в интернете. Другими словами, она для нас — источник информации. В принципе, поисковой системе все равно, какую информацию искать, она будет искать все, что ей скажут. Она лишена человеческого разума и ее возможности ограничены программными и техническими средствами.

Предположим, у нас на столе лежат три книги: учебник по химии, кулинарная книга и каталог магазинов. В этих книгах нам нужно найти информацию о бургундском вине. Как бы поступил в этом случае человек, а как поисковая машина? Наверняка человек бы подумал, что конкретно его интересует в вине — химический состав или в каком магазине оно продается. Логично предположить, что поиск стал бы продолжаться не во всех трех книгах, а в двух или вовсе в одной. Иными словами, человек бы уточнил свой запрос и отсеял ненужное с помощью своего разума.

В аналогичном случае поисковой машине пришлось бы намного сложнее, она ведь не может отсеивать ненужное «налету». Алгоритм ее действий выглядел бы примерно так:

1) поиск во всех трех книгах

2) сортировка результатов по точностью совпадения с поисковой фразой.

Думается, что такой поиск выдавал бы не самые лучшие результаты, поскольку слово «замок» для поисковой системы — это и «замок», и «замок» тоже. Таким образом, поисковая машина должна уметь не только искать определенные фразы в своей базе, но и хоть немного учитывать морфологию языка и многое другое. Итак, мы подошли к важному выводу. Хорошая поисковая система — это сложный механизм, требующий значительных аппаратных ресурсов.

Соответственно, создать поисковую систему, альтернативную общеизвестным монстрам поиска сложно, долго и затратно. Те же Google и Яндекс потратили огромное количество денег и уйму времени на то, чтобы сейчас мы могли пользоваться их услугами.

Чтобы создать небольшую поисковую систему, которая бы искала в определенной сфере или строго по определенным сайтам существует, два варианта:

1) использовать как платные, так и бесплатные скрипты поиска

2) использовать специальные сервисы Google, Яндекс, Yahoo и т.д.

В качестве реализации первого варианта можно попробовать:

1) бесплатный скрипт Sphider, написанный на php. Поддерживает кириллицу, есть свой индексирующий бот. Из админ-панели можно управлять системой, индексировать, переиндексировать страницы, удалять из индекса, устанавливать глубину индексирования. Интерфейс легко настраивается с помощью шаблонов. Скрипт использует базу данных mysql.

2) PhpDig также бесплатен, использует базу Mysql. Однако, как нам показалось, он уступает в скорости Sphider.

3) RiSearch написан на Perl + PHP и не использует Mysql-базу данных, что является минусом. Есть проблемы с релевантностью предоставляемых данных.

4) платный скрипт MnogoSearch. Обладает огромными возможностями, в том числе поддержкой различных баз данных, командной строки. Существуют различные версии для Unix- и Windows-серверов, а также различные версии в зависимости от типа используемой базы.

Второй вариант — использовать бесплатный сервис Google Coop, который позволяет создать свою систему поиска по заданным критериям, используя всю мощь Google или сервис Яндекс.XML, который также позволяет использовать Яндекс при создании своего поисковика. Только это уже не совсем альтернативная посковая система, а своеобразная надстройка.

Таким образом, создать свою полноценную поисковую систему можно, однако она будет довольно слабенькой. Зато создать поиск, скажем, по сайтам определенной тематики, проще простого.


Вывод

Каждый из нас вснес с вой вклад в проект, мы за время проведения проекта узнали много нового:

  1. Работа с Google сервисами: общение в Google группе, создание собственной поисковой системы, создание анкеты;
  2. Работа с поиском информации: каждый из нас прочитал много информации, было выбрано то, что нужно;
  3. Совместная создание вики статьи: каждый из нас написал что-то на данной страничке, именно сдесь, в большей степени, проявилась совместная работа группы.

Полезные ресурсы

Другие документы