Поисковые системы России и лидирующие поисковики интернета
Здравствуйте уважаемые читатели блога. Когда Интернет был еще совсем молод, у его немногочисленных пользователей было достаточно собственных закладок. Однако, как вы помните, аудитория Всемирной паутины росла экспоненциально, и вскоре ориентироваться во всем ее многообразии становилось все труднее.
Затем появились каталоги (Яху, Дмоз и другие), в которые их авторы добавляли и классифицировали различные сайты по категориям. Это сразу облегчило жизнь тогда еще не очень многочисленным пользователям глобальной сети. Многие из этих каталогов до сих пор живы.
Но через некоторое время размер их баз данных стал настолько большим, что разработчики сначала задумались о создании внутри них поиска, а затем о создании автоматизированной системы индексации всего интернет-контента, чтобы сделать его доступным для всех.
Основные поисковики русскоязычного сегмента интернета
Как вы понимаете, эта идея с оглушительным успехом материализовалась, но, тем не менее, все сложилось удачно лишь у горстки избранных компаний, сумевших не исчезнуть в Интернете. Почти все поисковые системы, появившиеся в первой волне, сейчас исчезли, прозябали или были куплены более успешными конкурентами.
Поисковая система — очень сложный механизм и, что еще важнее, требует больших ресурсов (то есть не только материальных, но и человеческих). За, казалось бы, простой оболочкой Яндекса или его строгого аналога Google стоят тысячи сотрудников, сотни тысяч серверов и многие миллиарды инвестиций, которые необходимы для того, чтобы этот колосс продолжал работать и оставаться конкурентоспособным.
Выйти на этот рынок сейчас и начать все с нуля — скорее утопия, чем реальный бизнес-проект. Например, одна из самых богатых корпораций мира, Microsoft, десятилетиями пыталась закрепиться на рынке поиска, и только сейчас ее поисковая система Bing потихоньку начинает оправдывать ее ожидания. А до этого была целая череда неудач и провалов.
Что уж говорить о выходе на этот рынок без особого финансового влияния? Например, наш отечественный поисковик Nigma имеет в своем арсенале много полезных и инновационных вещей, но его посещаемость в тысячи раз ниже, чем у лидеров российского рынка. Например, взгляните на дневную аудиторию Яндекса:
Я уже писал о том, как что-то искать в Яндексе. Там же я упомянул, что у них аскетичный вариант главной страницы, привычный поиск и возможность вживую посмотреть, что сейчас спрашивают пользователи. Ну и сотни других сервисов и возможностей.
Google.ru — региональный филиал самой популярной поисковой системы в мире, но не в России. Сама компания родилась примерно в то же время, что и Яндекс, и вышла на российский рынок поиска только в 2004 году, когда там уже успел подкопаться основной конкурент (на фото выше справа ее основатели — Ларри Пейдж и Сергей Бринг , о котором вы можете прочитать в истории поисковой системы Google).
Поиск Google уже стал нарицательным для многих на планете; о том, как правильно искать в Google, можно прочитать по ссылке. Мне понравилась опция «перевод результатов» в этом поисковике, когда ты получал ответы со всего мира, но на своем языке, но сейчас, к сожалению, она недоступна (по крайней мере, на google.ru).
В общем, глядя на статистику, понятно, почему Google легко идет туда, чтобы ухудшить свою трансляцию в обмен на увеличение прибыли от контекстной рекламы. На самом деле они не боятся выхода пользователя, потому что в большинстве случаев им деваться некуда и некуда. Эта ситуация несколько грустная, но посмотрим, что будет дальше.
Кстати, чтобы еще больше усложнить жизнь оптимизаторам, а возможно, чтобы сохранить спокойствие пользователей этого поисковика, Google в последнее время использует шифрование при передаче запросов из браузеров пользователей в строку поиска. Скоро больше нельзя будет увидеть запросы, сделанные пользователями Google, в статистике веб-маяков.
Конечно, помимо высказанных в этом посте поисковиков, есть еще более тысячи других: региональные, специализированные, экзотические и т.д. Попытка перечислить и описать их в рамках одной статьи невозможна, да, наверное, и не нужна. Скажем несколько слов о том, как сложно создать поисковую систему и как сложно и дешево поддерживать ее в актуальном состоянии.
Подавляющее большинство систем работают по схожим принципам (о том, как работают поисковые системы и как учитывать морфологию в поиске, читайте) и преследуют одну и ту же цель: дать пользователям ответ на их вопрос. Кроме того, этот ответ должен быть уместным (соответствующим вопросу), исчерпывающим и, что еще важно, уместным (первой свежести).
Решить эту задачу не так-то просто, особенно если учесть, что поисковой системе придется на лету анализировать содержание миллиардов интернет-страниц, отбрасывая ненужные и формируя список (вывод) остальных, где находятся наиболее полезные ответы найдено, соответствующее вопросу пользователя будет идти первым.
Эта сложнейшая задача решается предварительным сбором информации с этих страниц с помощью различных роботов-индексаторов. Они собирают ссылки с уже посещенных страниц и загружают информацию с них в базу поисковика. Есть текстовые боты-индексаторы (обычные, быстрые боты, которые полагаются на часто обновляемые новости и ресурсы, чтобы в результатах всегда были самые свежие данные).
Кроме того, есть роботы-индексаторы изображений (для последующего просмотра в Яндекс и Google картинки), фавиконки, зеркала сайтов (для последующего сравнения и возможной вставки), боты, проверяющие работоспособность веб-страниц, добавленных пользователями через поисковик adduril или через инструменты для веб-мастеров (здесь вы можете прочитать о панелях Яндекса, инструментах Google, веб-мастере Bing и аккаунте Mail.ru).
Сам процесс индексации и последующий процесс обновления индексных баз занимают довольно много времени. Хотя Гугл делает это гораздо быстрее своих конкурентов, по крайней мере Яндекс, на что уходит неделя-две (читайте про авансы Яндекса).
Обычно поисковая система разбивает текстовое содержание веб-страницы на отдельные слова, что приводит к основным основам, чтобы потом можно было давать правильные ответы на вопросы, сформулированные в разных морфологических формах. Весь ненужный обвес в виде хтмл тегов, пробелов и т.д.удален, а оставшиеся слова отсортированы по алфавиту и рядом с ними указано их положение в данном документе.
Эта шняга называется обратным индексом, и она позволяет искать не по веб-страницам, а по структурированным данным, расположенным на серверах поисковика.
Количество таких серверов в Яндексе (ищущем в основном только русскоязычные сайты и немного на украинских и турецких) исчисляется десятками и даже сотнями тысяч, а в Гугле (ищущем на сотнях языков) — миллионами.
На многих серверах есть копии, которые служат как для повышения безопасности документов, так и помогают увеличить скорость обработки запроса (за счет балансировки нагрузки). Оцените стоимость содержания всей этой экономики.
Балансировщик нагрузки направит пользовательский запрос на сегмент сервера, который в данный момент наименее загружен. Затем проводится анализ региона, откуда пользователь поисковой системы отправил свой запрос, и проводится его морфологический анализ. Если подобный запрос был недавно введен в строку поиска, данные кеша передаются пользователю, чтобы лишний раз не нагружать сервер.
Если запрос еще не был закеширован, он передается в область, где находится индексная база поисковой системы. Ответ будет представлять собой список всех веб-страниц, имеющих хоть какое-то отношение к запросу. Учитываются не только прямые вхождения, но и другие морфологические формы, а также синонимы, омонимы и др.
Их нужно классифицировать и на этом этапе в дело вступает алгоритм (искусственный интеллект). Фактически запрос пользователя множится за счет всех возможных вариантов его интерпретации и одновременно ищутся ответы на множество запросов (за счет использования операторов языка запросов, часть из которых доступна обычным пользователям).
Как правило, в задаче присутствует по одной странице с каждого сайта (иногда и больше). Алгоритмы классификации в настоящее время очень сложны и учитывают множество факторов. Кроме того, для их исправления используются и живые люди (эдвайзеры), которые вручную оценивают ссылающиеся сайты, позволяя настроить работу алгоритма в целом.
В общем понятно, что дело тёмное. Об этом можно говорить долго, но и так понятно, что удовлетворенность пользователя поисковиком достигается ох как просто. И всегда найдется тот, кому что-то не нравится, как, например, мы с вами, дорогие читатели.