sonyps4.ru

Особенности поисковой системы Яндекс (Yandex). Простейшее описание принципа работы поисковой системы яндекс

Определение

«Я́ндекс» - российская международная ИТ-компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является четвёртой среди поисковых систем мира по количеству обработанных поисковых запросов (свыше 6,3 млрд в месяц на начало 2014 года). По состоянию на 19 июля 2014 года, согласно рейтингу Alexa.com, сайт yandex.ru по популярности занимает 22-е место в мире и первое место в России.

Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания «Яндекс» образовался в 2000 году. В мае 2011 года Яндекс провёл первичное размещение акций, заработав на этом больше, чем какая-либо из Интернет-компаний со времён IPO поисковика Google в 2004 году.

Основным и приоритетным направлением компании является разработка поискового механизма, но за годы работы «Яндекс» стал мультипорталом. В 2013 году «Яндекс» предоставляет более 50 сервисов. Некоторые из них – Яндекс.Поиск, Яндекс.Карты, Яндекс.Маркет, Поиск по блогам, Яндекс.Пробки - доминируют на рынке.


1.2 История «Яндекс»

Рисунок 1 – Ворота старого офиса на улице Самокатной

В 1989 году предприниматель и программист Аркадий Волож основал фирму СоmpTek, продававшую персональные компьютеры и занимавшуюся автоматизацией рабочих мест. Также Волож интересовался алгоритмами обработки данных, и его заинтересовала возможность написания приложения, которое могло бы осуществлять поиск информации в больших объёмах текста, учитывая морфологию языка. Совместно со специалистом по компьютерной лингвистике Аркадием Борковским он основал в 1989году компанию «Аркадия». После 1990 года сотрудники «Аркадии» написали информационно-поисковые системы «Международная классификация изобретений» и «Классификатор товаров и услуг». В последующие три года они продавались НИИ и патентным организациям.

Слово «Яndex» придумали Илья Сегалович, директор Яндекса по технологиям, и генеральный директор компании - Аркадий Волож. Илья выписывал разные производные от слов, описывающих суть технологии. В результате появился вариант «yandex» - yet another indexer («ещё один индексатор».

В 1993 году «Аркадию» присоединили к CompTek, в которую ранее пришёл школьный друг Воложа программист Илья Сегалович. В том же году была создана программа для поиска на жёстком диске компьютера. Программу назвали «Yandex». Сотрудничая с Институтом проблем передачи информации, CompTek создала словарь с поиском, который учитывал морфологию русского языка. В 1994 годубыл создан «Библейский компьютерный справочник»

В 1995 году было принято решение об использовании поискового приложения для сети Интернет. Сначала оно работало с ограниченным числом ресурсов, а позже со всем русскоязычным сегментом Интернета .

Официально поисковая система Yandex.Ru была анонсирована 23 сенятбря 1997 года на выставкe Softool. «Яндекс» не был первой поисковой машиной России: в 1996 году появился Рамблер, а ещё раньше, в декабре 1995-году Altavista, причём последняя имела самый производительный на тот момент сервер и отличалась самой высокой скоростью работы среди конкурентов, обрабатывая миллионы запросов в день. Через два месяца после yandex.ru анонсировали поисковую систему «Апорт» (хотя впервые её продемонстрировали ещё в феврале 1996 года).

К середине 1999 года «Яндекс» был в семёрке популярнейших сайтов рунета; выручка «Яндекса» как отдела CompTek’а в этом году составляла 72 тыс. долл.


Рисунок 2-Переговорная в офисе «Яндекса».

В 2012 году выходит Яндекс Браузер. Вскоре программа получает турецкую и украинскую локализации.

Особенности поисковой системы Яндекс (Yandex)

Поисковая система "Яндекс" согласно рейтинга поисковых систем является четвертым среди крупнейших поисковых сервисов мира по количеству обрабатываемых поисковых запросов (более 4,5 млрд. в месяц) и первым крупнейшим неанглоязычным поисковым сервером. Оборот компании по данным о рейтинге поисковых систем в 2012 году составил 28,8 млрд руб, а чистая прибыль - 8,22 млрд руб.

Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания "Яндекс" образовался в 2000 году. Компания вышла на самоокупаемость в 2002 году, оборот за 2008 год - более 300 млн. долларов. Оборот за 2006 год - 72,6 млн. долларов, чистая прибыль - 29,9 млн., за 2005 год - 35,6 млн. долларов, чистая прибыль - 13,6 млн.

"Яндекс" постоянно совершенствует свои поисковые алгоритмы, что позволяет ему соответствовать современным критериям поиска и становиться на уровень Google хотя бы в России. Так, например, 9 сентября 2013 года Яндекс запустил новый поиск по картинкам(у Google подобное уже существовало). А пока так и есть, если судить по уровню освоения обоих поисковых систем аудиторией СНГ. "Яндекс", как и Google, работает на кластерной системе организации компьютерных вычислительных сетей. Каждый кластер отвечает за определённый сегмент сохранённой информации. Это позволяет в свою очередь оптимизаторам обеспечить эффективное поисковое продвежение сайтов в поисковой выдаче.

Сканирующие роботы поисковой системы бывают 2 видов:

основной сканирующий робот

быстрый робот, который регулярно сканирует сайты, на которых информация обновляется очень часто, и вносит информацию с этих сайтов в поисковую систему, что обеспечивает быстрое обновление индекса поисковой системы.Обновления (апдейты) поисковой системы бывают 2 видов:

Обновления поисковой базы. Происходят несколько раз в месяц. В поиске начинают выдаваться обновлённые страницы сайтов, собранные основным сканирующим роботом.

Обновления программной части (движка) поисковой системы. Сутью данных обновлений является изменение алгоритмов ранжирования документов в поисковой системе. Обычно подобные обновления анонсируются и им даются определённые названия.

"Яндекс" учитывает морфологию русского языка (мощная система определения словоформ), имеет возможность сузить запрос до максимально точного при помощи специальных поисковых формул и геотаргетинга, имеет качественно разработанный алгоритм оценки релевантности документов (точность отношения текста документа к поисковому запросу), обладает высокой скоростью реакции на запросы и практическим отсутствием перегрузок серверов. В умелых руках оптимизатора такой алгоритм позволяет решить вопрос, как продвинуть сайт бесплатно в поисковой выдаче.


Популярность

На начало 2013 года «Яндекс» является четвёртым поисковиком планеты с 4,84 млрд поисковых запросов. По этому показателю он отстаёт лишь от Гугла, Байду и Яху!. Причём, нужно отметить, «Яндекс» является самым быстрорастущим поисковиком из первой пятёрки, с 28 % за 2012 год. Доля на рынке Рунета составляет 60,5 %. Количество ежедневных поисковых запросов составляет (на конец 2013 года) 250 миллионов.

Таблица 1 Показатели за 2002 и 2012 год

По данным на начало 2010 года, «Яндекс» проиндексировал 10 млрд страниц. В интервью за 2012 год глава компании Аркадий Волож объявил о масштабировании поиска по мировому интернету и запуске технологии, которая позволит «индексировать несколько десятков миллиардов страниц».

Страницу результатов поиска в 2012 году пользователи загружали 130 миллионов раз в день.

В 2008 году «Яндекс» был девятым поисковиком в мире, в 2009 - седьмым, в 2013 - четвёртым.

По словам Игоря Ашманова, «сейчас в Рунете „Яндекс“ ищет лучше, чем Google».

Согласно исследованию Качество поиска и поисковых систем в Рунете за 6 апреля 2011 года, «Яндекс» лидирует на российском рынке по навигационному и тематическому поиску, по количеству проиндексированных документов, по качеству регионального поиска, в его выдаче невысок уровень поискового спама.

Руководство


Рисунок 3-Аркадий Волож

Рисунок 4-Илья Сегалович- директор по технологиям и разработке

Аркадий Волож - генеральный директор.

Илья Сегалович (1964-2013) - директор по технологиям и разработке.

Александр Шульгин - финансовый директор

Алексей Третьяков - коммерческий директор.

Андрей Себрант - директор по маркетингу сервисов.

Екатерина Фадеева - директор по правовым вопросам.

Аркадий Борковский - технический директор Yandex Labs

Максим Киселёв - директор по развитию бизнеса


Похожая информация.


Здравствуйте, уважаемые читатели блога сайт. Если вы еще не знакомы, то хочу представить вам один из самых популярных онлайн сервисов рунета под названием Яндекс. Существует он аж с 1996 года и на заре своего становления это была исключительно только .

Давайте вопрос «что такое Яндекс сегодня» чуток отложим, а поговорим о том, откуда появилось такое странное название. Почему именно Яндекс ? По этому поводу существует несколько трактовок и все они отвечают на поставленный вопрос.

Правда только одна из них отражает реальный ход размышлений автора этого сверхпопулярного сейчас слова, коим был один из отцов-основателей этой поисковой системы — Илья Сегалович (к сожалению, ушедший от нас в середине прошлого года).

Почему Yandex называется Яндексом?

На приведенном фото он крайний слева. Рядом с ним стоит его соратник и второй основательно Яндекса — Аркадий Волож. Ну, а справа стоят Сергей Брин и Ларри Пейдж — . Это фото сделано в начале нашего века, когда компания Google планировала купить наш отечественный поисковик и ее руководители приезжали в Россию для переговоров, но сделка так и не состоялась.

Итак, перед Ильей стояла нелегкая задача — выбрать название для будущего поисковика (еще не доступного в то время через интернет) и при этом не ударить лицом в грязь. За основу было взято ключевое для поиска слово index (читайте про то, и как важен для них индекс, и что это вообще такое).

Было принято решение, что словообразующей фразой станет «yet another indexer», что в переводе означает «еще один индексатор». В общем, довольно-таки скромно и без всяких заявок на будущий ошеломляющий успех. Английский язык тогда в России был « » и, естественно, что поисковая система первоначально получила название именно на латинице: YANDEX (Yet Another iNDEXer).

Однако, основной фишкой Яндекса в то время (да и сейчас тоже) являлось то, что он ищет ответы в интернете . Кроме него в то время это делал только , который сейчас уже не является полноценным поисковиков. В общем, отцы-основатели решили, что нужно добавить в начале русскую букву Я вместо английской Y и получилось ЯNDEX . Это уже можно было интерпретировать, как Языковой INDEX.

В то время его главная страница выглядела так (дизайн Темы Лебедева):

В 2008 году мода на написание названий компаний латинскими буквами сошла на нет и ЯNDEX стал называться просто Яндексом .

Есть еще несколько трактовок, почему Яндекс называется именно Яндексом , и несмотря на то, что они вполне логичны и лаконичны, появились они уже после утверждения официального названия. Одну из них я уже упоминал — Языковый iNDEX.

Ну, а вторая гласит, что если взять в слове index первую букву «I» и , то как раз и получится местоимение «Я» — отсюда и ЯNDEX. Версия красивая, но несколько отличная от произошедшего в реальности.

Что такое Яндекс и что он представляет из себя сегодня?

Как я уже упоминал, на заре своего становления этот онлайн сервис был исключительно поисковой системой. Он и сейчас ею является, причем его доля на рынке рунете весьма весомая и составляет более шестидесяти процентов.

Но время текло и все менялось. С каждым новым годом существования Яндекс обрастал все новыми и новыми сервисами и возможностями. Некоторые из них дошли до нашего времени неизменными, некоторые изменились, объединились или даже закрылись, как, например, .

Сейчас, если Вы ищите товар, то наверняка обращаетесь к , чтобы подобрать оптимальный по цене и отзывам магазин. Если едите куда-то, то переходите на с отображением дорожной обстановки (пробок).

Для многих этот онлайн сервис стал порталом, с которого они ежедневно начинаю свой серфинг по интернету. Это особенно удобно потому, что , подобно рабочему столу в Виндовс, имеет возможность добавления виджетов, настройки внешнего вида за счет использования тем, а также с нее доступны все остальные сервисы этого мега-портала.

Так что же такое Яндекс ? Одним словом и не ответишь. Давайте я перечислю все сервисы собранные под его крылом, о которых мне довелось подробно писать. Наверное, так будет гораздо проще и нагляднее.

  1. — в отличии от Гугла, зеркало рунета изначально приняло решение об использовании своей главной (стартовой) страницы для удобства пользователей.

    Ну, и по аналогии с был введен Паспорт, который действителен на всей территории всех владений этой поисковой системы.

  2. — то место, куда все владельцы сайтов добавляют свои ресурсы, чтобы следить за их индексацией и видимостью в этой поисковой системе.

  3. — наверное, вторая по популярности после платежная система в рунете. Хотя, если брать в расчет , то получается, что третья.

  4. — здесь можно заказать рекламу ваших товаров или услуг на страницах поиска (реклама отображается сверху или снизу поисковой выдачи).

  5. — очень популярный среди Россиян сервис, ибо он предоставляет информацию о дорожных пробках, позволяет прокладывать маршруты и создавать свои собственные (народные) карты.

  6. — это оборотная сторона Директа. Дело в том, что Yandex обладает отлаженной системой работы с контекстной рекламой, так почему же ему ограничиваться лишь своей собственной поисковой выдачей (страницей с результатами поиска)?

    В общем, если у вас есть свой сайт с ежесуточной посещаемостью большей или равной 300 уникальных посетителей в сутки, то регистрируйтесь в Профит Партнере(официальном центре обслуживания партнеров РСЯ) и зарабатывайте, получайте призы и партнерские вознаграждения. Без балды — это .

  7. — система , которая отличается от аналогичного инструмента Гугла (Аналистикса) тем, что имеет интуитивно понятный и нарядный интерфейс, а также проста в освоении.

  8. — на рынке рунета успешно конкурирует с , ну и оттягивает на себя часть пользователей от Джимейла.

    По функционалу новая инкарнация Yandex Mail не сильно уступает последнему, а в некоторых аспектах даже превосходит. Например, имеется бесплатная возможность получения , что в Гугле сейчас стало стоить малую копеечку ().

  9. — файловое хранилище, которое призвано стать реальной альтернативой Дропбоксу (читайте про то, ) или .

  10. — новый сервис предлагающий пользователям свежую подборку материалов по интересующим их тема. Подборка формируется автоматически на основе предпочтений каждого конкретного пользотеля. Подробнее о сервисе читайте по приведенной ссылке.
  11. — поисковый движок любой СМС, на которой будет работать ваш сайт, всегда будет хуже, чем данный инструмент. Поэтому не примените его установить, ну или его аналог от Гугла.
  12. — это не сервисы, но важные инструменты, с помощью которых компания оценивает статический вес всех проиндексированных документов, а обычные пользователи могут оценить, за какую цену стоит продавать или покупать ссылки с определенных сайтов (читайте про , вечных ссылок или )
  13. — почивший в бозе (а точнее в Юкозе) бесплатный конструктор народных сайтов. Раньше не нем можно было создавать бесплатные сайты или хранить и передавать файлы (последнюю функцию на себя взял описанный чуть выше Диск)
  14. — довольно популярная надстройка над браузерами, которая, правда, самой поисковой системе гораздо нужнее, чем пользователям (установка поиска по умолчанию, домашней страницы, сбор пользовательских предпочтений и т.п.).

    Да, все это не так агрессивно реализовано, как у , но что-то общее имеется.

  15. — раньше подобная штука была в Опере (экспресс-панель), но благодаря нашему герою, теперь эти закладки можно использовать в любом браузере (устанавливаются ).

  16. — сделан на том же движке, что и Гугл Хром, но обладает рядом индивидуальных особенностей, которых нет у конкурентов.

  17. — набор кнопок для добавления анонсов статей на сайте в популярные социальные сети. Статистику этого блока можно отслеживать в Метрике.

  18. — это не сервис и не инструмент, а просто констатация того, что эта поисковая система пока еще не способна в реальном времени и обновляет поисковую выдачу дискретно через определенные неравнозначные временные интервалы, которые и принято называть апом.
  19. — может искать не только по введенным в поисковую строку словам или фразам, но и осуществлять , которую вы загрузите со своего компьютера или укажите ее местоположение в интернет.

  20. — онлайн сервис подобный .
  21. — ну, конечно же, это далеко еще не Google translate, но тоже дает очень неплохой перевод, правда на гораздо меньшее число языков.

  22. — поможет вам измерить скорость интернет канала, которым вы пользуетесь.
  23. — сервис очень удобный и вполне претендует на звание лучшего в рунете.

  24. — самый популярный каталог сайтов всего рунета, но, к сожалению, попасть туда даже на платной основе удается далеко не всем.
  25. — первый помощник тем, кто уже усвоил , ибо позволяет собрать , чтобы потом писать под них статьи.
  26. — очень специфическая вещь, которую в двух словах не объяснишь, но вы можете прочитать статью приведенную по ссылке.

Думаю, что теперь, хотя бы в общих чертах, вам стало ясно, что такое Yandex и насколько он велик и могуч. Спасибо.

Удачи вам! До скорых встреч на страницах блога сайт

посмотреть еще ролики можно перейдя на
");">

Вам может быть интересно

Виджеты Яндекса - как настроить и сделать главную страницу более информативной и удобной именно вам Яндекс Плюс - как получить пакет платных услуг за сущие копейки

У Яндекса достаточно быстрая ПС, после 2-4 часов регистрируемая страница появляется в выдаче. Но это означает лишь то, что она поставлена в очередь на полную индексацию. После того, как сайт проходит полную индексацию, она может пропасть со страницы выдачи, если робот сочтет ее за спам, либо из-за каких-нибудь технических проблем. Если ваш ресурс после первичной проверки вышел на первые места по тому или иному запросу, то после полной индексации, возможно, он будет совсем на других позициях. Положение нужно отслеживать в течение нескольких дней.

Не стоит волноваться, если попадете в следующую ситуацию:

Страница после полной индексации заняла хорошую позицию. Но после одной из проверок ее место в списке результатов ниже, чем обычно. А на следующий день — опять все по-прежнему. Список результатов может меняться в зависимости от загруженности серверов. Это происходит потому, что база данных имеет кластерную структуру и разнесена на несколько серверов.

В 2009 году Яндекс внедрил новый метод машинного обучения - Матрикснет. С его помощью строится формула ранжирования. Важная особенность этого метода - в том, что он устойчив к переобучению. Это позволяет учитывать очень много факторов ранжирования - и при этом не увеличивать количество оценок асессоров и не опасаться, что машина найдет несуществующие закономерности.

С сайта yandex.ru

Советы по оптимизации:

  • Не нужно делать очень маленькие или очень большие документы. Яндекс любит документы средних размеров, насыщенные текстом (статьи и т.п.). Следует умеренно повторять ключевые слова. Ключевые слова можно писать в ALT описании, но вес слов в этом тэге ниже.
  • Хорошо индексируются страницы, созданные скриптами cgi, php. Это касается гостевых книг, форумов и т.п. Для остальных (кроме главной) требуется примерно 2 недели.
  • Если портал на русском языке, а домен не в зоне.ru, то Яндекс все равно проиндексирует.

Поисковый маркетинг

Стоимость поискового маркетинга индивидуальна. Она зависит от набора услуг, которые будут применяться в процессе продвижения. В свою очередь пакет услуг формируется в зависимости от типа сайта, его текущего состояния, а также от позиции в ранжировании.

Стоимость от 40 000 рублей

UserAgent

Имя поискового робота: Yandex/1.03.00х, где х — тип паука, в зависимости от типа индексации (первичная, полная).

Поддержка мета-тэгов

Мета-тэги keywords и description: ключевые слова в них не помогают достигать хороших позиций. В мета-тэгах нужно писать лишь те слова, которые встретятся в тексте страницы.

Тег description используется в описании страницы в результатах поиска. Это нужно учитывать при его составлении, т.к. это будет один из критериев, по которым пользователь решает, заходить на сайт или нет.

Мета-тэги, такие как revisit-after, content — не поддерживаются.

Советы по улучшению позиции сайта.

  • Прописывайте ключевые слова в тегах: Title, заголовки (h1-h6), содержание страницы, ALT.
  • В формулу вычисления релевантности включен Взвешенный Индекс Цитирования, аналог Page Rank в Google. Обычный Индекс Цитирования используется только при сортировке порталов в каталоге Яндекса. Влияние на положение в результатах поиска оказывает ВИЦ.

Спам

Разработана технология определения спама, но пока она является крайне неэффективной. Команда разработчиков работает над этим.

Поисковые системы (ПС) уже приличное время являются обязательной частью интернета. Сегодня они громадные и сложнейшие механизмы, которые представляют собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса.


Многие пользователи поиска никогда не думали о принципах их работы, о способах обработки пользовательских запросов, о том, как построены и функционируют данные системы. Данный материал поможет людям, которые занимаются оптимизацией и , понять устройство и основные функции поисковых машин.

Функции и понятие ПС

Поисковая система – это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер.

Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс.

Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как выбрать автомобиль для себя». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска «как выбрать авто». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети.




Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как выбрать автомобиль в Анадыри»).

Самая основная задача каждой поисковой системы – доставить людям именно тот вид информации, который им нужен. А приучить пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно.

Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете.

Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц?




Для того чтобы получить правильные ответы на подобные вопросы, разработчики поиска постоянно улучшают принципы ранжирования и его алгоритмы, добавляют им новые возможности и функции и любыми средствами пытаются сделать быстрее работу системы.

Основные характеристики поисковых систем

Обозначим главные характеристики поиска:

Полнота.

Полнота является одной из главнейших характеристик поиска, она представляет собой отношение цифры найденных по запросу информационных документов к их общему числу в интернете, относящихся к данному запросу. Например, в сети есть 100 страниц имеющих словосочетание «как выбрать авто», а по такому же запросу было отобрано всего 60 из общего количества, то в данном случае полнота поиска составит 0,6. Понятно, что чем полнее сам поиск, тем больше вероятность, что пользователь найдет именно тот документ, который ему необходим, конечно, если он вообще существует.

Точность.

Еще одна основная функция поисковой системы – точность. Она определяет степень соответствия запросу пользователя найденных страниц в Сети. К примеру, если по ключевой фразе «как выбрать автомобиль» найдется сотня документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить ее в автомобиль»), то поисковая точность равна 50/100 = 0,5.

Чем поиск точнее, тем скорее пользователь найдет необходимую ему информацию, тем меньше разнообразного «мусора» будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса.

Актуальность.

Это значимая составляющая поиска, которую характеризует время, проходящее с момента опубликования информации в интернете до занесения ее в индексную базу поисковика.

К примеру, на следующий день после возникновения информации о выходе нового iPad, множество пользователей обратилась к поиску с соответствующими видами запросов. В большинстве случаев информация об этой новости уже доступна в поиске, хотя времени с момента ее появления прошло очень мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз за день.

Скорость поиска.

Такая функция как скорость поиска теснейшим образом связана с так называемой «устойчивостью к нагрузкам». Ежесекундно к поиску обращается огромное количество людей, подобная загруженность требует значительного сокращения времени для обработки одного запроса. Тут интересы, как поисковой системы, так и пользователя целиком совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая система должна отработать его запрос тоже максимально быстро, чтобы не притормозить обработку последующих запросов.

Наглядность.

Наглядное представление результатов является важнейшим элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы разных документов. Вследствие нечеткости составления ключевых фраз для поиска или его не точности, даже самые первые результаты запроса не всегда имеют только нужные сведения.

Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Разнообразные компоненты страниц выдачи ПС помогают ориентироваться в поисковых результатах.

История развития поисковых систем

Когда интернет только начал развиваться, число его постоянных пользователей было небольшим, и объем информации для доступа был сравнительно невеликим. В основном доступ к этой сети имели лишь специалисты научно-исследовательских сфер. В то время, задача нахождения информации не была столь актуальна как сейчас.

Одним из самых первых методов организации широкого доступа к ресурсам информации стало создание каталогов сайтов, причем ссылки на них начали группировать по тематике. Таким первым проектом стал ресурс Yahoo.com, который открылся весной 1994-ого года. Впоследствии когда количество сайтов в Yahoo-каталоге существенно увеличилось, была добавлена опция поиска необходимых сведений по каталогу. Это еще не было в полной мере поисковой системой, так как область такого поиска была ограничена только сайтами, входящими в данный каталог, а не абсолютно всеми ресурсами в интернете. Каталоги ссылок весьма широко использовались раньше, однако в настоящее время, практически в полной мере утратили свою популярность.

Ведь даже сегодняшние, громадные по своим объемам каталоги имеют информацию о незначительно части сайтов в интернете. Самый известный и большой каталог в мире имеет информацию о пяти миллионах сайтов, когда база Google содержит информацию о более чем 25 миллиардов страниц.




Самой первой настоящей поисковой системой стала WebCrawler, возникшая еще в 1994-ом году.

В следующем году появились AltaVista и Lycos. Причем первая была лидером по поиску информации очень длительное время.




В 1997-ом году Сергей Брин вместе с Ларри Пейджем создал машину поисковую Google как исследовательский проект в Стэндфордском университете. Сегодня именно Google, самая востребованная и популярная поисковая система в мире.




В сентябре 1997-ом году была анонсирована (официально) ПС Yandex, которая в настоящий момент является самой популярной системой поиска в Рунете.




По данным на сентябрь 2015 года , доли поисковых систем в мире распределены следующим образом:
  • Google - 69,24 %;
  • Bing - 12,26 %;
  • Yahoo! - 9,19 %;
  • Baidu - 6,48 %;
  • AOL - 1,11 %;
  • Ask - 0,23 %;
  • Excite - 0,00 %


По данным на декабрь 2016 года , доли поисковых систем в Рунете:

  • Яндекс - 48,40%
  • Google - 45,10%
  • Search.Mail.ru - 5,70%
  • Rambler - 0,40%
  • Bing - 0,30%
  • Yahoo - 0,10%

Принципы работы поисковой системы

В России главной системой поиска является Яндекс, затем Google, а потом Поиск@Mail.ru. Все большие системы поиска имеют свою структуру, которая весьма отличается от других. Но все-таки можно выделить общие для всех поисковиков основные элементы.

Модуль индексирования.

Данный компонент состоит из трех программ-роботов:

Spider (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы.




«Паук» функционирует следующим образом. Робот передает запрос на сервер “get/path/document” и иные команды запроса HTTP. В ответ программа-робот получает поток текста, который содержит информацию служебного вида и, естественно, сам документ.
  • URL скаченной страницы;
  • дата, когда осуществлялось скачивание страницы;
  • заголовок http-ответа сервера;
  • html-код, «тела» страницы.
Crawler («путешествующий» паук). Данная программа автоматически заходит на все ссылки, которые найдены на странице, а также выделяет их. Его задача – определиться, куда в дальнейшем должен заходить паук, основываясь на этих ссылках или исходя из заданного списка адресов.

Indexer (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки.



Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов.

Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др.

Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.

База данных

База данных (или индекс поисковика) - комплекс хранения данных, массив информации в котором сохраняются определенным образом переделанные параметры каждого обработанного модулем индексации и скачанного документа.

Поисковый сервер

Это самый важный элемент всей системы, потому что от алгоритмов, лежащих в основе ее функциональности, прямо зависит скорость и, конечно же, качество поиска.

Поисковый сервер работает следующим образом:

  • Запрос, который идет от пользователя подвергается морфологическому анализу. Информационное окружение любого документа, имеющегося в базе, генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е. информационное поле текста соответствующего данному запросу).
  • Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих.
  • В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными.
  • Затем генерируется сам сниппет, т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают.
  • Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты (SERP).
Все эти элементы тесно связаны между собой и функционируют, взаимодействуя, образовывая отчетливый, но достаточно непростой механизм функционирования ПС, требующий громадных затрат ресурсов. 1. Термины и определения В настоящем соглашении об обработке персональных данных (далее - Соглашение) нижеприведенные термины имеют следующие определения: Оператор - ИП Днепровский Олег Александрович. Акцепт Соглашения - полное и безоговорочное принятие всех условий Соглашения путем отправки и обработки персональных данных. Персональные данные - информация, внесенная Пользователем (субъектом персональных данных) на сайте и прямо или косвенно относящаяся к данному Пользователю. Пользователь - любое физическое или юридическое лицо, успешно прошедшее процедуру заполнение полей ввода на сайте. Заполнение полей ввода - процедура отправки Пользователем имени, фамилии, номера телефона, персонального адреса электронной почты (далее - Персональные данные) в базу зарегистрированных пользователей сайта, производимая с целью идентификации Пользователя. В результате заполнения полей ввода персональные данные отправляются в базу данных Оператора. Заполнение полей ввода осуществляется добровольно. сайт - сайт, размещенный в сети Интернет и состоящий из одной страницы. 2. Общие положения 2.1. Настоящее Соглашение составлено на основании требований Федерального закона от 27.07.2006 г. No 152-ФЗ «О персональных данных» и положений Статьи 13.11 о «Нарушении законодательства Российской Федерации в области персональных данных» Кодекса об административных правонарушениях Российской Федерации и действует в отношении всех персональных данных, которые Оператор может получить о Пользователе во время использования им Сайта. 2.2. Заполнение полей ввода Пользователем на Сайте означает безоговорочное согласие Пользователем со всеми условиями настоящего Соглашения (Акцепт Соглашения). В случае несогласия с этими условиями Пользователь не осуществляет Заполнение полей ввода на Сайте. 2.3. Согласие Пользователя на предоставление персональных данных Оператору и их обработку Оператором действует до момента прекращения деятельности Оператора либо до момента отзыва согласия Пользователем. Акцептовав настоящее Соглашение, и пройдя процедуру Регистрации, а также осуществляя последующий доступ к Сайту, Пользователь подтверждает, что он, действуя своей волей и в своем интересе, передает свои персональные данные для обработки Оператору и согласен на их обработку. Пользователь уведомлен, что обработка его персональных данных будет осуществляться Оператором на основании Федерального закона от 27.07.2006 г. No 152-ФЗ «О персональных данных». 3. Перечень персональных данных и иной информации о пользователе, подлежащих передаче Оператору 3.1. При использовании Сайта Оператора Пользователем представляются следующие персональные данные: 3.1.1. Достоверная персональная информация, которую Пользователь предоставляет о себе самостоятельно при Заполнении полей ввода и/или в процессе использования сервисов Сайта, включая, фамилию, имя, отчество, номер телефона (домашний или мобильный), персональный адрес электронной почты. 3.1.2. Данные, которые автоматически передаются сервисам Сайта в процессе их использования с помощью установленного на устройстве Пользователя программного обеспечения, в том числе IP-адрес, информация из Cookies, информация о браузере Пользователя (или иной программе, с помощью которой осуществляется доступ к сервисам). 3.2. Оператор не проверяет достоверность персональных данных, предоставляемых Пользователем. При этом Оператор исходит из того, что Пользователь предоставляет достоверную и достаточную персональную информацию по вопросам, предлагаемым в Полях ввода. 4. Цели, правила сбора и использования персональных данных 4.1. Оператор осуществляет обработку персональных данных, которые необходимы для предоставления сервисов и оказания услуг Пользователю. 4.2. Персональные данные Пользователя используются Оператором в следующих целях: 4.2.1. Идентификация Пользователя; 4.2.2. Предоставление Пользователю персонализированных сервисов и услуг (а также, информирование о новых акциях и услугах компании, путём рассылки писем); 4.2.3. Поддерживания связи с Пользователем в случае необходимости, в том числе направление уведомлений, запросов и информации, связанных с использованием сервисов, оказанием услуг, а также обработка запросов и заявок от Пользователя; 4.3. В ходе обработки персональных данных будут совершены следующие действия: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, блокирование, удаление, уничтожение. 4.4. Пользователь не возражает, что указанные им сведения в определенных случаях могут предоставляться уполномоченным государственным органам РФ в соответствии с действующим законодательством РФ. 4.5. Персональные данные Пользователя хранятся и обрабатываются Оператором в порядке, предусмотренном настоящим Соглашением, в течение всего срока осуществления деятельности Оператором. 4.6. Обработка персональных данных осуществляется Оператором путем ведения баз данных, автоматизированным, механическим, ручным способами. 4.7. Сайт использует файлы Cookies и другие технологии, чтобы отслеживать использование сервисов Сайта. Эти данные необходимы для оптимизации технической работы Сайта и повышения качества предоставления услуг. На Сайтее автоматически записываются сведения (включая URL, IP-адрес, тип браузера, язык, дату и время запроса) о каждом посетителе Сайта. Пользователь вправе отказаться от предоставления персональных данных при посещении Сайта или отключить файлы Cookies, но в этом случае не все функции Сайта могут работать правильно. 4.8. Предусмотренные настоящим Соглашением условия конфиденциальности распространяются на всю информацию, которую Оператор может получить о Пользователе во время пребывания последнего на Сайте и использования Сайта. 4.9. Не является конфиденциальной информация, публично раскрытая в ходе исполнения настоящего Соглашения, а также информация, которая может быть получена сторонами или третьими лицами из источников, к которым имеется свободный доступ любым лицам. 4.10. Оператор принимает все необходимые меры для защиты конфиденциальности персональных данных Пользователя от несанкционированного доступа, изменения, раскрытия или уничтожения, в том числе: обеспечивает постоянную внутреннюю проверку процессов сбора, хранения и обработки данных и обеспечения безопасности; обеспечивает физическую безопасность данных, предотвращая неправомерный доступ к техническим системам, обеспечивающим работу Сайта, в которых Оператор хранит персональные данные; предоставляет доступ к персональным данным только тем сотрудникам Оператора или уполномоченным лицам, которым эта информация необходима для выполнения обязанностей, непосредственно связанных с оказанием услуг Пользователю, а также эксплуатации, разработки и улучшения Сайта. 4.11. В отношении персональных данных Пользователя сохраняется их конфиденциальность, кроме случаев добровольного предоставления Пользователем информации о себе для общего доступа неограниченному кругу лиц. 4.12. Передача Оператором персональных данных Пользователя правомерна при реорганизации Оператора и передачи прав правопреемнику Оператора, при этом к правопреемнику переходят все обязательства по соблюдению условий настоящего Соглашения применительно к полученной им персональной информации. 4.13. Настоящее Положение применимо только к Сайту Оператора. Компания не контролирует и не несет ответственность за сайты (сервисы) третьих лиц, на которые пользователь может перейти по ссылкам, доступным на Сайте Оператора, в том числе в результатах поиска. На таких Сайтах (сервисах) у пользователя может собираться или запрашиваться иная персональная информация, а также могут совершаться иные действия 5. Права пользователя как субъекта персональных данных, изменение и удаление пользователем персональных данных 5.1. Пользователь вправе: 5.1.2. Требовать от Оператора уточнения его персональных данных, их блокирования или уничтожения в случае, если персональные данные являются неполными, устаревшими, неточными, незаконно полученными или не являются необходимыми для заявленной цели обработки, а также принимать предусмотренные законом меры по защите своих прав. 5.1.3. Получать информацию, касающуюся обработки его персональных данных, в том числе содержащей: 5.1.3.1. подтверждение факта обработки персональных данных Оператором; 5.1.3.2. цели и применяемые оператором способы обработки персональных данных; 5.1.3.3. наименование и место нахождения Оператора; 5.1.3.4. обрабатываемые персональные данные, относящиеся к соответствующему субъекту персональных данных, источник их получения, если иной порядок представления таких данных не предусмотрен федеральным законом; 5.1.3.5. сроки обработки персональных данных, в том числе сроки их хранения; 5.1.3.6. иные сведения, предусмотренные действующим законодательство м РФ. 5.2. Отзыв согласия на обработку персональных данных может быть осуществлен Пользователем путем направления Оператору соответствующего письменного (распечатанного на материальном носителе и подписанного Пользователем) уведомления. 6. Обязанности Оператора. Доступ к персональным данным 6.1. Оператор обязуется обеспечивать недопущение несанкционированного и не целевого доступа к персональным данным Пользователей Сайта Оператора. При этом санкционированным и целевым доступом к персональным данным Пользователей Сайта будет считаться доступ к ним всех заинтересованных лиц, реализуемый в рамках целей деятельности и тематике Сайта Оператора. Вместе с тем Оператор не несет ответственности за возможное не целевое использование персональных данных Пользователей, произошедшее вследствие: технических неполадок в программном обеспечении и в технических средствах и сетях, находящихся вне контроля Оператора; в связи с намеренным или ненамеренным использованием Сайтов Оператора не по их прямому назначению третьими лицами; 6.2 Оператор принимает необходимые и достаточные организационные и технические меры для защиты персональной информации пользователя от неправомерного или случайного доступа, уничтожения, изменения, блокирования, копирования, распространения, а также от иных неправомерных действий с ней третьих лиц. 7. Изменение Положения о политике конфиденциальности. Применимое законодательство 7.1. Оператор имеет право вносить изменения в настоящее Положение без какого-либо специального уведомления Пользователей. При внесении изменений в актуальной редакции указывается дата последнего обновления. Новая редакция Положения вступает в силу с момента ее размещения, если иное не предусмотрено новой редакцией Положения. 7.2. К настоящему Положению и отношениям между Пользователем и Оператором, возникающим в связи с применением Положения, подлежит применению право Российской Федерации. Принимаю Не принимаю

Загрузка...