Принципи на търсачките. Търсачки в интернет

В Интернет, на различни сайтове на потребителя се предлага голямо количество различна информация. За да получите необходимата информация, търсите отговори на въпроси, създадени от търсачките. Чувайки тази фраза, мнозина мислят за Google, "Yandex". Търсачките в интернет обаче са много по-големи.

Какво е търсачка

Търсачката се счита за софтуер, който се състои от база данни с документи. На потребителите се предоставя специален интерфейс, който ви позволява да въвеждате необходимите заявки и да получавате връзки със съответната информация. На първите позиции в резултатите от търсенето винаги се намират документи, които са толкова последователни, колкото това, което конкретен човек търси.


Изпълнението на търсенето, което се формира в съответствие с въведената заявка, обикновено съдържа различни видове резултати. Тя може да съдържа уеб страници, видео и аудио файлове, снимки, PDF файлове, конкретни продукти (ако търсите чрез онлайн магазин).

Класификация на търсачките

Съществуващите търсачки са класифицирани в няколко вида. Преди всичко трябва да се наричат ​​традиционните търсачки. В такива търсачки принципите на работа са насочени към намиране на информация за огромен брой съществуващи сайтове. Търсачките все още са на отделни интернет ресурси:
  • в онлайн магазините (за намиране на правилните стоки);
  • на форуми и блогове (за търсене на съобщения);
  • в
  • Търсачките все още са разделени според географската характеристика. В тази класификация има 3 групи търсачки:


  • Глобално. Търсенето се извършва по целия свят. Лидерът в тази група е търсачката на Google. Преди това имаше такива търсачки като Inktomi, AltaVista и други
  • Регионални. Търсенето се извършва по държава или група държави, в която има един език. Регионалните търсачки са широко разпространени. Техният пример в Русия е "Yandex, Rambler.
  • Местно. Търсенето се извършва в определен град. Пример за такава търсачка е Tomsk.ru.

    Съставки на търсачките

    Във всяка търсачка можете да изберете 3 съставни елемента, които определят принципите на търсачката:
  • работа (индексатор, паяк, стилус);
  • база данни;
  • Управляващ въпрос.
  • Роботът е специална програма, чиято цел е да създаде база данни. Базата данни съхранява и сортира цялата събрана информация. Процесорът на исканията, наречен клиент, който работи със специални заявки. Той има достъп до базата данни. Клиентът не винаги се намира на същия компютър. Управляващият заявка се разпространява в няколко физически несвързани компютърни системи.

    Принципи на търсачките

    Всички съществуващи системи работят на един принцип. Помислете например за функционирането на традиционните търсачки, предназначени за интернет. Работата на робота е подобна на действията на потребителя. Тази програмапериодично заобикаля всички сайтове, добавя нови страници и интернет ресурси към базата данни. Този процес се нарича индексиране.
    Когато потребителят въведе заявка в полето за търсене, клиентът започва да работи. Програмата се отнася до съществуващата база данни и генерира извличане на ключовите думи. Референтната търсачка предоставя на потребителя в определена последователност. Те се сортират по значимост, т.е. се взема предвид значимостта. Всяка търсачка има свой собствен начин за определяне на приложимостта. Ако потребителят изпрати конкретна заявка към различни системи, той ще получи не същия изход. Алгоритъмът за определяне на уместността се пази в тайна.

    Повече за приложимостта

    С прости думи, значимостта се нарича съответствието на думите, въведени в търсенето, или комбинацията от думите на конкретните препратки в издаването. Позицията на документите в списъка засяга няколко нюанса:
  • Наличието на думи, въведени в търсенето, в документи. Този нюанс е очевиден. Ако документът съдържа думи от заявка, въведена от потребителя, това означава, че документът съответства на думите за търсене.
  • Честота на поява на думи. Колкото по-често се използват ключовите думи в документа, толкова повече ще бъде в списъка с извлечения. Но не всичко е толкова просто. Твърде често използването на думи може да е знак за нискокачествено съдържание за търсачката.
  • Алгоритъмът за определяне на уместността е доста сложен. Преди няколко години в изданието могат да бъдат включени връзки към съответните ключови думи, но не исъответства на тяхното съдържание. В момента принципите на търсачките са сложни. Сега работата може да анализира напълно целия текст. В работата на търсещите инженери са записани голям брой различни фактори. Поради това екстрадирането се формира от най-качествените, релевантни справки.

    Как правилно да организирате заявките

    Дори в училище ни беше научено да задаваме правилно въпроси. Зависи от отговорите, които ще получим. Това правило обаче не трябва да се спазва при използване на търсачки. За съвременните търсачки няма роля, която броят или случаят е написан от човек в неговата заявка. Във всеки случай въпросът ще включва същите резултати. Ясна формулировка не се изисква за търсачките. Потребителят трябва само правилно да избере ключовите думи. Помислете за пример. Трябва да намерим текста на песента "Денят без теб", изпълнена от известната женска поп-група "Виа-Гра". Когато кандидатствате за търсачката, не е задължително да се обадите на групата, да посочите, че това е песен. Достатъчно е да напишете "ден без вас". За запазване на регистри не се изискват препинателни знаци. Тези нюанси не се отчитат от търсачките.

    Световна класация за търсачки

    Google е водещата търсачка в света. Основана е през 1998 година. Системата е много популярна, което се потвърждава от аналитични данни. Около 70% от заявките, постъпващи онлайн, се обработват от Google. Базата за търсене е огромна. Индексирани са над 60 трилиона различни документи. Google привлича потребителите лесноинтерфейса. Главната страница съдържа лого и лента за търсене. Тази функция ви позволява да се обадите на Google като една от най-минималистичните търсачки.

    На второ място в класацията на популярните търсачки е Bing. Тя се появи през същата година като Google. Създателят на тази търсачка е известна международна корпорация Microsoft. Baidu, Yahoo !, AOL, Excite, Ask заемат по-ниски позиции в класацията.

    Какво е популярно в Русия

    Сред търсачките в Русия най-популярен е Yandex. Тази услуга се появи през 1997 година. За първи път те са ангажирани в руската компания CompTek International. Малко по-късно, компанията "Yandex", която продължи да се ангажира с търсачката, се появи. Търсачката придоби огромна популярност през годините. Тя може да търси на няколко езика - руски, беларуски, украински, татарски, казахски, английски, немски, френски, турски. От статистиката е известно, че "Yandex" е интересен за повече от 50% от потребителите на Runet. Повече от 40% от хората предпочитат Google. Приблизително 3% от потребителите са избрали Mail.ru - руски интернет портал.

    Защитени търсачки

    Конвенционалните търсачки, които са общи за нас, не са напълно подходящи за деца. Младите интернет потребители могат случайно да намерят материали за възрастни, информация, която може да навреди на психиката. Поради тази причина са създадени специални защитени търсачки. В техните бази данни се съхранява само безопасно за децата съдържание.
    Пример за една такава търсачка -"Suputnyk.Dity". Тази услуга е доста млада. Тя е създадена от Ростелеком през 2014 година. Главната страница на търсачката е ярка и интересно проектирана. Тя представя широка гама от местни и чуждестранни карикатури за деца от различна възраст. Освен това на главната страница има когнитивни препратки, отнасящи се до няколко заглавия - "Спорт", "Искам да знам всичко", "Направи си сам", "Игри", "Технологии", "Училище", "Природа". Друг пример за защитена търсачка за деца - Agakids.ru. Това е абсолютно безопасен ресурс. Как работи търсачката? Роботът е конфигуриран по такъв начин, че само заобикаля сайтовете, които са свързани с детските теми или са полезни за родителите. В основата на търсачката попадат ресурси с карикатури, книги, образователна литература, игри, оцветяване. Родителите, използвайки Agakids.ru, могат да намерят за себе си обекти за възпитанието, здравето на децата.
    В заключение следва да се отбележи, че търсачките са сложни системи. Пред тях стоят много проблеми - проблемите на спама, определянето на значимостта на документите, скрининг на некачествено съдържание, анализ на документи, които не съдържат текстова информация. Поради тази причина разработчиците въвеждат нови подходи, алгоритми, които са търговска тайна за работата на интернет търсачките.

    Свързани публикации