poznatih internet pretraživača. Ruski pretraživači

25.09.2019 Zanimljivo

Pretraživači (PS) su već duže vrijeme neizostavni dio interneta. Danas su to ogromni i složeni mehanizmi koji nisu samo alat za pronalaženje svih potrebnih informacija, već i prilično uzbudljiva područja za poslovanje.

Mnogi korisnici pretrage nikada nisu razmišljali o principima svog rada, o tome kako se obrađuju zahtjevi korisnika, o tome kako su ovi sistemi izgrađeni i funkcionišu. Ovaj materijal će pomoći ljudima koji se bave optimizacijom i razumjeti uređaj i glavne funkcije tražilica.

Funkcije i koncept PS

Sistem pretraživanja- ovo je hardversko-softverski kompleks koji je dizajniran da implementira funkciju pretraživanja na Internetu, te odgovara na zahtjev korisnika, koji se obično postavlja u obliku tekstualne fraze (ili bolje rečeno upita za pretraživanje), izdavanjem linka lista do izvora informacija, sprovedena po relevantnosti. Najčešći i najveći pretraživači: Google, Bing, Yahoo, Baidu. U Runetu - Yandex, Mail.Ru, Rambler.

Pogledajmo pobliže značenje samog upita za pretraživanje, uzimajući Yandex sistem kao primjer.

Zahtjev mora biti formulisan od strane korisnika u potpunosti u skladu sa predmetom njegovog pretraživanja, što jednostavnije i sažetije. Na primjer, želimo pronaći informacije u ovoj tražilici: "kako odabrati automobil za sebe." Da biste to učinili, otvorite glavnu stranicu i unesite upit za pretraživanje "kako odabrati automobil". Tada se naše funkcije svode na praćenje navedenih linkova do izvora informacija na mreži.

Ali čak i postupajući na ovaj način, možda nećemo dobiti informacije koje su nam potrebne. Ako dobijemo ovako negativan rezultat, samo trebamo preformulisati naš upit, ili zaista nema korisnih informacija o ovoj vrsti upita u bazi pretraživanja (ovo je sasvim moguće sa datim „uskim“ parametrima upita, kao npr. na primjer, "kako odabrati automobil u Anadyru ").

Najosnovniji zadatak svakog pretraživača je da isporuči upravo onu vrstu informacija koja je ljudima potrebna. A naviknuti korisnike da kreiraju "ispravan" tip upita tražilicama, odnosno fraze koje će odgovarati njihovim principima rada, praktički je nemoguće.

Zato programeri pretraživača prave takve principe i algoritme svog rada koji bi omogućili korisnicima da pronađu informacije koje ih zanimaju. To znači da sistem mora “razmišljati” na isti način kao što čovjek razmišlja kada traži potrebne informacije na internetu.

Kada unese svoj upit u pretraživač, želi da pronađe ono što želi što je lakše i brže. Nakon dobijanja rezultata, korisnik daje svoju procjenu sistema, vodeći se nekoliko kriterija. Da li je uspio pronaći informacije koje su mu bile potrebne? Ako nije, koliko puta je morao preformatirati tekst upita da bi je pronašao? Koliko su informacije primljene ažurne? Koliko brzo je pretraživač obradio njegov zahtjev? Koliko su zgodni bili rezultati pretrage? Da li je željeni rezultat bio prvi, ili je bio na 30. mjestu? Koliko je "smeća" (nepotrebnih informacija) pronađeno zajedno sa korisnim informacijama? Da li će biti relevantnih informacija za njega, kada koristi PS, za nedelju dana ili za mesec dana?

Kako bi dobili prave odgovore na ovakva pitanja, programeri pretraživanja konstantno unapređuju principe rangiranja i njegove algoritme, dodajući im nove karakteristike i funkcije i na bilo koji način pokušavaju ubrzati rad sistema.

Glavne karakteristike pretraživača

Označimo glavne karakteristike pretrage:

Kompletnost.

Potpunost je jedna od najvažnijih karakteristika pretrage, to je odnos broja informativnih dokumenata pronađenih na zahtjev prema njihovom ukupnom broju na Internetu koji se odnosi na ovaj zahtjev. Na primjer, u mreži postoji 100 stranica sa frazom "kako odabrati automobil", a samo 60 od ukupnog broja odabrano je za isti upit, tada će u ovom slučaju opoziv pretraživanja biti 0,6. Jasno je da što je sama pretraga potpunija, veća je vjerovatnoća da će korisnik pronaći upravo onaj dokument koji mu je potreban, naravno, ako on uopće postoji.

Preciznost.

Još jedna važna karakteristika pretraživača je tačnost. Određuje stepen usklađenosti sa zahtjevom korisnika stranica koje se nalaze na Webu. Na primjer, ako postoje stotine dokumenata za ključnu frazu "kako odabrati automobil", polovina njih sadrži ovu frazu, a ostali jednostavno imaju takve riječi (kako pravilno odabrati auto radio i ugraditi ga u automobil" ), tada je tačnost pretrage jednaka 50/100 = 0,5.

Što je pretraga preciznija, prije će korisnik pronaći informacije koje su mu potrebne, manje će se različitog "smeća" naći među rezultatima, što manje pronađenih dokumenata neće odgovarati značenju zahtjeva.

Relevantnost.

Ovo je značajna komponenta pretrage koju karakteriše vrijeme proteklo od trenutka objavljivanja informacije na Internetu do ulaska u indeksnu bazu pretraživača.

Na primjer, dan nakon izlaska novog iPada, mnogi korisnici su se okrenuli pretraživanju s odgovarajućim vrstama upita. U većini slučajeva informacije o ovoj vijesti su već dostupne u pretrazi, iako je od njenog pojavljivanja prošlo vrlo malo vremena. To je zbog velikih pretraživača koji imaju "brzu bazu podataka" koja se ažurira nekoliko puta dnevno.

Brzina pretrage.

Takva funkcija kao što je brzina pretraživanja usko je povezana s takozvanom "tolerancijom opterećenja". Svake sekunde se ogroman broj ljudi okreće pretrazi, takvo opterećenje zahtijeva značajno smanjenje vremena obrade jednog zahtjeva. Ovdje se interesi i tražilice i korisnika potpuno poklapaju: posjetitelj želi što prije dobiti rezultate, a pretraživač mora što brže obraditi njegov zahtjev kako ne bi usporio obradu naknadnih zahtjeva.

vidljivost.

Vizuelna prezentacija rezultata je bitan element pogodnosti pretraživanja. Za mnoge upite, pretraživač pronalazi hiljade, au nekim slučajevima i milione različitih dokumenata. Zbog nedorečenosti kompilacije ključnih fraza za pretragu ili njene nepreciznosti, čak i prvi rezultati upita nemaju uvijek samo potrebne informacije.

To znači da osoba često mora sama tražiti među ponuđenim rezultatima. Različite komponente stranica za izdavanje PS-a pomažu vam da se krećete u rezultatima pretraživanja.

Istorija pretraživača

Kada je Internet tek počeo da se razvija, broj njegovih redovnih korisnika bio je mali, a količina informacija kojima se pristupa bila relativno mala. U osnovi, samo stručnjaci u istraživačkim oblastima imali su pristup ovoj mreži. U to vrijeme zadatak pronalaženja informacija nije bio toliko relevantan kao sada.

Jedna od prvih metoda organizovanja širokog pristupa informacionim resursima bilo je kreiranje kataloga sajtova, a veze ka njima su počele da se grupišu po temama. Resurs Yahoo.com, koji je otvoren u proljeće 1994., postao je takav prvi projekat. Nakon toga, kada se broj lokacija u Yahoo direktoriju značajno povećao, dodana je opcija traženja potrebnih informacija u direktoriju. To još nije bila punopravna tražilica, budući da je opseg takve pretrage bio ograničen samo na stranice uključene u ovaj direktorij, a ne na apsolutno sve resurse na Internetu. Direktoriji linkova su bili veoma široko korišćeni u prošlosti, ali u današnje vreme su skoro potpuno izgubili svoju popularnost.

Uostalom, čak i današnji ogromni katalozi sadrže informacije o malom dijelu stranica na Internetu. Najpoznatiji i najveći imenik na svijetu ima informacije na pet miliona stranica, dok Google baza podataka sadrži informacije na više od 25 milijardi stranica.

Prvi pravi pretraživač bio je WebCrawler, koji se pojavio davne 1994. godine.

AltaVista i Lycos su se pojavili sljedeće godine. Štaviše, prvi je dugo bio lider u traženju informacija.

Godine 1997. Sergey Brin je zajedno sa Larry Pageom kreirao Google pretraživač kao istraživački projekat na Univerzitetu Stanford. Danas je to Google, najpopularniji i najpopularniji pretraživač na svijetu.

U septembru 1997. godine (zvanično) je objavljen Yandex PS, koji je trenutno najpopularniji pretraživač na Runetu.

Prema septembar 2015, udjeli pretraživača u svijetu su raspoređeni na sljedeći način:

Google - 69,24%;
Bing - 12,26%;
Yahoo! - 9,19%;
Baidu - 6,48%;
AOL - 1,11%;
Pitanja - 0,23%;
Uzbuditi - 0,00%

Prema decembar 2016, dionice pretraživača u Runetu:

Yandex - 48,40%
Google - 45,10%
Search.Mail.ru - 5,70%
Rambler - 0,40%
Bing - 0,30%
Yahoo - 0,10%

Principi pretraživača

U Rusiji je glavni pretraživač Yandex, zatim Google, a zatim [email protected]. Svi veliki pretraživači imaju svoju strukturu, koja se prilično razlikuje od ostalih. Ali ipak, moguće je izdvojiti glavne elemente zajedničke svim pretraživačima.

Modul za indeksiranje.

Ova komponenta se sastoji od tri robota:

Pauk(na engleskom spider) - program koji je dizajniran za preuzimanje web stranica. Pauk preuzima određenu stranicu dok istovremeno izvlači sve veze sa nje. html kod se preuzima sa skoro svake stranice. Da bi to učinili, roboti koriste HTTP protokole.

"Pauk" funkcionira na sljedeći način. Robot šalje zahtjev serveru “get/path/document” i druge komande HTTP zahtjeva. Kao odgovor, program robota prima tekstualni tok koji sadrži informacije o vrsti usluge i, naravno, sam dokument.

URL preuzete stranice;
datum kada je stranica preuzeta;
zaglavlje http odgovora servera;
html kod, "tijelo" stranice.

Crawler("putujući" pauk). Ovaj program automatski prelazi na sve linkove koji se nalaze na stranici i također ih ističe. Njegov zadatak je da odredi kuda bi pauk trebao ići u budućnosti, na osnovu ovih veza ili na osnovu date liste adresa.

indexer(Bot za indeksiranje) je program koji analizira stranice koje su preuzeli pauci.

Indekser u potpunosti analizira stranicu na njene sastavne elemente i analizira ih koristeći sopstvene morfološke i leksičke tipove algoritama.

Analiza se vrši na različitim dijelovima stranice, kao što su naslovi, tekst, veze, stilske i strukturne karakteristike, html oznake itd.

Dakle, modul indeksiranja omogućava praćenje linkova određenog broja resursa, preuzimanje stranica, izdvajanje mase linkova na nove stranice iz primljenih dokumenata i detaljnu analizu istih.

Baza podataka

Baza podataka(ili indeks pretraživača) - kompleks za skladištenje podataka, niz informacija u kojem se na određeni način pohranjuju parametri svakog obrađenog modulom za indeksiranje i preuzetog dokumenta.

server za pretragu

Ovo je najvažniji element čitavog sistema, jer brzina i, naravno, kvalitet pretrage direktno zavise od algoritama koji su u osnovi njegove funkcionalnosti.

Server za pretragu radi ovako:

Zahtjev koji dolazi od korisnika se podvrgava morfološkoj analizi. Generiše se informaciono okruženje bilo kog dokumenta dostupnog u bazi podataka (dalje će biti prikazano kao isječak, tj. informativno polje teksta koji odgovara ovom zahtjevu).
Primljeni podaci se kao ulazni parametri prosleđuju specijalizovanom modulu za rangiranje. Oni se obrađuju za sve dokumente, a kao rezultat toga, za svaki takav dokument se izračunava vlastita ocjena, koja karakterizira relevantnost takvog dokumenta za zahtjev korisnika i ostale komponente.
Ovisno o uvjetima koje postavlja korisnik, ova ocjena se može prilagoditi dodatnim.
Tada se generiše sam snippet, tj. za bilo koji pronađeni dokument, naslov, bilješka koja najviše odgovara upitu i veza do ovog dokumenta izdvajaju se iz odgovarajuće tabele, dok su pronađeni oblici riječi i riječi istaknuti.
Rezultati primljene pretrage se prenose osobi koja ju je izvršila u obliku stranice na kojoj se izdaju rezultati pretrage (SERP).

Svi ovi elementi su međusobno usko povezani i funkcionišu, uzajamno deluju, formirajući poseban, ali prilično komplikovan mehanizam za funkcionisanje PS-a, koji zahteva ogromne izdatke resursa.

Na prvi pogled može izgledati da samo Yandex može biti bolji od Gugla, a ni to nije činjenica. Ove kompanije ulažu ogromne sume u inovacije i razvoj. Ima li neko zaista šansu ne samo da se takmiči sa vodećima, već i da pobijedi? Odgovor Lifehackera: "Da!" Postoji nekoliko pretraživača koji su uspjeli. Pogledajmo naše heroje.

Šta je

To je prilično poznat pretraživač otvorenog koda. Serveri se nalaze u SAD-u. Pored sopstvenog robota, pretraživač koristi rezultate iz drugih izvora: Yahoo! Pretraži BOSS, Wikipedia, Wolfram|Alpha.

Bolje

DuckDuckGo se pozicionira kao ultimativno pretraživanje privatnosti i privatnosti. Sistem ne prikuplja nikakve podatke o korisniku, ne pohranjuje logove (bez historije pretraživanja), upotreba kolačića je maksimalno ograničena.

DuckDuckGo ne prikuplja niti dijeli lične podatke korisnika. Ovo je naša politika privatnosti.
Gabriel Weinberg, osnivač DuckDuckGo

Zašto ti ovo treba

Svi glavni pretraživači pokušavaju personalizirati rezultate pretraživanja na osnovu podataka o osobi ispred monitora. Ovaj fenomen se naziva "filter balon": korisnik vidi samo one rezultate koji su u skladu sa njegovim preferencijama ili koje sistem smatra takvim.

DuckDuckGo stvara objektivnu sliku koja ne ovisi o vašem dosadašnjem ponašanju na webu, te se rješava Google i Yandex tematskog oglašavanja na osnovu vaših zahtjeva. DuckDuckGo olakšava pretraživanje informacija na stranim jezicima: Google i Yandex prema zadanim postavkama preferiraju web stranice na ruskom jeziku, čak i ako je upit unesen na drugom jeziku.

Šta je

"" je ruski metapretraživač koji su razvili diplomci Moskovskog državnog univerziteta Viktor Lavrenko i Vladimir Černišov. Pretražuje Google, Bing, Yandex i druge indekse, a ima i vlastiti algoritam pretraživanja.

Bolje

Pretraživanje kroz indekse svih glavnih pretraživača omogućava vam da generišete relevantne rezultate. Osim toga, "Nigma" dijeli rezultate u nekoliko tematskih grupa (klastera) i poziva korisnika da suzi polje za pretragu, odbacujući nepotrebno ili davanje prioriteta. Zahvaljujući modulima "Matematika" i "Hemija", možete rješavati matematičke probleme i tražiti rezultate hemijskih reakcija direktno u traci za pretragu.

Zašto ti ovo treba

Eliminiše potrebu traženja istog upita u različitim pretraživačima. Klaster sistem olakšava manipulaciju rezultatima pretrage. Na primjer, "Nigma" prikuplja rezultate iz online trgovina u poseban klaster. Ako ne namjeravate nešto kupiti, jednostavno isključite ovu grupu. Ako odaberete klaster "Sajtovi na engleskom jeziku", rezultate pretrage ćete dobiti samo na engleskom jeziku. Moduli "Matematika" i "Hemija" pomoći će školarcima.

Nažalost, projekat se trenutno ne razvija, jer su programeri svoju aktivnost prebacili na vijetnamsko tržište. Ipak, "Nigma" ne samo da nije zastarjela, već u nekim stvarima i dalje nadmašuje Google. Nadajmo se da će se razvoj nastaviti.

Šta je

not Evil je sistem koji pretražuje anonimnu Tor mrežu. Da biste ga koristili, morate otići na ovu mrežu, na primjer, pokretanjem specijalizovanog pretraživača sa istim imenom. not Evil nije jedini pretraživač te vrste. Postoji LOOK (podrazumevana pretraga u Tor pretraživaču, dostupna sa redovnog interneta) ili TORCH (jedan od najstarijih pretraživača na Tor mreži) i drugi. Odlučili smo se da nije Evil zbog nedvosmislene aluzije na sam Google (samo pogledajte početnu stranicu).

Bolje

On traži gdje je Googleu, Yandexu i drugim pretraživačima u principu zabranjen pristup.

Zašto ti ovo treba

Postoji mnogo resursa na Tor mreži koji se ne mogu naći na Internetu koji poštuje zakon. A kako vlasti pooštre kontrolu nad sadržajem weba, njihov broj će rasti. Tor je neka vrsta Mreže unutar Mreže: sa svojim društvenim mrežama, torrent trackerima, medijima, tržnicama, blogovima, bibliotekama itd.

YaCy

Šta je

YaCy je decentralizirana tražilica koja radi na principu P2P mreža. Svaki računar na kojem je instaliran glavni softverski modul samostalno skenira internet, odnosno analogan je robotu za pretraživanje. Dobijeni rezultati prikupljaju se u zajedničku bazu podataka koju koriste svi YaCy učesnici.

Bolje

Ovdje je teško reći da li je ovo bolje ili gore, budući da je YaCy potpuno drugačiji pristup organizaciji pretraživanja. Nedostatak jednog servera i vlasničke kompanije čini rezultate potpuno nezavisnim od nečijih preferencija. Autonomija svakog čvora isključuje cenzuru. YaCy je sposoban za pretraživanje dubokog weba i neindeksiranih javnih mreža.

Zašto ti ovo treba

Ako ste pobornik softvera otvorenog koda i besplatnog interneta na koji ne utiču vladine agencije i velike korporacije, onda je YaCy vaš izbor. Također se može koristiti za organiziranje pretraživanja unutar korporativne ili druge autonomne mreže. I iako YaCy nije baš koristan u svakodnevnom životu, on je dostojna alternativa Googleu u smislu procesa pretraživanja.

Pipl

Šta je

Pipl je sistem dizajniran za traženje informacija o određenoj osobi.

Bolje

Autori Pipl-a tvrde da njihovi specijalizovani algoritmi pretražuju efikasnije od "običnih" pretraživača. Konkretno, prioritetni izvori informacija su profili na društvenim mrežama, komentari, spiskovi učesnika i razne baze podataka u kojima se objavljuju podaci o ljudima, kao što su baze podataka sudskih odluka. Piplovo vodstvo u ovoj oblasti potvrđuju Lifehacker.com, TechCrunch i druge publikacije.

Zašto ti ovo treba

Ako trebate pronaći informacije o osobi koja živi u SAD-u, onda će Pipl biti mnogo efikasniji od Googlea. Baze podataka ruskih sudova su, očigledno, nedostupne pretraživaču. Stoga se ne nosi tako dobro sa građanima Rusije.

Šta je

Još jedan specijalizovani pretraživač. Traži različite zvukove (kuća, priroda, automobili, ljudi itd.) u otvorenim izvorima. Usluga ne podržava zahtjeve na ruskom, ali postoji impresivna lista oznaka na ruskom jeziku koje možete tražiti.

Bolje

U izdavanju samo zvukova i ništa više. U postavkama pretrage možete postaviti željeni format i kvalitet zvuka. Svi pronađeni zvukovi dostupni su za preuzimanje. Postoji pretraga zvukova po uzorku.

Zašto ti ovo treba

Ako trebate brzo da pronađete zvuk pucnjave muškete, udarac sisajućeg djetlića ili krik Homera Simpsona, onda je ova usluga za vas. I izabrao sam ovo samo iz dostupnih upita na ruskom jeziku. Na engleskom je spektar još širi. Ali ozbiljno, specijalizovana usluga podrazumeva specijalizovanu publiku. Ali hoće li i vama dobro doći?

Život alternativnih pretraživača je često prolazan. Lifehacker je pitao bivšeg izvršnog direktora ukrajinskog ogranka Yandexa Sergeja Petrenka o dugoročnim izgledima za takve projekte.

Što se tiče sudbine alternativnih pretraživača, ona je jednostavna: biti vrlo nišni projekti s malom publikom, dakle, bez jasnih komercijalnih izgleda, ili, obrnuto, s potpunom jasnoćom njihovog odsustva.

Ako pogledate primjere u članku, možete vidjeti da su takvi pretraživači ili specijalizirani za usku, ali traženu nišu, koja, možda samo do sada, nije dovoljno narasla da bi bila uočljiva na radarima Googlea ili Yandexa, ili testiraju originalnu hipotezu u rangiranju, koja još nije primjenjiva u konvencionalnom pretraživanju.

Na primjer, ako se odjednom pokaže da je pretraga na Tor-u tražena, odnosno barem postotku Google publike trebaju rezultati odatle, tada će, naravno, obični pretraživači početi rješavati problem kako pronađite ih i pokažite korisniku. Ako ponašanje publike pokaže da se značajan dio korisnika u značajnom broju upita čini relevantnijim rezultatima, podacima bez uzimanja u obzir faktora koji zavise od korisnika, tada će Yandex ili Google početi davati takve rezultate.

"Biti bolji" u kontekstu ovog članka ne znači "biti bolji u svemu". Da, u mnogim aspektima naši heroji su daleko od Gugla i Yandexa (čak i od Binga). Ali svaka od ovih usluga daje korisniku nešto što divovi industrije pretraživanja ne mogu ponuditi.

Pogledajmo najpopularnije pretraživače u Rusiji i svijetu.

Najpopularniji pretraživači u Rusiji

Yandex

Yandex je najpopularniji sistem za pronalaženje informacija u RuNetu. Sigurnost je broj jedan! Izabralo 27.000.000 ljudi.

"Yandex" ruski servis za pretragu pojavio se 1997. Nesumnjivi lider ruskog govornog područja interneta. Ima jedan od najboljih regionalnih sistema pretraživanja na svijetu. Tu je mogućnost pronalaženja ljudi na društvenim mrežama. Ovaj sistem ima ogroman broj korisnih dodataka:

Yandex.Disk
Karte
Raspored letova, vozova i autobusa
Vrijeme i još mnogo toga.

Vrlo je tražen među susjednim zemljama, jer menadžment usluge uzima u obzir zahtjeve korisnika iz zemalja ZND.

Mail

Mail.ru je obećavajuća poštanska usluga koja ima veliki broj obožavatelja.

Ne tako davno počeo se pozicionirati kao pretraživač. Može se podesiti prema zadanim postavkama tokom preuzimanja raznih aplikacija.

Aport

Prilično uobičajena tražilica na ruskom govornom području interneta. Po popularnosti, ova usluga je na drugom mjestu u Rusiji.

Prednosti pretraživača Aport:

Morfologija ruskog govornog područja se uzima u obzir.
Možete istaknuti kontekst prikazanih riječi.
Traži po kategoriji.
Postoji funkcija za preciziranje rezultata pretrage u skladu sa serverima i dostupnim odeljcima direktorijuma.
Svaki od zahtjeva može se prevesti na engleski i obrnuto.

Rambler

Predstavlja prvi sistem za pronalaženje informacija, koji je postao dostupan u Rusiji. Ranije je bio glavni konkurent Yandexu, jer se koristi Yandex tehnologija pretraživanja. Uzima se u obzir morfologija ruskog jezika. Na našoj rang listi zauzeo je počasno treće mjesto.

Najpopularniji pretraživači na svijetu

Google

Google je globalni gigant. Stoga ne čudi što ovaj pretraživač ima najveći dio svjetskog prometa.

Google pretraživač

Vrlo jednostavno i kvalitetno izdanje uživo i ogroman broj korisnih alata:

Dokumenti;
blogovi;
YouTube;
Društveni mediji;
Google+ i mnogo mnogo zanimljivih stvari.

Baidu

Baidu je kineski pretraživač. Kina je najnaseljenije mjesto na svijetu. Treba napomenuti i potpuno zatvoren pristup World Wide Webu.

Ovu „pretraživačku mašinu“ su preferirali milioni ljudi. Poći ćemo od činjenice da oni jednostavno nemaju izbora, ali, ipak, smatra ovaj sistem, sudeći po recenzijama, dosta zanimljivih i korisnih informacija.

bing

Bing je pretraživač iz Microsofta. Popularno u Evropi i SAD.

U poređenju sa Google-om, ima slab promet. Postavi kao standardnu pretragu u .

Yahoo!

Danas je to katalog resursa i "tražilica" u jednoj osobi, servis radi kao samostalan projekat. Po popularnosti, zauzeo je četvrtu poziciju u našem rejtingu.

Prednosti Yahoo pretraživača:

Može tražiti informacije raznih vrsta na ruskom jeziku.
Koristi se katalog korisnih veza ka mrežnim resursima u raznim zemljama svijeta.

AltaVista

Još jedan razvoj pretraživanja koji traži informacije koje su vam potrebne na Internetu. Nivo popularnosti mu je omogućio da sedi na petom redu.

Prednosti AltaVista tražilice:

Postoji podrška ruskom govornom području.

Lycos

Zajednički direktorij mrežnih resursa. Stranica je bazirana na pretraživaču zajedno sa rubrikatorom web portala. Pruža veze do raznih lokaliziranih izdanja kataloga. Koristi se engleski. Po popularnosti je na šestom mjestu u našoj ljestvici.

Ukrajinski pretraživač Meta

Jedinstveni sistem pretraživanja ukrajinskog porijekla. Nivo slave omogućio mu je da zauzme sedmo mjesto.

Prednosti Meta pretraživača:

Usluga uzima u obzir morfološke karakteristike ruskog i ukrajinskog jezika.
Ako je potrebno, možete istaknuti različite pronađene riječi u kontekstu.
Također će biti moguće prevesti rezultate pretraživanja i upite za pretraživanje na ruski, ukrajinski i engleski.

FTP pretraga

"Sistem za pretraživanje datoteka". Jedan je od 100 najvećih FTP servera u Ruskoj Federaciji. Nivo popularnosti odgovara osmom mjestu.

Šta je

DuckDuckGo je prilično poznat pretraživač otvorenog koda. Serveri se nalaze u SAD-u. Pored sopstvenog robota, pretraživač koristi rezultate drugih izvora: Yahoo, Bing, Wikipedia.

Bolje

DuckDuckGo ne prikuplja niti dijeli lične podatke korisnika. Ovo je naša politika privatnosti.
Gabriel Weinberg, osnivač DuckDuckGo

Zašto ti ovo treba

Formira objektivnu sliku koja ne ovisi o vašem dosadašnjem ponašanju na webu i oslobađa se Google i Yandex tematskog oglašavanja na osnovu vaših zahtjeva. Uz pomoć DuckDuckGo lako je pretraživati informacije na stranim jezicima, dok Google i Yandex preferiraju stranice na ruskom jeziku prema zadanim postavkama, čak i ako je upit unesen na drugom jeziku.

Šta je

not Evil je sistem koji pretražuje anonimnu Tor mrežu. Da biste ga koristili, morate otići na ovu mrežu, na primjer, pokretanjem specijaliziranog .

not Evil nije jedini pretraživač te vrste. Postoji LOOK (podrazumevana pretraga u Tor pretraživaču, dostupna sa redovnog interneta) ili TORCH (jedan od najstarijih pretraživača na Tor mreži) i drugi. Odlučili smo se da nije Evil zbog nepogrešive aluzije na Google (samo pogledajte početnu stranicu).

Bolje

On traži gdje je Googleu, Yandexu i drugim pretraživačima u principu zabranjen pristup.

Zašto ti ovo treba

Postoji mnogo resursa na Tor mreži koji se ne mogu naći na Internetu koji poštuje zakon. A njihov broj će rasti kako se kontrola vlasti nad sadržajem Weba pooštrava. Tor je vrsta mreže unutar Weba sa svojim društvenim mrežama, torrent trackerima, medijima, tržnicama, blogovima, bibliotekama itd.

3. YaCy

Šta je

Bolje

Zašto ti ovo treba

4. Pipl

Šta je

Pipl je sistem dizajniran za traženje informacija o određenoj osobi.

Bolje

Autori Pipl-a tvrde da njihovi specijalizovani algoritmi pretražuju efikasnije od "običnih" pretraživača. Posebno su prioritetni profili na društvenim mrežama, komentari, liste članova i razne baze podataka u kojima se objavljuju informacije o ljudima, kao što su baze podataka sudskih odluka. Piplovo vodstvo u ovoj oblasti potvrđuju Lifehacker.com, TechCrunch i druge publikacije.

Zašto ti ovo treba

Šta je

FindSounds je još jedan specijalizovani pretraživač. Pretražuje otvorene izvore za različite zvukove: kuća, priroda, automobili, ljudi itd. Usluga ne podržava zahtjeve na ruskom, ali postoji impresivna lista oznaka na ruskom jeziku koje možete tražiti.

Bolje

U izdavanju samo zvukova i ništa više. U postavkama možete podesiti željeni format i kvalitet zvuka. Svi pronađeni zvukovi dostupni su za preuzimanje. Postoji pretraga šablona.

Zašto ti ovo treba

Ako trebate brzo da pronađete zvuk pucnjave muškete, udarac sisajućeg djetlića ili krik Homera Simpsona, onda je ova usluga za vas. A mi smo ovo odabrali samo iz dostupnih upita na ruskom jeziku. Na engleskom je spektar još širi.

Ozbiljno, specijalizovana usluga podrazumeva specijalizovanu publiku. Ali hoće li i vama dobro doći?

Šta je

Wolfram|Alpha je kompjuterski pretraživač. Umjesto linkova na članke koji sadrže ključne riječi, daje gotov odgovor na upit korisnika. Na primjer, ako u formular za pretragu unesete “uporedi stanovništvo New Yorka i San Francisca” na engleskom, tada će Wolfram|Alpha odmah prikazati tabele i grafikone sa poređenjem.

Bolje

Ova usluga je bolja od ostalih za pronalaženje činjenica i izračunavanje podataka. Wolfram|Alpha prikuplja i organizira znanje dostupno na webu iz različitih oblasti, uključujući nauku, kulturu i zabavu. Ako ova baza podataka sadrži spreman odgovor na upit za pretragu, sistem ga prikazuje, ako ne, izračunava i prikazuje rezultat. U ovom slučaju korisnik vidi samo i ništa više.

Zašto ti ovo treba

Ako ste, na primjer, student, analitičar, novinar ili istraživač, možete koristiti Wolfram|Alpha da pronađete i izračunate podatke koji se odnose na vaše aktivnosti. Usluga ne razumije sve zahtjeve, ali se stalno razvija i postaje sve pametnija.

Šta je

Metatražilica Dogpile prikazuje kombinovanu listu rezultata sa Google, Yahoo i drugih popularnih pretraživača.

Bolje

Prvo, Dogpile prikazuje manje oglasa. Drugo, usluga koristi poseban algoritam za pronalaženje i prikazivanje najboljih rezultata sa različitih pretraživača. Prema programerima Dogpile-a, njihov sistem generiše najkompletnije izdanje na čitavom Internetu.

Zašto ti ovo treba

Ako ne možete pronaći informacije na Google-u ili nekom drugom standardnom pretraživaču, potražite ih u nekoliko pretraživača odjednom koristeći Dogpile.

Šta je

BoardReader je sistem za pretraživanje teksta za forume, usluge pitanja i odgovora i druge zajednice.

Bolje

Usluga vam omogućava da suzite polje pretraživanja na društvene stranice. Zahvaljujući posebnim filterima, možete brzo pronaći objave i komentare koji odgovaraju vašim kriterijima: jezik, datum objavljivanja i naziv stranice.

Zašto ti ovo treba

BoardReader može biti koristan za PR stručnjake i druge medijske profesionalce koji su zainteresirani za mišljenje masovnih medija o određenim pitanjima.

Konačno

Život alternativnih pretraživača je često prolazan. Lifehacker je pitao bivšeg izvršnog direktora ukrajinske podružnice kompanije Yandex Sergeja Petrenka o dugoročnim izgledima za takve projekte.

Sergej Petrenko

Bivši izvršni direktor Yandex.Ukraine.

"Biti bolji" u kontekstu ovog članka ne znači "biti bolji u svemu". Da, u mnogim aspektima naši heroji su daleko od Yandexa (čak i od Binga). Ali svaka od ovih usluga daje korisniku nešto što divovi industrije pretraživanja ne mogu ponuditi. Sigurno znate i slične projekte. Podijelite s nama - razgovarajmo.

Oni su odavno postali sastavni dio ruskog interneta. Pretraživači su sada ogromni i složeni mehanizmi koji nisu samo alat za pronalaženje informacija, već i primamljiva područja za poslovanje.

Većina korisnika pretraživača nikada nije razmišljala (ili razmišljala, ali nije pronašla odgovor) o principu rada pretraživača, o šemi za obradu korisničkih zahtjeva, o tome od čega se ti sistemi sastoje i kako funkcionišu...

Ova majstorska klasa je dizajnirana da odgovori na pitanje kako funkcioniraju tražilice. Međutim, ovdje nećete pronaći faktore koji utiču na rangiranje dokumenata. I još više, ne biste trebali računati na detaljno objašnjenje Yandex algoritma. Njega, prema Ilji Segaloviču, - direktoru tehnologije i razvoja pretraživača Yandex, može prepoznati samo Ilya Segalovich "pod mučenjem" ...

2. Koncept i funkcije pretraživača

Pretraživač je softverski i hardverski sistem dizajniran za pretraživanje Interneta i odgovor na zahtjev korisnika, specificiran u obliku tekstualne fraze (upita za pretraživanje), izdavanjem liste linkova ka izvorima informacija, po redu relevantnosti (u u skladu sa zahtjevom). Najveći međunarodni pretraživači: Google, Yahoo , MSN . Na ruskom internetu ovo je Yandex, Rambler, Aport.

Razmotrimo detaljnije koncept upita za pretraživanje koristeći Yandex tražilicu kao primjer. Upit za pretragu korisnik treba da formuliše u skladu sa onim što želi da pronađe, što je moguće kraće i jednostavnije. Recimo da želimo u Yandexu pronaći informacije o tome kako odabrati automobil. Da biste to učinili, otvorite glavnu stranicu "Yandex" i unesite tekst upita za pretraživanje "kako odabrati automobil". Nadalje, naš zadatak je da otvorimo linkove date na naš zahtjev do izvora informacija na Internetu. Međutim, sasvim je moguće da ne pronađemo informacije koje su nam potrebne. Ako se to dogodilo, onda ili trebate preformulisati svoj zahtjev, ili baza podataka tražilice zaista nema nikakve relevantne informacije o našem zahtjevu (to se može dogoditi kada postavljate vrlo „uske“ upite, kao što je „kako odabrati automobil u Arkhangelsku ”)

Primarni cilj svakog pretraživača je da isporuči upravo one informacije koje traže. I naučiti korisnike da postavljaju “ispravne” zahtjeve sistemu, tj. zahtjevi koji odgovaraju principima rada pretraživača nisu mogući. Stoga programeri kreiraju takve algoritme i principe rada pretraživača koji bi omogućili korisnicima da pronađu informacije koje traže.

To znači da pretraživač mora "razmišljati" na isti način kao što razmišlja korisnik kada traži informacije. Kada korisnik uputi zahtjev pretraživaču, želi da pronađe ono što mu je potrebno što je brže i jednostavnije moguće. Primajući rezultat, on ocjenjuje performanse sistema, vodeći se nekoliko osnovnih parametara. Da li je našao ono što je tražio? Ako nije pronađen, koliko puta je morao da preformuliše upit da bi našao ono što je tražio? Koliko je mogao pronaći ažurne informacije? Koliko brzo je pretraživač obradio zahtjev? Koliko su zgodni bili predstavljeni rezultati pretrage? Da li je željeni rezultat bio prvi ili stoti? Koliko je smeća pronađeno zajedno sa korisnim informacijama? Da li će se tražene informacije pronaći prilikom pristupa pretraživaču, recimo, za nedelju dana ili za mesec dana?

Kako bi odgovorili na sva ova pitanja, programeri pretraživača neprestano unapređuju algoritme i principe pretraživanja, dodaju nove funkcije i mogućnosti i na sve moguće načine pokušavaju ubrzati sistem.

3. Glavne karakteristike pretraživača

Hajde da opišemo glavne karakteristike pretraživača:

potpunost
Kompletnost je jedna od glavnih karakteristika pretraživača, a to je omjer broja dokumenata pronađenih na zahtjev prema ukupnom broju dokumenata na Internetu koji zadovoljavaju ovaj zahtjev. Na primjer, ako na Internetu postoji 100 stranica koje sadrže frazu "kako odabrati automobil", a samo 60 ih je pronađeno za odgovarajući upit, tada će opoziv pretraživanja biti 0,6. Očigledno, što je pretraga potpunija, manja je vjerovatnoća da korisnik neće pronaći dokument koji mu je potreban, pod uslovom da on uopće postoji na internetu.
Preciznost
Preciznost je još jedna glavna karakteristika pretraživača, koja je određena stepenom u kom pronađeni dokumenti odgovaraju upitu korisnika. Na primjer, ako upit "kako odabrati automobil" sadrži 100 dokumenata, 50 njih sadrži izraz "kako odabrati automobil", a ostali jednostavno sadrže ove riječi ("kako odabrati pravi radio i instalirati ga u automobil”), tada se tačnost pretrage smatra jednakom 50/100 (=0,5). Što je pretraga preciznija, korisnik će brže pronaći dokumente koji su mu potrebni, što će se među njima pojaviti manje raznih vrsta „smeća“, rjeđe pronađeni dokumenti neće odgovarati zahtjevu.
Relevantnost
Relevantnost je podjednako važna komponenta pretraživanja, koju karakterizira vrijeme koje prođe od trenutka objavljivanja dokumenata na Internetu do ulaska u indeksnu bazu pretraživača. Na primjer, dan nakon pojave zanimljivih vijesti, veliki broj korisnika se obratio tražilicama s relevantnim upitima. Objektivno, nije prošlo ni jedan dan od objavljivanja vijesti na ovu temu, međutim, glavni dokumenti su već indeksirani i pretraživi, zahvaljujući postojanju takozvane „brze baze“ velikih pretraživača, koja je ažuriran nekoliko puta dnevno.
Brzina pretrage
Brzina pretraživanja usko je povezana s njegovom tolerancijom opterećenja. Na primjer, prema OOO Rambler Internet Holdingu, danas oko 60 zahtjeva u sekundi dolazi na Rambler pretraživač tokom radnog vremena. Takvo opterećenje zahtijeva smanjenje vremena obrade jednog zahtjeva. Ovde se interesi korisnika i pretraživača poklapaju: posetilac želi da dobije rezultate što je brže moguće, a pretraživač mora da obradi zahtev što je brže moguće kako ne bi usporio obračun narednih zahteva.
vidljivost

4. Kratka istorija razvoja pretraživača

U početnom periodu razvoja Interneta, broj njegovih korisnika bio je mali, a količina dostupnih informacija relativno mala. Većinom su samo istraživači imali pristup internetu. U to vrijeme zadatak traženja informacija na Internetu nije bio toliko relevantan kao sada.

Jedan od prvih načina organizovanja pristupa informacionim resursima mreže bilo je kreiranje otvorenih kataloga sajtova, linkovi ka resursima u kojima su grupisani prema temi. Prvi takav projekat bio je Yahoo.com, koji je otvoren u proljeće 1994. godine. Nakon značajnog povećanja broja stranica u katalogu, dodata je mogućnost pretraživanja potrebnih informacija u katalogu. U punom smislu, to još nije bila tražilica, budući da je opseg pretraživanja bio ograničen samo na resurse prisutne u direktoriju, a ne na sve Internet resurse.

Direktoriji linkova bili su naširoko korišteni u prošlosti, ali su skoro potpuno izgubili svoju popularnost u današnje vrijeme. Budući da čak i moderni, ogromni katalozi sadrže informacije o samo zanemarljivom dijelu interneta. Najveći mrežni direktorij DMOZ (koji se naziva i Open Directory Project) sadrži informacije o 5 miliona resursa, dok se baza podataka Google pretraživača sastoji od više od 8 milijardi dokumenata.

1995. godine pojavili su se pretraživači Lycos i AltaVista. Potonji je već dugi niz godina lider u oblasti pretraživanja informacija na Internetu.

Sergey Brin i Larry Page su 1997. godine kreirali Google pretraživač kao dio istraživačkog projekta na Univerzitetu Stanford. Google je trenutno najpopularniji pretraživač na svijetu!

Septembra 1997. službeno je objavljen pretraživač Yandex, koji je najpopularniji na internetu na ruskom govornom području.

Trenutno postoje tri glavna pretraživača (međunarodna) - Google, Yahoo i imaju svoje baze i algoritme pretraživanja. Većina drugih pretraživača (kojih ima veliki broj) koristi rezultate od tri navedena u ovom ili onom obliku. Na primjer, AOL pretraga (search.aol.com) koristi Google, dok AltaVista, Lycos i AllTheWeb koriste Yahoo.

5. Sastav i principi pretraživača

U Rusiji je glavni pretraživač Yandex, dalje - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Štoviše, u ovom trenutku Mail.ru koristi Yandex tražilicu i bazu podataka.

Gotovo svi glavni pretraživači imaju svoju strukturu, različitu od ostalih. Međutim, moguće je izdvojiti glavne komponente zajedničke svim pretraživačima. Razlike u strukturi mogu biti samo u obliku implementacije mehanizama interakcije ovih komponenti.

Modul za indeksiranje

Modul za indeksiranje se sastoji od tri pomoćna programa (roboti):

Spider (pauk) - program dizajniran za preuzimanje web stranica. "Pauk" preuzima stranicu i izvlači sve interne veze sa ove stranice. HTML kod svake stranice se preuzima. Roboti koriste HTTP protokole za preuzimanje stranica. "Pauk" radi na sljedeći način. Robot šalje serveru zahtjev “get/path/document” i neke druge naredbe HTTP zahtjeva. Kao odgovor, robot prima tekstualni tok koji sadrži informacije o servisu i sam dokument.

URL stranice
datum kada je stranica preuzeta
http zaglavlje odgovora servera
tijelo stranice (html kod)

Crawler ("putujući" pauk) - program koji automatski prati sve linkove pronađene na stranici. Odabire sve veze prisutne na stranici. Njegov zadatak je da odredi gde pauk treba da ide dalje, na osnovu linkova ili na osnovu unapred definisane liste adresa. Crawler, prateći pronađene veze, traži nove dokumente koji su još uvijek nepoznati pretraživaču.

Indexer (robot-indexer) - program koji analizira web stranice koje su preuzeli pauci. Indeksator analizira stranicu na njene sastavne dijelove i analizira ih korištenjem vlastitih leksičkih i morfoloških algoritama. Analiziraju se različiti elementi stranice, kao što su tekst, naslovi, veze, strukturne i stilske karakteristike, HTML oznake posebnih usluga itd.

Dakle, modul indeksiranja omogućava da se pređe zadati skup resursa referencom, preuzme pronađene stranice, izdvoji linkove do novih stranica iz primljenih dokumenata i izvrši potpunu analizu ovih dokumenata.

Baza podataka

Baza podataka ili indeks pretraživača je sistem za skladištenje podataka, informacioni niz koji pohranjuje posebno konvertovane parametre svih dokumenata koje preuzima i obrađuje modul za indeksiranje.

server za pretragu

Server za pretragu je najvažniji element čitavog sistema, jer kvalitet i brzina pretrage direktno zavise od algoritama koji su u osnovi njegovog funkcionisanja.

Server za pretragu radi ovako:

Zahtjev primljen od korisnika se podvrgava morfološkoj analizi. Generiše se informaciono okruženje svakog dokumenta koji se nalazi u bazi podataka (koji će se naknadno prikazati u obliku , odnosno koji odgovara zahtevu tekstualnih informacija na stranici za izdavanje rezultata pretrage).
Primljeni podaci se prosleđuju kao ulazni parametri u poseban modul za rangiranje. Podaci se obrađuju za sve dokumente, usled čega se za svaki dokument izračunava sopstvena ocena koja karakteriše relevantnost upita koji je uneo korisnik, a različite komponente ovog dokumenta pohranjuju se u indeks pretraživača.
Ovisno o izboru korisnika, ova ocjena se može prilagoditi dodatnim uvjetima (na primjer, tzv. "napredna pretraga").
Zatim se generiše isječak, odnosno za svaki pronađeni dokument, naslov, kratka bilješka koja najbolje odgovara upitu i veza do samog dokumenta se izdvajaju iz tabele dokumenata, a pronađene riječi su istaknute.
Primljeni rezultati pretrage se prenose korisniku u obliku SERP (Search Engine Result Page) - stranice za izdavanje rezultata pretrage.

Kao što vidite, sve ove komponente su usko povezane jedna s drugom i rade u interakciji, formirajući jasan, prilično složen mehanizam za pretraživač, koji zahtijeva ogromnu količinu resursa.

6. Zaključak

Sada da sumiramo sve gore navedeno.

Primarni cilj svakog pretraživača je da isporuči upravo one informacije koje traže.
Glavne karakteristike pretraživača:
1. potpunost
2. Preciznost
3. Relevantnost
4. Brzina pretrage
5. vidljivost
Prvi punopravni pretraživač bio je projekat WebCrawler, koji je objavljen 1994. godine.
Pretraživač uključuje sljedeće komponente:
1. Modul za indeksiranje
2. Baza podataka
3. server za pretragu

Nadamo se da će vam naša majstorska klasa omogućiti da se bolje upoznate s konceptom PS-a, kako biste bolje razumjeli glavne funkcije, karakteristike i principe rada tražilica.

poznatih internet pretraživača. Ruski pretraživači

Funkcije i koncept PS

Glavne karakteristike pretraživača

Kompletnost.

Preciznost.

Relevantnost.

Brzina pretrage.

vidljivost.

Istorija pretraživača

Principi pretraživača

Modul za indeksiranje.

Baza podataka

server za pretragu

YaCy

Pipl

Najpopularniji pretraživači u Rusiji

Yandex

Mail

Aport

Rambler

Najpopularniji pretraživači na svijetu

Google

Baidu

bing

Yahoo!

AltaVista

Lycos

Ukrajinski pretraživač Meta

FTP pretraga

Šta je

Bolje

Zašto ti ovo treba

Šta je

Bolje

Zašto ti ovo treba

3. YaCy

Šta je

Bolje

Zašto ti ovo treba

4. Pipl

Šta je

Bolje

Zašto ti ovo treba

Šta je

Bolje

Zašto ti ovo treba

Šta je

Bolje

Zašto ti ovo treba

Šta je

Bolje

Zašto ti ovo treba

Šta je

Bolje

Zašto ti ovo treba

Konačno

Top Related Articles