tražilice. Pronalaženje informacija na webu

11.08.2019 Sigurnost

Diplomirani doktor na internetu može pronaći naučne članke za pisanje literarnog pregleda doktorske medicinske disertacije, članke na stranom jeziku za pripremu za minimalni ispit kandidata, opis savremenih metoda istraživanja i još mnogo toga...

O tome kako tražiti informacije na Internetu pomoću tražilica bit će razmotreno u ovom članku.

Za one koji još nisu dobro upućeni u koncepte kao što su stranica, server - javljam početne informacije o Internetu.

Internet je skup lokacija koje se nalaze na serverima, ujedinjenih komunikacijskim kanalima (telefon, optička vlakna i satelitske linije).

Web stranica je skup dokumenata u html formatu (web stranice) međusobno povezanih hiperlinkovima.

Velika stranica (na primjer, "Medlink" - medicinski tematski katalog http://www.medlinks.ru - sastoji se od 30.000 stranica, a količina prostora na disku koji zauzima na serveru je oko 400 Mb).
Mali sajt se sastoji od nekoliko desetina - stotina stranica i zauzima 1 - 10 Mb (na primer, moj sajt "Postdiplomski doktor" 25. jula 2004. se sastojao od 280 .htm stranica i zauzimao je 6 Mb na serveru).

Server je računar povezan na Internet i koji radi non-stop. Na serveru se može istovremeno postaviti od nekoliko stotina do nekoliko hiljada lokacija.

Korisnici Interneta mogu da vide i kopiraju sajtove koji se nalaze na serverskom računaru.

Da bi se obezbedio nesmetan pristup sajtovima, server se napaja putem besprekidnih izvora napajanja, a prostorija u kojoj serveri rade (data centar) opremljena je automatskim sistemom za gašenje požara, organizovano je danonoćno dežurstvo tehničkog osoblja.

Za više od 10 godina svog postojanja, Runet (internet na ruskom jeziku) postao je uređena struktura i potraga za informacijama na webu postala je predvidljivija.

Pretraživači su glavni alat za pronalaženje informacija na Internetu.

Pretraživač se sastoji od spider programa koji pretražuje internet stranice i baze podataka (indeksa) koja sadrži informacije o posjećenim stranicama.

Na zahtjev webmastera, robot pauk ulazi na stranicu i pregledava stranice stranice, unoseći informacije o stranicama stranice u indeks tražilice. Pretraživač može sam pronaći stranicu, čak i ako se njen webmaster nije prijavio za registraciju. Ako link do stranice naiđe negdje na putu tražilice (na primjer, na drugoj stranici), ona će odmah indeksirati stranicu.

Pauk ne kopira stranice stranice u indeks tražilice, već pohranjuje informacije o strukturi svake stranice web-mjesta - na primjer, koje riječi se nalaze u dokumentu i kojim redoslijedom, adrese hiperveza stranice stranicu, veličinu dokumenta u kilobajtima, datum kada je kreiran i još mnogo toga. Stoga je indeks pretraživača nekoliko puta manji od količine indeksiranih informacija.

Šta i kako pretraživač traži na Internetu?

Pretraživač su izmislili ljudi kako bi im pomogli da pronađu informacije. Šta je informacija u našem ljudskom razumijevanju i vizualizaciji? Oni nisu mirisi ili zvuci, senzacije ili slike. To su samo riječi, tekst. Kada nešto tražimo na Internetu, tražimo riječi – upit za pretragu, a kao odgovor se nadamo da ćemo dobiti tekst koji sadrži upravo te riječi. Zato što znamo da će pretraživač pretraživati u nizu informacija upravo one riječi koje smo tražili. Zato što je tako dizajnirano da traži riječi.

Pretraživač ne traži riječi na Internetu, već u svom indeksu. Indeks pretraživača sadrži informacije o samo malom broju internet stranica. Postoje pretraživači koji indeksiraju samo sajtove na engleskom i postoje pretraživači koji indeksiraju samo sajtove na ruskom jeziku.

(indeks sadrži stranice na engleskom, njemačkom i drugim evropskim jezicima)

Runet pretraživači(indeks sadrži stranice na ruskom)

Karakteristike nekih pretraživača Runeta

Google pretraživač ne uzima u obzir morfologiju ruskog jezika. Na primjer, Google smatra da su riječi "teza" i "teza" različite.

Potrebno je pogledati ne samo prvu stranicu rezultata pretraživanja, već i ostale.

Jer često se stranice koje sadrže informacije koje su korisniku zaista potrebne nalaze na 4. - 10. stranici rezultata pretraživanja.

Zašto se ovo dešava? Prvo, mnogi graditelji sajtova ne optimizuju svoje stranice sajta za pretraživače, na primer, ne uključuju meta tagove u svoje stranice sajta.

Meta tagovi su uslužni elementi web dokumenta koji nisu vidljivi na ekranu, ali su važni kada pretraživači pronalaze vašu stranicu. Meta tagovi olakšavaju pretraživačima pretragu, tako da ne moraju da zavlače duboko u dokument i analiziraju ceo tekst sajta kako bi stvorili određenu sliku o njemu. Najvažniji meta tag je meta NAME="keywords" - ključne riječi stranice stranice. Ako se riječ iz osnovnog teksta dokumenta ne smatra „spamom pretraživanja“ i nalazi se u „ključnim riječima“ među prvih 50, tada se povećava težina ove riječi u upitu, odnosno dokument dobija veću relevantnost.

Drugo, postoji žestoka konkurencija između webmastera sajtova za prve pozicije kao rezultat upita za pretragu.

Prema statistikama, 80% posjetitelja web stranice dolazi sa pretraživača. Prije ili kasnije, webmasteri to shvate i počnu prilagođavati svoje stranice zakonima pretraživača.

Nažalost, neki kreatori sajtova koriste nepoštenu metodu promocije svoje stranice putem pretraživača - takozvanu "pretragu neželjene pošte" kako bi stvorili kao da se sadržaj meta oznaka i ostatka teksta sajta podudaraju - oni postavljaju skrivene riječi na stranicama stranice, upisane u boji pozadine, tako da ne ometaju posjetitelje stranice. Međutim, kreatori pretraživača vode računa o takvim trikovima i stranica "pretraživača spamera" pada sa postignutih visina na samo dno.

Metafore i figurativna poređenja su od male koristi na internetu. Iskrivljuju istinu, odvode korisnike interneta od tačnih i nedvosmislenih informacija. Što je manje umetnosti i više tačnosti u stilu autora sajta, to je veća pozicija sajta u rezultatima upita za pretragu.

Zauzvrat, ako želite da pretraživač pronađe članke za vas na internetu, razmišljajte kao mašina, budite mašina. Bar na neko vrijeme. Tokom pretresa.

Pretraživači

Pretraživači vam omogućavaju da pronađete WWW-dokumente koji se odnose na date teme ili sa ključnim riječima ili njihovim kombinacijama. Postoje dva načina pretraživanja na pretraživačima:

· Prema hijerarhiji pojmova;

· Po ključnim riječima.

Pretraživački serveri se popunjavaju automatski ili ručno. Server za pretragu obično ima veze sa drugim serverima za pretragu i šalje im zahtev za pretragu na zahtev korisnika.

Postoje dvije vrste pretraživača.

1. Pretraživači "punog teksta" koji indeksiraju svaku riječ na web stranici, isključujući stop riječi.

2. "Apstraktni" pretraživači koji kreiraju sažetak svake stranice.

Za webmastere su alati za puni tekst korisniji jer se svaka riječ koja se nađe na web stranici analizira kako bi se utvrdila njena relevantnost za upite korisnika. Međutim, apstraktni motori mogu indeksirati stranice bolje od onih sa punim tekstom. Zavisi od algoritma za izdvajanje informacija, na primjer, o učestalosti korištenja istih riječi.

Glavne karakteristike pretraživača.

1. Veličina pretraživača je određena brojem indeksiranih stranica. Međutim, u svakom trenutku, linkovi koji se pružaju kao odgovor na zahtjeve korisnika mogu biti različite starosti. Razlozi zašto se to dešava:

· Neki pretraživači odmah indeksiraju stranicu na zahtjev korisnika, a zatim nastavljaju indeksirati stranice koje još nisu indeksirane.

Drugi češće indeksiraju najpopularnije web stranice.

2. Datum indeksacije. Neki pretraživači prikazuju datum kada je dokument indeksiran. Ovo pomaže korisniku da odredi kada se dokument pojavio na mreži.

3. Dubina indeksiranja pokazuje koliko stranica nakon navedene stranice će pretraživač indeksirati. Većina mašina nema ograničenja u dubini indeksiranja. Razlozi zašto sve stranice ne mogu biti indeksirane:

Nepravilna upotreba okvirnih konstrukcija.

korištenje sitemapa bez dupliciranja redovnim linkovima

4. Rad sa okvirima. Ako robot za pretraživanje ne zna kako raditi sa strukturama okvira, tada će mnoge strukture s okvirima biti propuštene prilikom indeksiranja.

5. Učestalost linkova. Glavni pretraživači mogu odrediti popularnost dokumenta prema tome koliko često se povezuje na njega. Neke mašine "zaključuju" da li dokument treba indeksirati ili ne na osnovu takvih podataka.

6. Učestalost ažuriranja servera. Ako se server često ažurira, pretraživač će ga češće reindeksirati.

7. Kontrola indeksiranja. Pokazuje način na koji se pretraživač može kontrolisati.

8.Preusmjeravanje. Neki sajtovi preusmeravaju posetioce sa jednog servera na drugi, a ovaj parametar pokazuje kako će to biti povezano sa pronađenim dokumentima.

9. Zaustavne riječi. Neki pretraživači ne uključuju određene riječi u svoje indekse ili možda ne uključuju te riječi u upite korisnika. Ove riječi se obično smatraju prijedlozima ili često korištenim riječima.

10.Spam kazne. Mogućnost blokiranja neželjene pošte.

11. Brisanje starih podataka. Parametar koji određuje radnje webmastera kada se server zatvori ili premjesti na drugu adresu.

Primjeri pretraživača.

1. Altavista. Sistem je otvoren u decembru 1995. godine. Pripada DEC-u. Od 1996. godine radi za Yahoo. AltaVista je najbolja opcija za prilagođeno pretraživanje . Međutim, sortiranje rezultata po kategorijama ya se ne izvršava i morate ručno pregledati dostavljene informacije. AltaVista ne pruža sredstva za dobijanje lista aktivnih sajtova, vesti ili drugih mogućnosti pretraživanja sadržaja.

2. Excite Search. Lansiran krajem 1995. Septembar 1996. - Kupio WebCrawler. Ovaj čvor ima moćno krzno pretraživanjanizma, mogućnost automatskog individualnog podešavanjadate informacije, kao i kvalifikacijeopisi skupa čvorova od strane obučenog osoblja. Uzbudi se po tome se razlikuje od ostalih čvorova pretraživanjaomogućava vam da pretražujete servise vijesti i objavljujete recenzije Web stranice. Pretraživač korististandardno pretraživanje ključnih riječi i heuristikametode pretraživanja sadržaja. Zahvaljujući ovoj kombinaciji,možete pronaći relevantne stranice web, ako ne sadrže ključ koji je odredio korisnik out words. Nedostatak Excite je pomalo haotičan interfejs.

3.HotBot. Lansiran u maju 1996. U vlasništvu Wired-a. Zasnovan na tehnologiji pretraživača Berkeley Inktomi. HotBot je puna tekstualna indeksirana baza podataka dokumenata i jedan od najsveobuhvatnijih pretraživača na Webu. Njegovi Booleov alati za pretraživanje i mogućnost ograničavanja pretrage na bilo koju oblast ili web stranicu pomažu korisniku da pronađe informacije koje su mu potrebne dok uklanja nepotrebne. HotBot pruža mogućnost odabira potrebnih opcija pretraživanja sa padajućih lista.

4.InfoSeek. Lansiran prije 1995., lako dostupan. Trenutno sadrži oko 50 miliona URL-ova. Infoseek ima dobro osmišljen interfejs i odlične alate za pretragu. Većina odgovora na upite popraćena je vezama za "srodne teme", s vezama "slične stranice" koje slijede nakon svakog odgovora. Baza podataka pretraživača sa stranicama indeksiranih punim tekstom. Odgovori su poredani prema dva indikatora: učestalosti pojavljivanja riječi ili fraza na stranici tsah, kao i metopoziciju riječi ili fraza na stranicama. Postoji Web imenik, podijeljen u 12 kategorija sa stotinama potkategorija koje se mogu pretraživati. Svaka stranica kataloga sadrži listu preporučeni čvorovi.

5. Lycos. Radi od maja 1994. Nadaleko poznat i korišten. Uključuje direktorij s velikim brojem URL-ova. i Point pretraživač, sa tehnologijom za statističku analizu sadržaja stranice, za razliku od indeksiranja punog teksta. Lycos sadrži vijesti, recenzije stranica, linkove na popularne stranice, mape gradova i alate za pronalaženje adresa, fermenti i zvučni i video klipovi. Lycos raspoređuje odgovore prema stepenu podudarnostipodudaranje upita po nekoliko kriterija, na primjer, po brojupojmovi za pretraživanje koji se nalaze u napomeni uz dokumentment, interval izmeđudu riječi u određenoj frazi dokumenta, lokacijitermini u dokumentu.

6. WebCrawler. Otvoren 20. aprila 1994. kao projekat Univerziteta Washington. web crawler pruža mogućnosti sintaksu za specificiranje upita, kao i veliki izbor napomene čvorova sa jednostavnim interfejsom.

Nakon svakog odgovora, WebCrawler će uključiti malu ikonu s grubim rezultatom podudaranja za zahtjev. Također prikazuje stranicu sa kratkim sažetkom za svaki odgovor, njegovim punim URL-om, tačnim rezultatom podudaranja i upotrebom ovaj odgovor u upitu prema obrascu kao njegovim ključnim riječima.Grafički interfejs za postavljanje upita Web crawler br. H nije dozvoljenokorištenje zamjenskih znakova, a to je također nemogućedodijeliti težine ključnim riječima.Ne postoji opcija za ograničavanje polja za pretraguodređenom području.

7 Yahoo. Najstariji Yahooov imenik pokrenut je početkom 1994. godine. Nadaleko poznat, često korišten i najcjenjeniji. U martu 1996. godine pokrenut je imenik Yahooligans za djecu. Pojavljuju se Yahoo regionalni i top direktoriji. Yahoo se zasniva na pretplati korisnika. Može poslužiti kao polazna tačka za bilo koju pretragu na Webu, jer će sa svojim sistemom klasifikacije korisnik pronaći sajt sa dobro organizovanim informacijama. Web sadržaj je klasifikovan u 14 opštih kategorija navedenih na Yahoo! početnoj stranici. Ovisno o specifičnostima zahtjeva korisnika, moguće je ili raditi sa ovim kategorijama da biste se upoznali sa potkategorijama i listama čvorova ili pretraživati određene riječi i pojmove u bazi podataka. Korisnik također može ograničiti pretragu unutar bilo kojeg odjeljka ili pododjeljka Yahoo!-a. Zbog činjenice da klasifikaciju čvorova vrše ljudi, i nije kompjuter, kvalitet linkova je obično veoma visok. Međutim, usavršavanje pretrage u slučaju neuspjeha je težak zadatak. Pridružite se Yahoou ! pretraživač uključen AltaVista, pa ako je vaš Yahoo! to se dešava automatski ponavljanje pomoću tražilice AltaVista . Rezultati se zatim prenose na Yahoo!. Yahoo! pruža mogućnost slanja zahtjeva za pretraživanje Useneta i Fourl 1 za pronalaženje adresa e-pošte.

Ruski pretraživači uključuju:

1. Rambler Ovo je pretraživač na ruskom jeziku. Odjeljci navedeni na početnoj stranici Ramblera pokrivaju web resurse na ruskom jeziku. Postoji klasifikator informacija. Pogodan način rada je da se obezbedi lista najposjećenijih čvorova za svaki predložena tema.

2. Aport Search. Aport je jedan od vodećih certificiranih pretraživača Microsoft kao lokalni pretraživačisistemi za rusku verziju Microsoft Internet Explorer. Jedna od prednosti Aporta je engleski-ruski i rusko-engleski prijevod online upita i rezultata pretraživanja, zahvaljujući kojima možete pretraživati na ruskim internetskim resursima čak i bez znanja ruskog. Nadalje možete tražiti informacije izražavanje pomoću izraza, čak i za rečenice.Među glavnim karakteristikama pretraživača Aport možetepodijelite sljedeće:

Prevod upita i rezultata pretrage sa ruskog na engleskiruski jezik i obrnuto;

Automatska provjera pravopisnih grešaka zahtjeva;

Informativni prikaz rezultata pretraživanja pronađenih stranica;

Mogućnost pretraživanja u bilo kojem gramatičkom obliku;

napredni jezik upita za profesionalce stvarni korisnici.

Ostala svojstva pretraživanja uključujudrži pet glavnih kodnih stranica (različiti operativnisistemi) za ruski jezik, korišćenje tehnologije pretraživanjaJedem ograničenja na URL i datum dokumenata, sprovođenje pretragepo naslovima, komentarima i natpisimana slike itd., spremanje parametara pretraživanja i definiranje fiksni broj prethodnih korisničkih zahtjeva, unija kopije dokumenta koji se nalaze na različitim serverima.

3.Lista. ru ( http://www.list.ru) U svojoj implementaciji, ovaj server ima mnogozajedničko sa engleskim sistemom Yahoo!. Na glavnoj stranici servera nalaze se linkovi do najpopularnijih kategorija pretraživanja.

Lista veza do glavnih kategorija kataloga zauzima središnji dio. Pretraživanje u katalogu je implementirano na način da se kao rezultat upita mogu pronaći i pojedinačne stranice i naslovi. U slučaju uspješne pretrage, prikazuje se URL, naslov, opis, ključne riječi. Dozvoljena upotreba jezik upita Yandex. WithLink "Strukturakatalog" otvara se u posebnom prozoru puni rubrikator katalogalog. Implementirana je mogućnost prelaska sa rubrikatora na bilo koju odabranu potkategoriju. Detaljnija tematska podjelatrenutna rubrika je predstavljena listom veza. Direktorij je ovako organiziran na način da se sve lokacije nalaze na nižim nivoima struktureture su predstavljene u naslovima.Prikazana lista resursa je sortirana po abecednom redu, ali možete odabrati sortiranje: po vremenu dodaj meni, po prelazima, po redoslijedom kojim su dodani u imenikpopularnost među posjetiteljima imenika.

4. Yandex. Softverski proizvodi Yandex serije predstavljaju skup alata za indeksiranje punog teksta i pretraživanje tekstualnih podataka, uzimajući u obzir morfologiju ruskog jezika. Yandex uključuje module za morfološku analizu i sintezu, indeksiranje i pretraživanje, kao i skup pomoćnih modula, kao što su analizator dokumenata, jezici za označavanje, pretvarači formata i pauk.

Algoritmi morfološke analize i sinteze zasnovani na osnovnom rečniku mogu normalizovati reči, odnosno pronaći njihov početni oblik, kao i graditi hipoteze za reči koje se ne nalaze u osnovnom rečniku. Sistem indeksiranja punog teksta omogućava vam da kreirate kompaktan indeks i brzo pretražujete pomoću logičkih operatora.

Yandex je dizajniran za rad sa tekstovima u lokalnim i globalnim mrežama, a može se povezati i kao modul sa drugim sistemima.

Glavni element modernog interneta je tražilice ili tražilice, Yandex, Rambler, Google i drugi. Na internetu postoji more raznih informacija, a tražilice su one koje pomažu korisniku da brzo pronađe potrebne informacije.

Udžbenici ili naučne knjige imaju listu važnih pojmova – azbučni indeks ili index. Indeks navodi najvažnije pojmove u ovoj knjizi (ključne riječi) i brojeve stranica na kojima se pojavljuju.

Rad pretraživača se zasniva na sličnom principu. U suštini, kada korisnik unese pojam za pretraživanje (ključnu riječ), pristupa internetskom predmetnom indeksu ili indeksu – listi svih ključnih riječi na Internetu, zajedno sa stranicama na kojima se pojavljuju.

pretraživač je program koji kompajlira i pohranjuje indeks internetskih subjekata (indeks), a također u njemu pronalazi date ključne riječi.

Faze sastavljanja indeksa i pretraživanja po njemu:

Zbirka adresa web stranica na Internetu

Početna lista adresa stranica sajta se učitava u pretraživač. Zatim pretraživač, odnosno njegova komponenta - robot za pretragu, prikuplja sve hipertekstualne veze sa svake od datih stranica na druge stranice i dodaje sve adrese koje se nalaze u vezama na svoju originalnu listu adresa. Dakle, početna lista brzo raste.

Preuzimanje stranica

Robot za pretraživanje ili pauk pretražuje stranice, preuzima tekstualni materijal sa njih i pohranjuje ga na diskove svojih računara, a zatim ga prenosi indeksnom robotu radi indeksiranja.

Sastavljanje indeksa

Za početak, tekst indeksirane stranice je očišćen od svih netekstualnih elemenata (grafika, HTML oznake, itd.). Nadalje, riječi odabrane iz teksta svode se na svoje korijene ili nominativni padež. Prikupljene osnove riječi su raspoređene po abecednom redu, označavajući brojevi stranica gdje se uzima baza, i ulazni brojevi, gdje je bila baza na ovoj stranici.

Traži

Kada korisnik unese riječ u niz upita, tražilica pristupa indeksu. Pronalazi sve brojeve stranica koje se odnose na datu riječ i prikazuje korisniku rezultat pretraživanja (listu stranica).

Kvalitet pretraživača

Kvalitet pretrage je sinonim za relevantnost. U odnosu na pretraživače, riječ relevantan(vezano za slučaj) - skoro glavni termin. Relevantnost rezultata pretraživača znači da ovi rezultati sadrže stranice koje su relevantne za namjeru upita za pretraživanje. Relevantnost ili kvalitet pretrage je prilično zeznuta stvar.

Još jedan važan kriterijum za kvalitet pretraživača je tačnost.

Preciznost je mjera kvaliteta vraćenih rezultata, izračunava se kao broj relevantnih stranica u ukupnom obimu stranica vraćenih u rezultatima pretrage. Međutim, nije važna samo tačnost pretrage, već i tačnost rasponu Rezultati pretrage.

Rasponu– lokacija rezultata pretrage prema relevantnosti.

Nemoguće je reći koji je pretraživač bolji. Za korisnika, bolja tražilica je ona koja daje najrelevantnije i najtačnije rezultate. Za vlasnika sajta najbolja mašina je ona na kojoj je sajt jasno vidljiv i koji donosi najveći broj ciljanih posetilaca.

Šta je

DuckDuckGo je prilično poznat pretraživač otvorenog koda. Serveri se nalaze u SAD-u. Pored sopstvenog robota, pretraživač koristi rezultate drugih izvora: Yahoo, Bing, Wikipedia.

Bolje

DuckDuckGo se pozicionira kao ultimativno pretraživanje privatnosti i privatnosti. Sistem ne prikuplja nikakve podatke o korisniku, ne pohranjuje logove (nema historije pretraživanja), korištenje kolačića je maksimalno ograničeno.

DuckDuckGo ne prikuplja niti dijeli lične podatke korisnika. Ovo je naša politika privatnosti.
Gabriel Weinberg, osnivač DuckDuckGo

Zašto ti ovo treba

Svi glavni pretraživači pokušavaju da se personalizuju na osnovu podataka o osobi ispred monitora. Ovaj fenomen se naziva "filter balon": korisnik vidi samo one rezultate koji su u skladu sa njegovim preferencijama ili koje sistem smatra takvim.

DuckDuckGo stvara objektivnu sliku koja ne ovisi o vašem dosadašnjem ponašanju na webu, te se rješava Google i Yandex tematskog oglašavanja na osnovu vaših zahtjeva. Uz pomoć DuckDuckGo, lako je pretraživati informacije na stranim jezicima: Google i Yandex prema zadanim postavkama preferiraju web stranice na ruskom jeziku, čak i ako je upit unesen na drugom jeziku.

Šta je

not Evil je sistem koji pretražuje anonimnu Tor mrežu. Da biste ga koristili, morate otići na ovu mrežu, na primjer, pokretanjem specijalizirane s istim imenom.

not Evil nije jedini pretraživač te vrste. Postoji LOOK (podrazumevana pretraga u Tor pretraživaču, dostupna sa redovnog interneta) ili TORCH (jedan od najstarijih pretraživača na Tor mreži) i drugi. Odlučili smo se da nije Evil zbog nepogrešive aluzije na Google (samo pogledajte početnu stranicu).

Bolje

On traži gdje je Googleu, Yandexu i drugim pretraživačima u principu zabranjen pristup.

Zašto ti ovo treba

Postoji mnogo resursa na Tor mreži koji se ne mogu naći na Internetu koji poštuje zakon. A njihov broj će rasti kako se kontrola vlasti nad sadržajem Weba pooštrava. Tor je vrsta mreže unutar Weba sa svojim društvenim mrežama, torrent trackerima, medijima, tržnicama, blogovima, bibliotekama itd.

3. YaCy

Šta je

YaCy je decentralizirana tražilica koja radi na principu P2P mreža. Svaki računar na kojem je instaliran glavni softverski modul samostalno skenira internet, odnosno analogan je robotu za pretraživanje. Dobijeni rezultati prikupljaju se u zajedničku bazu podataka koju koriste svi YaCy učesnici.

Bolje

Ovdje je teško reći da li je ovo bolje ili gore, budući da je YaCy potpuno drugačiji pristup organizaciji pretraživanja. Nedostatak jednog servera i vlasničke kompanije čini rezultate potpuno nezavisnim od nečijih preferencija. Autonomija svakog čvora isključuje cenzuru. YaCy je sposoban za pretraživanje dubokog weba i neindeksiranih javnih mreža.

Zašto ti ovo treba

Ako ste pobornik softvera otvorenog koda i besplatnog interneta na koji ne utiču vladine agencije i velike korporacije, onda je YaCy vaš izbor. Također se može koristiti za organiziranje pretraživanja unutar korporativne ili druge autonomne mreže. I iako YaCy nije baš koristan u svakodnevnom životu, on je dostojna alternativa Googleu u smislu procesa pretraživanja.

4. Pipl

Šta je

Pipl je sistem dizajniran za traženje informacija o određenoj osobi.

Bolje

Autori Pipl-a tvrde da njihovi specijalizovani algoritmi pretražuju efikasnije od "običnih" pretraživača. Konkretno, prioritetni izvori informacija su profili na društvenim mrežama, komentari, spiskovi učesnika i razne baze podataka u kojima se objavljuju podaci o ljudima, kao što su baze podataka sudskih odluka. Piplovo vodstvo u ovoj oblasti potvrđuju Lifehacker.com, TechCrunch i druge publikacije.

Zašto ti ovo treba

Ako trebate pronaći informacije o osobi koja živi u SAD-u, onda će Pipl biti mnogo efikasniji od Googlea. Baze podataka ruskih sudova su, očigledno, nedostupne pretraživaču. Stoga se ne nosi tako dobro sa građanima Rusije.

Šta je

FindSounds je još jedan specijalizovani pretraživač. Traži različite zvukove (kuća, priroda, automobili, ljudi itd.) u otvorenim izvorima. Usluga ne podržava zahtjeve na ruskom, ali postoji impresivna lista oznaka na ruskom jeziku koje možete tražiti.

Bolje

U izdavanju samo zvukova i ništa više. U postavkama pretrage možete postaviti željeni format i kvalitet zvuka. Svi pronađeni zvukovi dostupni su za preuzimanje. Postoji pretraga zvukova po uzorku.

Zašto ti ovo treba

Ako trebate brzo pronaći zvuk pucnjave muškete, udarca sisanog djetlića ili krik Homera Simpsona, onda je ova usluga za vas. A mi smo ovo odabrali samo iz dostupnih upita na ruskom jeziku. Na engleskom je spektar još širi.

Ali ozbiljno, specijalizovana usluga podrazumeva specijalizovanu publiku. Ali hoće li i vama dobro doći?

Šta je

Wolfram|Alpha je kompjuterski pretraživač. Umjesto linkova na članke koji sadrže ključne riječi, daje gotov odgovor na zahtjev korisnika. Na primjer, ako u formular za pretragu unesete “uporedi stanovništvo New Yorka i San Francisca” na engleskom, tada će Wolfram|Alpha odmah prikazati tabele i grafikone sa poređenjem.

Bolje

Ova usluga je bolja od ostalih za pronalaženje činjenica i izračunavanje podataka. Wolfram|Alpha prikuplja i organizira znanje dostupno na webu iz različitih oblasti, uključujući nauku, kulturu i zabavu. Ako ova baza podataka sadrži spreman odgovor na upit za pretragu, sistem ga prikazuje, ako ne, izračunava i prikazuje rezultat. U tom slučaju korisnik vidi samo potrebne informacije i ništa više.

Zašto ti ovo treba

Ako ste, na primjer, student, analitičar, novinar ili istraživač, možete koristiti Wolfram|Alpha da pronađete i izračunate podatke koji se odnose na vaše aktivnosti. Usluga ne razumije sve zahtjeve, ali se stalno razvija i postaje sve pametnija.

Šta je

Metatražilica Dogpile prikazuje kombinovanu listu rezultata sa Google, Yahoo i drugih popularnih pretraživača.

Bolje

Prvo, Dogpile prikazuje manje oglasa. Drugo, usluga koristi poseban algoritam za pronalaženje i prikazivanje najboljih rezultata sa različitih pretraživača. Prema programerima Dogpile-a, njihov sistem generiše najkompletnije izdanje na čitavom Internetu.

Zašto ti ovo treba

Ako ne možete pronaći informacije na Google-u ili nekom drugom standardnom pretraživaču, potražite ih u nekoliko pretraživača odjednom koristeći Dogpile.

Šta je

BoardReader je sistem za pretraživanje teksta za forume, usluge pitanja i odgovora i druge zajednice.

Bolje

Usluga vam omogućava da suzite polje pretraživanja na društvene stranice. Zahvaljujući posebnim filterima, možete brzo pronaći postove i komentare korisnika koji odgovaraju vašim kriterijima: jezik, datum objavljivanja i naziv stranice.

Zašto ti ovo treba

BoardReader može biti koristan za PR stručnjake i druge medijske profesionalce koji su zainteresirani za mišljenje masovne publike o određenim pitanjima.

Konačno

Život alternativnih pretraživača je često prolazan. Lifehacker je pitao bivšeg izvršnog direktora ukrajinske podružnice kompanije Yandex Sergeja Petrenka o dugoročnim izgledima za takve projekte.

Sergej Petrenko

Bivši izvršni direktor Yandex.Ukraine.

Što se tiče sudbine alternativnih pretraživača, ona je jednostavna: biti vrlo nišni projekti s malom publikom, dakle, bez jasnih komercijalnih izgleda, ili, obrnuto, s potpunom jasnoćom njihovog odsustva.

Ako pogledate primjere u članku, možete vidjeti da su takvi pretraživači ili specijalizirani za usku, ali traženu nišu, koja, možda samo do sada, nije dovoljno narasla da bi bila uočljiva na radarima Googlea ili Yandexa, ili testiraju originalnu hipotezu u rangiranju, koja još nije primjenjiva u konvencionalnom pretraživanju.

Na primjer, ako se odjednom pokaže da je Tor pretraga tražena, odnosno da će barem jednom postotku Google publike biti potrebni rezultati odatle, tada će, naravno, obični pretraživači početi rješavati problem kako pronađite ih i pokažite korisniku. Ako ponašanje publike pokaže da se značajan dio korisnika u značajnom broju upita čini relevantnijim rezultatima, podacima bez uzimanja u obzir faktora koji zavise od korisnika, tada će Yandex ili Google početi davati takve rezultate.

"Biti bolji" u kontekstu ovog članka ne znači "biti bolji u svemu". Da, u mnogim aspektima naši heroji su daleko od Gugla i Yandexa (čak i od Binga). Ali svaka od ovih usluga daje korisniku nešto što divovi industrije pretraživanja ne mogu ponuditi. Sigurno znate i slične projekte. Podijelite s nama - razgovarajmo.

Pretraživači su jedan od glavnih načina za pronalaženje informacija na Internetu. Pretraživači pregledavaju web svaki dan: posjećuju web stranice i unose ih u gigantske baze podataka. Ovo omogućava korisniku da unese neke ključne riječi, pritisne "pošalji" i vidi koje stranice odgovaraju njihovom upitu.

Razumijevanje načina rada pretraživača ključno je za webmastere. Za njih je od vitalnog značaja ispravna struktura dokumenata i čitavog servera ili sajta sa stanovišta pretraživača. Bez toga, dokumenti se neće pojavljivati dovoljno često kao odgovor na zahtjeve korisnika tražilici, ili čak možda neće biti uopće indeksirani.

Webmasteri žele povećati ocjenu svojih stranica, i to je razumljivo: na kraju krajeva, stotine i hiljade linkova na dokumente koji odgovaraju na njih mogu se izdati za bilo koji upit tražilici. U većini slučajeva, samo prvih 10 veza je dovoljno relevantno za upit.

Naravno, želite da dokument bude među prvih deset, jer većina korisnika rijetko gleda linkove izvan prvih deset. Drugim riječima, ako je referenca na dokument jedanaesti, onda je i to loše, kao da ga uopće nema.

Glavni pretraživači

Koji od stotina pretraživača su zaista važni za webmastera? Pa, naravno, nadaleko poznat i često korišten. Ali u isto vrijeme, trebali biste uzeti u obzir publiku za koju je vaš server dizajniran. Na primjer, ako vaš server sadrži visokospecijalizirane informacije o najnovijim metodama mužnje krava, onda se teško treba oslanjati na pretraživače opšte namjene. U ovom slučaju, savjetovao bih vam da razmijenite linkove sa svojim kolegama koji se bave sličnim temama 🙂 Dakle, prvo da definišemo terminologiju.

Postoje dvije vrste baza podataka o web stranicama: tražilice i imenici.

Pretraživači: (pauci, crawleri) neprestano istražuju Web kako bi dopunili svoje baze dokumenata. Obično to ne zahtijeva nikakav napor od strane osobe. Primjer bi bio pretraživač Altavista.

Za pretraživače, dizajn svakog dokumenta je veoma važan. Naslov, meta tagovi i sadržaj stranice su od velike važnosti.

Imenici: Za razliku od pretraživača, informacije se unose u imenik na inicijativu osobe. Dodata stranica mora biti striktno vezana za kategorije prihvaćene u katalogu. Yahoo je primjer imenika. Dizajn stranica nije bitan. Zatim ćemo se fokusirati uglavnom na pretraživače.

Altavista

Sistem je otvoren u decembru 1995. godine. Pripada DEC-u. Od 1996. godine radi za Yahoo.

Excite Search

Pokrenut krajem 1995. godine, sistem je brzo rastao. Kupio ga je Magellan u julu 1996. i kupio WebCrawler u septembru 1996. Međutim, oboje ga koriste odvojeno jedno od drugog. Možda će u budućnosti raditi zajedno.

U ovom sistemu postoji i katalog - Excite Reviews. Ući u ovaj direktorij je sreća, jer nisu sve stranice tamo navedene. Međutim, informacije iz ovog direktorija se ne koriste od strane tražilice po defaultu, ali ih je moguće provjeriti nakon pregleda rezultata pretraživanja.

hotbot

Lansiran u maju 1996. U vlasništvu Wired-a. Zasnovan na tehnologiji pretraživača Berkeley Inktomi.

InfoSeek

Lansiran nešto prije 1995. godine, nadaleko poznat, dobro pretražen i lako dostupan. Trenutno "Ultrasmart/Ultraseek" sadrži oko 50 miliona URL-ova.

Zadana opcija pretraživanja je Ultrasmart. U ovom slučaju, pretraga se vrši u oba direktorija. Uz opciju Ultraseek, rezultati upita se vraćaju bez dodatnih informacija. Zaista nova tehnologija pretraživanja također olakšava pretraživanje i mnoge druge funkcije koje možete pročitati o InfoSeek-u. Postoji poseban direktorij InfoSeek Select iz tražilice.

Lycos

Otprilike od maja 1994. godine radi jedan od najstarijih pretraživača Lycos. Široko poznat i često korišten. Uključuje pretraživač Point (koji radi od 1995.) i A2Z katalog (koji radi od februara 1996.).

otvoreni tekst

Sistem OpenText pojavio se nešto ranije od 1995. godine. Od juna 1996. godine počinje da se sarađuje sa Yahooom. Postepeno gubi svoje pozicije i uskoro će prestati biti među glavnim pretraživačima.

web crawler

Otvoren 20. aprila 1994. kao istraživački projekat na Univerzitetu Washington. Kupio America Online u martu 1995. Postoji WebCrawler Select katalog.

Yahoo

Najstariji Yahooov imenik pokrenut je početkom 1994. godine. Nadaleko poznat, često korišten i najcjenjeniji. U martu 1996. godine pokrenut je još jedan Yahoo imenik - Yahooligans za djecu. Sve je više regionalnih i vrhunskih Yahoo direktorija.

Budući da je Yahoo zasnovan na pretplati, možda nema neke web lokacije. Ako Yahoo pretraga ne daje odgovarajuće rezultate, korisnici mogu koristiti tražilicu. Ovo se radi vrlo jednostavno. Kada se uputi zahtjev Yahoou, direktorij ga prosljeđuje bilo kojem od glavnih pretraživača. Prve veze na listi odgovarajućih adresa su adrese iz imenika, a zatim su tu adrese primljene od pretraživača, posebno od Altaviste.

Karakteristike pretraživača

Svaki pretraživač ima niz karakteristika. Ove karakteristike treba uzeti u obzir prilikom izrade vaših stranica.

tip pretraživača

Pretraživači "punog teksta" indeksiraju svaku riječ na web stranici, osim nekih zaustavnih riječi. "Apstraktni" pretraživači kreiraju izvod svake stranice.

Za webmastere su alati za puni tekst korisniji jer se svaka riječ koja se nađe na web stranici analizira kako bi se utvrdila njena relevantnost za upite korisnika. Međutim, za apstraktne pretraživače može se desiti da su stranice bolje indeksirane nego za one sa punim tekstom. Ovo može doći od algoritma za ekstrakciju, na primjer, po učestalosti istih riječi na stranici.

Veličina

Veličina pretraživača određena je brojem indeksiranih stranica. Na primjer, na velikom pretraživaču, skoro sve vaše stranice mogu biti indeksirane, na srednjem volumenu vaš server može biti djelimično indeksiran, a na malom opsegu vaše stranice možda uopće neće biti indeksirane u direktorijima tražilice.

Period ažuriranja

neki pretraživači odmah indeksiraju stranicu na zahtjev korisnika, a zatim nastavljaju indeksirati stranice koje još nisu indeksirane
drugi će vjerovatnije pretraživati najpopularnije stranice na webu od drugih

Datum indeksiranja dokumenta

Neki pretraživači prikazuju datum kada je određeni dokument indeksiran. Ovo pomaže korisniku da shvati koliko „svježu“ vezu daje pretraživač. Drugi ostavljaju korisnicima da nagađaju.

Submitted Pages

U idealnom slučaju, pretraživači bi trebali pronaći bilo koju stranicu na bilo kojem serveru kao rezultat slijedećih veza. Prava slika izgleda drugačije. Stranice servera se pojavljuju mnogo ranije u indeksima tražilice ako su direktno specificirane (Dodaj URL).

Stranice nisu navedene (nije poslane)

Ako je navedena barem jedna stranica servera, pretraživači će sigurno pronaći sljedeće stranice putem linkova sa navedene. Međutim, za to je potrebno više vremena. Neki strojevi indeksiraju cijeli server odjednom, ali većina ipak, nakon što upiše navedenu stranicu u indeks, ostavlja indeksiranje servera za budućnost.

Dubina indeksiranja

Ova postavka se primjenjuje samo na nespecificirane stranice. Pokazuje koliko stranica nakon navedene stranice će pretraživač indeksirati.

Većina velikih mašina nema ograničenja u dubini indeksiranja. U praksi to nije sasvim tačno. Evo nekoliko razloga zašto sve stranice ne mogu biti indeksirane:

ne previše precizna upotreba strukture okvira (bez dupliciranja referenci u kontrolnoj (frameset) datoteci)
koristeći imagemap bez njihovog dupliranja normalnim vezama

Podrška za okvir

Ako robot za pretraživanje ne zna kako raditi sa strukturama okvira, tada će mnoge strukture s okvirima biti propuštene prilikom indeksiranja.

Podrška za ImageMap

Postoji otprilike isti problem kao i sa strukturama okvira servera.

Direktoriji i serveri zaštićeni lozinkom

Neki pretraživači mogu indeksirati takve servere dajući im korisničko ime i lozinku. Zašto je ovo potrebno? Tako da korisnici mogu vidjeti šta se nalazi na vašem serveru. To vam omogućava da barem saznate da takve informacije postoje i, možda, oni će se tada pretplatiti na vaše informacije.

Frekvencija veze

Glavni pretraživači mogu odrediti popularnost dokumenta prema tome koliko često se na njega povezuju s drugog mjesta na webu. Neke mašine na osnovu takvih podataka „zaključuju“ da li se isplati ili ne troši vreme na indeksiranje takvog dokumenta.

Sposobnost učenja

Ako se server često ažurira, pretraživač će ga reindeksirati češće, ako rijetko, rjeđe.

Kontrola indeksiranja

Pokazuje koji alati se mogu koristiti za kontrolu određene tražilice. Svi glavni pretraživači slijede upute datoteke robots.txt. Neki takođe podržavaju kontrolu putem META oznaka iz samih indeksiranih dokumenata.

Preusmjeravanje

Neki sajtovi preusmeravaju posetioce sa jednog servera na drugi, a ovaj parametar pokazuje koji će URL biti povezan sa vašim dokumentima. Ovo je važno jer ako pretraživač ne obradi preusmjeravanje, može doći do problema s nepostojećim datotekama.

Zaustavite riječi

Neki pretraživači ne uključuju određene riječi u svoje indekse ili možda ne uključuju te riječi u upite korisnika. Ove riječi se obično smatraju prijedlozima ili samo vrlo često korištenim riječima. I nemojte ih uključivati radi uštede prostora na medijima. Na primjer, Altavista ignorira riječ web i za zahtjeve kao što je web developer, veze će biti vraćene samo za drugu riječ. Postoje načini da se to izbjegne.

Utjecaj na algoritam relevantnosti

Pretraživači obavezno koriste lokaciju i učestalost ključnih riječi u dokumentu. Međutim, dodatni mehanizmi za povećanje stepena relevantnosti za svaku mašinu su različiti. Ovaj parametar pokazuje koji mehanizmi postoje za određenu mašinu.

Spam kazne

Svi glavni pretraživači "ne vole" kada stranica pokušava da poveća svoj rang, na primjer, više puta se navede na listi putem Add URL-a ili više puta pominje istu ključnu riječ, itd. U većini slučajeva takve radnje (spam, slaganje) se kažnjavaju , a rejting stranice, naprotiv, pada.

tražilice. Pronalaženje informacija na webu

Zbirka adresa web stranica na Internetu

Preuzimanje stranica

Sastavljanje indeksa

Traži

Kvalitet pretraživača

Šta je

Bolje

Zašto ti ovo treba

Šta je

Bolje

Zašto ti ovo treba

3. YaCy

Šta je

Bolje

Zašto ti ovo treba

4. Pipl

Šta je

Bolje

Zašto ti ovo treba

Šta je

Bolje

Zašto ti ovo treba

Šta je

Bolje

Zašto ti ovo treba

Šta je

Bolje

Zašto ti ovo treba

Šta je

Bolje

Zašto ti ovo treba

Konačno

Glavni pretraživači

Karakteristike pretraživača

Top Related Articles