Tražilice. Pronalaženje informacija na webu

11.08.2019 Sigurnost

Poslijediplomski doktor na internetu može pronaći znanstvene članke za pisanje pregleda literature doktorske disertacije, članke na stranom jeziku za pripremu za kandidatski minimalni ispit, opis suvremenih metoda istraživanja i još mnogo toga...

O tome kako tražiti informacije na Internetu pomoću tražilica bit će razmotreno u ovom članku.

Za one koji još nisu dobro upućeni u koncepte kao što su stranica, poslužitelj, dajem vam neke osnovne informacije o Internetu.

Internet je skup web-mjesta smještenih na poslužiteljima, ujedinjenih komunikacijskim kanalima (telefonske, optičke i satelitske linije).

Stranica je skup dokumenata u html formatu (stranice stranice) povezanih hipervezama.

Velika stranica (na primjer, "Medlink" - medicinski tematski katalog http://www.medlinks.ru - sastoji se od 30.000 stranica, a količina prostora na disku koji zauzima na poslužitelju je oko 400 MB).
Mala stranica sastoji se od nekoliko desetaka - stotina stranica i zauzima 1 - 10 Mb (na primjer, moja stranica "Doktor-diplomski student" 25. srpnja 2004. sastojala se od 280 .htm stranica i zauzimala je 6 Mb na poslužitelju).

Poslužitelj je računalo spojeno na Internet i radi 24 sata dnevno. Poslužitelj može istovremeno ugostiti od nekoliko stotina do nekoliko tisuća stranica.

Korisnici interneta mogu pregledavati i kopirati web-mjesta smještena na poslužiteljskom računalu.

Kako bi se osigurao nesmetani pristup stranicama, poslužitelj se napaja putem besprekidnih izvora napajanja, a prostorija u kojoj posluju poslužitelji (podatkovni centar) opremljena je automatskim sustavom za gašenje požara, a organizirano je 24-satno dežurstvo tehničkog osoblja.

Za više od 10 godina svog postojanja, Runet (internet ruskog govornog područja) postao je uređena struktura i potraga za informacijama na webu postala je predvidljivija.

Glavni alat za pronalaženje informacija na Internetu su tražilice.

Tražilica se sastoji od spider programa koji indeksira internetske stranice i baze podataka (indeksa) koja sadrži informacije o posjećenim stranicama.

Na zahtjev webmastera, robot pauk ulazi na stranicu i pregledava stranice stranice, unoseći podatke o stranicama stranice u indeks tražilice. Tražilica može sama pronaći stranicu, čak i ako njezin webmaster nije podnio zahtjev za registraciju. Ako poveznica na stranicu naiđe negdje na putu tražilice (na primjer, na drugoj stranici), ona će odmah indeksirati stranicu.

Pauk ne kopira stranice stranice u indeks tražilice, ali sprema informacije o strukturi svake stranice stranice - na primjer, koje riječi se pojavljuju u dokumentu i kojim redoslijedom, adrese hiperveza stranica web-mjesta, veličina dokumenta u kilobajtima, datum njegovog stvaranja i još mnogo toga. Stoga je indeks tražilice nekoliko puta manji od količine indeksiranih informacija.

Što i kako tražilica pretražuje na internetu?

Tražilicu su izmislili ljudi kako bi im pomogli u potrazi za informacijama. Što je informacija u našem ljudskom razumijevanju i vizualnom predstavljanju? Oni nisu mirisi ili zvukovi, nisu senzacije ili slike. Ovo su samo riječi, tekst. Kada nešto tražimo na internetu, tražimo riječi – upit za pretraživanje, a kao odgovor se nadamo da ćemo dobiti tekst koji sadrži upravo te riječi. Jer znamo da će tražilica tražiti točno riječi koje smo tražili u nizu informacija. Jer je tako zamišljena da traži riječi.

Tražilica ne traži riječi na internetu, već u svom indeksu. Indeks tražilice sadrži informacije o samo malom broju internetskih stranica. Postoje tražilice koje indeksiraju samo web-mjesta na engleskom, a postoje tražilice koje u svom indeksu navode samo stranice na ruskom jeziku.

(indeks sadrži stranice na engleskom, njemačkom i drugim europskim jezicima)

Runet tražilice(indeks sadrži stranice na ruskom)

Značajke nekih tražilica na Runetu

Google tražilica ne uzima u obzir morfologiju ruskog jezika. Na primjer, Google riječi "disertacija" i "disertacija" smatra različitim.

Potrebno je pogledati ne samo prvu stranicu rezultata upita pretraživanja, već i ostale.

Jer često se web-mjesta koja sadrže informacije zaista potrebne korisniku nalaze na stranicama 4 - 10 rezultata upita pretraživanja.

Zašto se ovo događa? Prvo, mnogi graditelji web stranica ne optimiziraju svoje stranice web-mjesta za tražilice, na primjer, ne uključuju meta oznake na svojim stranicama.

Meta oznake su uslužni elementi web dokumenta koji nisu vidljivi na ekranu, ali su važni kada tražilice pronađu vašu stranicu. Meta oznake olakšavaju tražilicama pretraživanje tako da ne moraju ulaziti duboko u dokument i analizirati cijeli tekst stranice kako bi napravili određenu sliku o tome. Najvažniji meta tag je meta NAME = "ključne riječi" - ključne riječi stranice stranice. Ako se riječ iz glavnog teksta dokumenta ne smatra "spamom za pretraživanje" i nalazi se u "ključnim riječima" među prvih 50, tada se težina ove riječi u upitu povećava, odnosno dokument dobiva veću relevantnost .

Drugo, postoji žestoka konkurencija među webmasterima web stranica za prva mjesta u rezultatu upita za pretraživanje.

Prema statistikama, 80% posjetitelja stranice dolazi s tražilica. Prije ili kasnije, webmasteri to shvate i počnu prilagođavati svoje stranice zakonima tražilica.

Nažalost, neki kreatori web-mjesta koriste nepoštenu metodu promoviranja svoje web-lokacije putem tražilica - takozvanu "spam pretraživanja" kako bi stvorili ono što se čini kao podudaranje između sadržaja meta oznaka i ostatka teksta stranica - postavljaju skrivene riječi na stranice stranice, upisane u boji pozadine, tako da ne ometaju posjetitelje stranice. No, kreatori tražilica prate takve trikove i stranica "pretraživača neželjene pošte" pada s dosegnutih visina na samo dno.

Na internetu metafore i figurativne usporedbe su od male koristi. Iskrivljuju istinu, odvode korisnike interneta od točnih i nedvosmislenih informacija. Što je manje umijeća i više točnosti u stilu autora stranice, to stranica zauzima više pozicije u rezultatima pretraživanja.

Zauzvrat, ako želite da tražilica pronalazi članke za vas na internetu, razmišljajte kao stroj, postanite stroj. Barem na neko vrijeme. U vrijeme potrage.

Tražilice

Tražilice vam omogućuju da pronađete WWW-dokumente koji se odnose na određenu temu ili imaju ključne riječi ili njihove kombinacije. Tražilice obrađuju dvije metode pretraživanja:

· Po hijerarhiji pojmova;

· Po ključnim riječima.

Poslužitelji za pretraživanje popunjavaju se automatski ili ručno. Tražilica obično ima poveznice na ostale tražilice, te im šalje zahtjev za pretraživanje na zahtjev korisnika.

Postoje dvije vrste tražilica.

1. Tražilice "punog teksta" koje indeksiraju svaku riječ na web stranici, isključujući stop riječi.

2. "Apstraktne" tražilice koje kreiraju sažetak svake stranice.

Za webmastere su strojevi za puni tekst korisniji jer se svaka riječ koja se pojavi na web stranici analizira kako bi se utvrdila njezina relevantnost za zahtjeve korisnika. Međutim, apstraktni strojevi mogu indeksirati stranice bolje od onih s punim tekstom. To ovisi o algoritmu ekstrakcije informacija, na primjer, o učestalosti korištenja istih riječi.

Glavne karakteristike tražilica.

1. Veličina tražilice određena je brojem indeksiranih stranica. Međutim, u bilo kojem trenutku, veze koje se pružaju kao odgovor na zahtjeve korisnika mogu biti različite dobi. Razlozi zašto se to događa:

· Neke tražilice odmah indeksiraju stranicu na zahtjev korisnika, a zatim nastavljaju indeksirati stranice koje još nisu indeksirane.

· Vjerojatnije je da će drugi indeksirati najpopularnije web stranice.

2.Datum indeksiranja. Neke tražilice prikazuju datum kada je dokument indeksiran. To pomaže korisniku da odredi kada se dokument pojavio na webu.

3. Dubina indeksiranja pokazuje koliko stranica nakon navedene će tražilica indeksirati. Većina strojeva nema ograničenja dubine indeksiranja. Razlozi zašto se sve stranice ne mogu indeksirati:

· Nepravilna uporaba okvirnih struktura.

Korištenje karte web stranice bez dupliciranja redovitih poveznica

4. Rad s okvirima. Ako robot za pretraživanje ne zna raditi sa strukturama okvira, tada će mnoge strukture s okvirima biti propuštene tijekom indeksiranja.

5. Učestalost poveznica. Glavne tražilice mogu odrediti popularnost dokumenta prema tome koliko se često na njega poziva. Neki strojevi na temelju takvih podataka "zaključuju" isplati li se dokument indeksirati ili ne.

6. Učestalost ažuriranja poslužitelja. Ako se poslužitelj često ažurira, tražilica će ga češće ponovno indeksirati.

7. Kontrola indeksiranja. Pokazuje na koji način se tražilicom može kontrolirati.

8 preusmjeravanje. Neke stranice preusmjeravaju posjetitelje s jednog poslužitelja na drugi, a ovaj parametar pokazuje kako će to biti povezano s pronađenim dokumentima.

9. Zaustavne riječi. Neke tražilice ne uključuju određene riječi u svoje indekse ili možda ne uključuju te riječi u upite korisnika. Te se riječi obično smatraju prijedlozima ili uobičajeno korištenim riječima.

10. Kazne za neželjenu poštu. Mogućnost blokiranja neželjene pošte.

11. Brisanje starih podataka. Parametar koji određuje radnje webmastera kada se poslužitelj zatvori ili premjesti na drugu adresu.

Primjeri tražilica.

1. Altavista. Sustav je otvoren u prosincu 1995. U vlasništvu je tvrtke DEC. Od 1996. godine radi s Yahooom. AltaVista je najbolji izbor za prilagođena pretraživanja ... Međutim, razvrstavanje rezultata po kategorijama jame se ne izvršavaju i morate ručno pregledati dostavljene informacije. AltaVista ne pruža sredstva za dohvaćanje popisa žarišnih točaka, vijesti ili drugih mogućnosti pretraživanja sadržaja.

2.Uzbudite pretragu. Lansiran krajem 1995. Rujan 1996. - kupio WebCrawler. Ovaj čvor ima snažno krzno za pretraživanjenizm, mogućnost automatske prilagodbedostavljene informacije, kao i prikupljene kvalifikacijeod strane kvalificiranog osoblja za opis skupa čvorova. Oduševiti po tome se razlikuje od ostalih stranica za pretraživanjeomogućuje pretraživanje usluga vijesti i objavljivanje recenzija Internet stranice. Tražilica koristi sredstvastandardno pretraživanje ključnih riječi i heuristikametode pretraživanja sadržaja. Zahvaljujući ovoj kombinaciji,možete pronaći stranice koje odgovaraju značenju Mreža, ako ne sadrže ključ koji je odredio korisnik iznijeti riječi. Nedostatak Excite je pomalo kaotično sučelje.

3.HotBot. Lansiran u svibnju 1996. U vlasništvu Wireda. Temeljen na tehnologiji tražilice Berkeley Inktomi. HotBot je baza podataka indeksiranih dokumenata s punim tekstom i jedna od najopsežnijih tražilica na webu. Njegova booleova ograničenja pretraživanja i pretraživanja za bilo koju regiju ili web stranicu pomažu korisniku da pronađe informacije koje su mu potrebne dok filtrira nepotrebne informacije. HotBot pruža mogućnost odabira potrebnih parametara pretraživanja s padajućih popisa.

4.InfoSeek. Lansiran prije 1995. i lako je dostupan. Trenutno sadrži oko 50 milijuna URL-ova. Infoseek ima dobro osmišljeno sučelje i izvrsne alate za pretraživanje. Većina odgovora na upite popraćena je poveznicama "srodne teme", a svaki odgovor prate veze "slične stranice". Baza podataka tražilice sa stranicama indeksiranim punim tekstom. Odgovori su razvrstani prema dvama pokazateljima: učestalosti pojavljivanja riječi ili fraza na stranici tsakh, kao i položaj riječi ili izraza na stranicama. Postoji web imenik podijeljen u 12 kategorija sa stotinama potkategorija koje se mogu pretraživati. Svaka stranica kataloga sadrži popis re istaknuti čvorovi.

5. Lycos. Radi od svibnja 1994. Nadaleko je poznat i korišten. Uključuje direktorij s ogromnim brojem URL-ova. te tražilicu Point s tehnologijom statističke analize sadržaja stranice, za razliku od indeksiranja punim tekstom. Lycos sadrži vijesti, recenzije stranica, poveznice na popularne stranice, karte gradova i alate za pronalaženje adresa od slike i zvučne i videoisječke. Lycos raspoređuje odgovore prema stupnju korespondencijerezultate upita po nekoliko kriterija, na primjer, po brojulu pojmovi za pretraživanje pronađeni u napomeni dokumentapolicajac, interval izmeđunapraviti riječi u određenoj frazi dokumenta, mjestupojmove u dokumentu.

6. WebCrawler. Otvoren 20. travnja 1994. kao projekt Sveučilišta Washington. Webcrawler pruža mogućnosti sintaksu za određivanje upita, kao i veliki izbor napomene čvorova s nekompliciranim sučeljem.

Nakon svakog odgovora, WebCrawler će stati na putu s malim piktogramom s približnom procjenom podudaranja sa zahtjevom. Coma Togo prikazuje stranicu s kratkim sažetkom za svaki odgovor, punim URL-om, točnim rezultatom podudaranja, a također koristi ovaj odgovor u upitu modeliran je kao njegove ključne riječi.Grafičko sučelje za prilagođavanje upita u Web Crawler br. N e je dopuštenokorištenje zamjenskih znakova, a također je nemogućedodijeliti pondere ključnim riječima.Ne postoji način da se ograniči polje za pretraživanjespecifično područje.

7. Yahoo. Najstariji Yahoo imenik pokrenut je početkom 1994. godine. Nadaleko poznat, često korišten i najcjenjeniji. U ožujku 1996. pokrenut je katalog Yahooligans za djecu. Pojavljuju se Yahoo regionalni i top direktoriji. Yahoo se temelji na pretplati. Može poslužiti kao početna točka za bilo koje pretraživanje weba, jer koristi svoj klasifikacijski sustav za lociranje stranice s dobro organiziranim informacijama. Web sadržaj podijeljen je u 14 općih kategorija, navedenih na početnoj stranici Yahoo! Ovisno o specifičnostima zahtjeva korisnika, moguće je raditi s tim kategorijama radi upoznavanja potkategorija i popisa čvorova ili tražiti određene riječi i pojmove u cijeloj bazi podataka. Korisnik također može ograničiti pretragu na bilo koji odjeljak ili pododjeljak Yahoo! Zbog činjenice da klasifikaciju čvorova provode ljudi, i ne računalom, kvaliteta poveznica je obično vrlo visoka. Međutim, pročišćavanje pretrage u slučaju neuspjeha je teško. Za Yahoo ! tražilica uključena AltaVista, pa ako vaša pretraga ne uspije na Yahoo! automatski se događa ponavljanje pomoću tražilice AltaVista ... Rezultati se zatim prenose na Yahoo!. Yahoo! pruža mogućnost slanja upita za pretraživanje Useneta i Fourl 1 za adrese e-pošte.

Ruske tražilice uključuju:

1. Rambler Ovo je tražilica na ruskom jeziku. Odjeljci navedeni na početnoj stranici Ramblera pokrivaju web resurse na ruskom jeziku. Postoji klasifikator informacija. Zgodna prilika za rad je pružiti popis najposjećenijih stranica za svaku predloženu temu.

2. Pretraga luke. Aport rangiran među vodećim certificiranim tražilicama Microsoft kao lokalne tražilicesustavi za rusku verziju Microsoft Internet Explorer. Jedna od prednosti Aporta je englesko-ruski i rusko-engleski online prijevod upita i rezultata pretraživanja, što omogućuje pretraživanje u ruskim internetskim resursima. a da ni ne zna ruski jezik. Štoviše možete tražiti informacije korištenje izraza, čak i za rečenice.Među glavnim svojstvima tražilice Aport, možetepodijelite sljedeće:

Prijevod upita i rezultata pretraživanja s ruskog na engleskijezik neba i obrnuto;

Automatska provjera pravopisnih pogrešaka zahtjeva;

Informativni prikaz rezultata pretraživanja pronađenih stranica;

Mogućnost pretraživanja u bilo kojem gramatičkom obliku;

napredni jezik upita za profesionalce krajnji korisnici.

Ostala svojstva pretraživanja uključujupodrška za pet glavnih kodnih stranica (različiti operativnisustavi) za ruski jezik, korištenje tehnologije pretraživanjaimamo ograničenja na Url i datum dokumenata, provedbu pretraživanjaprema naslovima, komentarima i natpisimaidite na slike itd., spremite parametre pretraživanja i definirajte ograničen broj prethodnih korisničkih zahtjeva, kombinirajući kopije dokumenta koji se nalaze na različitim poslužiteljima.

3. Popis. ru ( http://www.list.ru) Svojom implementacijom ovaj poslužitelj ima mnogozajedničko s engleskim govornim sustavom Yahoo!. Početna stranica poslužitelja sadrži poveznice na najpopularnije kategorije pretraživanja.

Popis poveznica na glavne kategorije kataloga zauzima središnji dio. Pretraživanje u katalogu provodi se na način da se kao rezultat upita mogu pronaći i pojedinačne stranice i kategorije. Ako je pretraga uspješna, prikazuje se URL, naslov, opis, ključne riječi. Dopušteno za korištenje Yandex. Spoveznica „Strukturakatalog "otvara u zasebnom prozoru punu kategoriju katazapisnik. Implementirana je mogućnost prebacivanja s rubrikatora na bilo koju odabranu potkategoriju. Detaljnija tematska podjelatrenutni naslov je predstavljen popisom veza. Katalog je ovako organiziran na način da sva mjesta sadržana u nižim razinama struktureture su predstavljene u naslovima.Prikazani popis resursa sortiran je po abecedi, ali možete odabrati sortiranje: po vremenu novi dodaci, po prijelazima, po redoslijed dodavanja u katalog, dopopularnost među posjetiteljima imenika.

4. Yandex. Softverski proizvodi serije Yandex predstavljaju skup alata za indeksiranje cijelog teksta i pretraživanje tekstualnih podataka, uzimajući u obzir morfologiju ruskog jezika. Yandex uključuje module za morfološku analizu i sintezu, indeksiranje i pretraživanje, kao i skup pomoćnih modula kao što su analizator dokumenata, jezici za označavanje, pretvarači formata, spider.

Algoritmi za morfološku analizu i sintezu temeljeni na osnovnom rječniku mogu normalizirati riječi, odnosno pronaći njihov početni oblik, a također graditi hipoteze za riječi koje nisu sadržane u osnovnom rječniku. Sustav indeksiranja punog teksta omogućuje vam stvaranje kompaktnog indeksa i brzo obavljanje pretraživanja na temelju logičkih operatora.

Yandex je dizajniran za rad s tekstovima u lokalnoj i globalnoj mreži, a može se povezati i kao modul s drugim sustavima.

Glavni element modernog interneta je tražilicama ili tražilicama, Yandex, Rambler, Google i drugi. Na internetu je more raznih informacija, a tražilice su te koje pomažu korisniku da brzo pronađe informacije koje mu trebaju.

Postoji popis važnih pojmova u udžbenicima ili znanstvenim knjigama – abecedno predmetno kazalo odn indeks. Indeks navodi najvažnije pojmove u ovoj knjizi (ključne riječi) i brojeve stranica na kojima se pojavljuju.

Tražilice rade na sličnom principu. Uglavnom, kada korisnik unese pojam za pretraživanje (ključnu riječ), on ili ona upućuje na Internet Subject Index ili indeks – popis svih ključnih riječi na Internetu, koji označava stranice na kojima se pojavljuju.

Pretraživač Je program koji sastavlja i pohranjuje predmetni indeks Interneta (indeks), a također pronalazi navedene ključne riječi u njemu.

Faze sastavljanja i pretraživanja indeksa:

Prikupljanje adresa web stranica na Internetu

Početni popis adresa web stranica učitava se u tražilicu. Zatim tražilica, odnosno njezin sastavni dio - robot za pretraživanje, prikuplja sve hipertekstualne veze sa svake od navedenih stranica na druge stranice i dodaje sve adrese koje se nalaze u poveznicama na svoj izvorni popis adresa. Dakle, izvorni popis brzo raste.

Ispumpavanje stranica

Robot za pretraživanje ili pauk indeksira stranice, preuzima tekstualni materijal s njih i sprema ga na diskove svojih računala, a zatim ga prenosi indeksnom robotu radi indeksiranja.

Sastavljanje indeksa

Za početak, tekst indeksirane stranice je očišćen od svih netekstualnih elemenata (grafika, HTML oznake, itd.). Nadalje, riječi odabrane iz teksta svode se na svoje korijene ili nominativni padež. Prikupljene korijene riječi poredane su abecednim redom, označavajući brojevi stranica gdje se uzima baza, i ulazni brojevi, gdje je bila baza na ovoj stranici.

traži

Kada korisnik unese riječ u niz upita, tražilica gleda u indeks. Pronalazi sve brojeve stranica koje se odnose na zadanu riječ i prikazuje korisniku rezultat pretraživanja (popis stranica).

Kvaliteta tražilice

Kvaliteta pretraživanja je sinonim za to. relevantnost. U odnosu na tražilice, riječ relevantan(relevantno) je gotovo glavni pojam. Relevantnost rezultata pretraživanja tražilice znači da ti rezultati sadrže stranice koje su relevantne za značenje upita za pretraživanje. Relevantnost ili kvaliteta pretrage je zeznuta stvar.

Drugi važan kriterij za kvalitetu rada tražilice je točnost.

Točnost Mjera je kvalitete vraćenih rezultata, izračunava se kao broj relevantnih stranica u ukupnom broju stranica prikazanih u rezultatima pretraživanja. Međutim, nije važna samo točnost pretrage, već i rasponu Rezultati pretraživanja.

Raspon- mjesto rezultata pretraživanja prema relevantnosti.

Nemoguće je reći koja je tražilica bolja. Korisniku je bolje s tražilicom koja daje najrelevantnije i najtočnije rezultate. Za vlasnika stranice dobro je da je stroj u kojem je stranica jasno vidljiva i koja donosi najveći broj ciljanih posjetitelja.

Što je

DuckDuckGo je prilično poznata tražilica otvorenog koda. Poslužitelji se nalaze u SAD-u. Osim vlastitog robota, tražilica koristi rezultate drugih izvora: Yahoo, Bing, Wikipedia.

Bolji

DuckDuckGo se pozicionira kao tražilica koja pruža maksimalnu privatnost i povjerljivost. Sustav ne prikuplja nikakve korisničke podatke, ne pohranjuje zapisnike (bez povijesti pretraživanja), korištenje kolačića je maksimalno ograničeno.

DuckDuckGo ne prikuplja niti dijeli osobne podatke korisnika. Ovo je naša politika privatnosti.
Gabriel Weinberg, osnivač DuckDuckGo

Zašto ti treba

Sve glavne tražilice pokušavaju se personalizirati na temelju podataka o osobi ispred monitora. Taj se fenomen naziva "mjehurić filtra": korisnik vidi samo one rezultate koji se slažu s njegovim preferencijama ili koje sustav takvima smatra.

DuckDuckGo stvara objektivnu sliku koja ne ovisi o vašem dosadašnjem ponašanju na webu te se rješava Google i Yandex tematskih oglasa na temelju vaših upita. DuckDuckGo olakšava pretraživanje informacija na stranim jezicima: Google i Yandex prema zadanim postavkama daju prednost stranicama na ruskom jeziku, čak i ako je zahtjev upisan na drugom jeziku.

Što je

not Evil je tražilica za anonimnu mrežu Tor. Da biste ga koristili, morate otići na ovu mrežu, na primjer, pokretanjem specijalizirane mreže s istim imenom.

not Evil nije jedina tražilica te vrste. Postoji LOOK (zadana pretraga u Tor pregledniku, dostupna s običnog interneta) ili TORCH (jedna od najstarijih tražilica u Tor mreži) i drugi. Odlučili smo se na ne Evil zbog nedvosmislenog nagovještaja Googlea (samo pogledajte početnu stranicu).

Bolji

Pretrage gdje su Google, Yandex i druge tražilice u principu zatvorene.

Zašto ti treba

Na mreži Tor postoji mnogo resursa koji se ne mogu pronaći na Internetu koji poštuje zakon. A njihov će broj rasti kako vlada pooštrava kontrolu nad sadržajem weba. Tor je svojevrsna mreža unutar Mreže s vlastitim društvenim mrežama, torrent trackerima, medijima, tržnicama, blogovima, knjižnicama i tako dalje.

3. YaCy

Što je

YaCy je decentralizirana tražilica koja se temelji na P2P mrežama. Svako računalo na kojem je instaliran glavni softverski modul samostalno skenira Internet, odnosno analogno je robotu za pretraživanje. Dobiveni rezultati prikupljaju se u zajedničku bazu podataka koju koriste svi sudionici YaCy-ja.

Bolji

Teško je reći je li ovdje bolje ili lošije, budući da je YaCy potpuno drugačiji pristup organizaciji pretraživanja. Odsutnost jednog poslužitelja i vlasnika tvrtke čini rezultate potpuno neovisnim o nečijim preferencijama. Autonomija svakog čvora isključuje cenzuru. YaCy je sposoban pretraživati duboki web i neindeksirane javne mreže.

Zašto ti treba

Ako ste pobornik otvorenog koda i besplatnog interneta, na koji ne utječu državne agencije i velike korporacije, onda je YaCy vaš izbor. Također se može koristiti za organiziranje pretraživanja unutar korporativne ili druge autonomne mreže. I dok YaCy nije baš koristan u svakodnevnom životu, on je dostojna alternativa Googleu u smislu procesa pretraživanja.

4. Pipl

Što je

Pipl je sustav dizajniran za traženje informacija o određenoj osobi.

Bolji

Autori Pipl tvrde da njihovi specijalizirani algoritmi pretražuju učinkovitije od "običnih" tražilica. Posebno su prioritetni izvori informacija profili na društvenim mrežama, komentari, popisi sudionika i razne baze podataka u kojima se objavljuju podaci o osobama, poput baze podataka sudskih odluka. Piplovo vodstvo u ovom području potvrdili su Lifehacker.com, TechCrunch i drugi.

Zašto ti treba

Ako trebate pronaći informacije o osobi koja živi u Sjedinjenim Državama, Pipl će biti puno učinkovitiji od Googlea. Baze podataka ruskih sudova očito su nedostupne tražilici. Stoga se ne nosi tako dobro s građanima Rusije.

Što je

FindSounds je još jedna specijalizirana tražilica. Traži različite zvukove (kuća, priroda, automobili, ljudi itd.) u otvorenim izvorima. Usluga ne podržava zahtjeve na ruskom, ali postoji impresivan popis oznaka na ruskom jeziku koje možete tražiti.

Bolji

Rezultati su samo zvukovi i ništa više. U postavkama pretraživanja možete postaviti željeni format i kvalitetu zvuka. Svi pronađeni zvukovi dostupni su za preuzimanje. Postoji pretraga zvukova po uzorku.

Zašto ti treba

Ako trebate brzo pronaći zvuk pucnjave muškete, udarce sisanog djetlića ili vrisak Homera Simpsona, onda je ova usluga za vas. A mi smo to odabrali samo među dostupnim zahtjevima na ruskom jeziku. Na engleskom je spektar još širi.

Ali ozbiljno, specijalizirana usluga pretpostavlja specijaliziranu publiku. Ali što ako dobro dođe?

Što je

Wolfram | Alpha je računalna tražilica. Umjesto poveznica na članke koji sadrže ključne riječi, daje gotov odgovor na zahtjev korisnika. Na primjer, ako u obrazac za pretraživanje unesete "usporedi stanovništvo New Yorka i San Francisca" na engleskom jeziku, Wolfram | Alpha će odmah prikazati tablice i grafikone s usporedbom.

Bolji

Ova je usluga bolja od ostalih za pronalaženje činjenica i izračunavanje podataka. Wolfram | Alpha prikuplja i organizira znanje dostupno na webu iz raznih područja, uključujući znanost, kulturu i zabavu. Ako ova baza podataka sadrži gotov odgovor na upit za pretraživanje, sustav ga prikazuje; ako ne, izračunava i prikazuje rezultat. U tom slučaju korisnik vidi samo potrebne informacije i ništa suvišno.

Zašto ti treba

Ako ste, na primjer, student, analitičar, novinar ili znanstveni znanstvenik, možete koristiti Wolfram | Alpha za pronalaženje i izračunavanje podataka u vezi s vašim radom. Usluga ne razumije sve zahtjeve, ali se stalno razvija i postaje sve pametnija.

Što je

Dogpile metasearch engine prikazuje kombinirani popis rezultata iz rezultata pretraživanja s Googlea, Yahooa i drugih popularnih tražilica.

Bolji

Prvo, Dogpile prikazuje manje oglasa. Drugo, usluga koristi poseban algoritam za pronalaženje i prikazivanje najboljih rezultata iz različitih tražilica. Prema programerima Dogpilea, njihov sustav generira najpotpunije rezultate pretraživanja na cijelom Internetu.

Zašto ti treba

Ako ne možete pronaći informacije na Googleu ili nekoj drugoj standardnoj tražilici, potražite ih u nekoliko tražilica odjednom pomoću Dogpilea.

Što je

BoardReader je sustav za pretraživanje teksta na forumima, uslugama pitanja i odgovora i drugim zajednicama.

Bolji

Usluga vam omogućuje da suzite polje pretraživanja na društvene platforme. Zahvaljujući posebnim filterima, možete brzo pronaći postove i komentare korisnika koji odgovaraju vašim kriterijima: jezik, datum objave i naziv stranice.

Zašto ti treba

BoardReader može biti koristan PR stručnjacima i drugim medijskim profesionalcima koje zanima mišljenje masovne publike o određenim pitanjima.

Konačno

Život alternativnih tražilica često je prolazan. Lifehacker je pitao Sergeja Petrenka, bivšeg generalnog direktora ukrajinske podružnice Yandexa, o dugoročnim izgledima takvih projekata.

Sergej Petrenko

Bivši izvršni direktor Yandex.Ukraine.

Što se tiče sudbine alternativnih tražilica, to je jednostavno: biti vrlo nišni projekti s malom publikom, dakle, bez jasnih komercijalnih izgleda, ili, obrnuto, s potpunom jasnoćom njihove odsutnosti.

Ako pogledate primjere u članku, možete vidjeti da su takve tražilice ili specijalizirane za usku, ali traženu nišu, koja, možda samo do sada, nije dovoljno narasla da bi bila uočljiva na radarima Googlea ili Yandexa, ili se testiraju izvorna hipoteza u rangiranju.što još nije primjenjivo u redovnom pretraživanju.

Na primjer, ako se odjednom pokaže da je traženje na Toru traženo, odnosno da će rezultati odande biti potrebni barem postotku Googleove publike, tada će, naravno, obične tražilice početi rješavati problem kako da ih pronađe i pokaže korisniku. Ako ponašanje publike pokaže da se rezultati čine relevantnijim za primjetan udio korisnika u primjetnom broju upita, podataka bez uzimanja u obzir čimbenika ovisnih o korisniku, tada će Yandex ili Google početi davati takve rezultate.

“Biti bolji” u kontekstu ovog članka ne znači “biti bolji u svemu”. Da, u mnogim aspektima naši su heroji daleko od Googlea i Yandexa (čak je i Bing daleko). No, s druge strane, svaka od ovih usluga korisniku daje nešto što divovi industrije pretraživanja ne mogu ponuditi. Sigurno i vi poznajete slične projekte. Podijelite s nama - razgovarat ćemo.

Tražilice su jedan od glavnih načina pronalaženja informacija na Internetu. Tražilice svakodnevno puze po webu: posjećuju web stranice i unose ih u goleme baze podataka. To omogućuje korisniku da upiše neke ključne riječi, pritisne submit i vidi koje stranice zadovoljavaju njihov zahtjev.

Razumijevanje načina rada tražilica ključno je za webmastere. Za njih je od vitalnog značaja ispravna struktura dokumenata i cijelog poslužitelja ili stranice sa stajališta tražilica. Bez toga, dokumenti se neće pojavljivati dovoljno često kao odgovor na korisničke upite tražilici, ili čak možda neće biti uopće indeksirani.

Webmasteri žele povećati rang svojih stranica, i to je razumljivo: uostalom, za svaki zahtjev tražilici mogu se izdati stotine i tisuće poveznica na dokumente koji mu odgovaraju. U većini slučajeva samo prvih 10 veza ima dovoljnu relevantnost za upit.

Naravno, želite da dokument bude među prvih deset, budući da većina korisnika rijetko gleda linkove koji slijede prvih deset. Drugim riječima, ako je poveznica na dokument jedanaesta, onda je jednako loša kao da uopće ne postoji.

Glavne tražilice

Koje od stotina tražilica su zaista važne za webmastera? Pa, naravno, nadaleko poznat i često korišten. Ali u isto vrijeme, trebali biste uzeti u obzir publiku za koju je vaš poslužitelj dizajniran. Na primjer, ako vaš poslužitelj sadrži visoko specijalizirane informacije o najnovijim metodama mužnje krava, vjerojatno se ne biste trebali oslanjati na opće tražilice. U ovom slučaju, savjetovao bih vam da razmijenite linkove sa svojim kolegama koji se bave sličnim problemima 🙂 Dakle, prvo, definirajmo terminologiju.

Postoje dvije vrste informacijskih baza podataka o web stranicama: tražilice i imenici.

Tražilice: (pauci, crawleri) neprestano istražuju web kako bi nadopunili svoje baze dokumenata. To obično ne zahtijeva nikakav napor od strane osobe. Primjer bi bila tražilica Altavista.

Za tražilice je konstrukcija svakog dokumenta vrlo važna. Naslov, metaoznake i sadržaj stranice su od velike važnosti.

Imenici: za razliku od tražilica, informacije se unose u imenik na inicijativu osobe. Dodana stranica mora biti čvrsto povezana s kategorijama prihvaćenim u katalogu. Primjer imenika je Yahoo. Konstrukcija stranica nije bitna. Dalje ćemo se fokusirati uglavnom na tražilice.

Altavista

Sustav je otvoren u prosincu 1995. U vlasništvu je tvrtke DEC. Od 1996. godine radi s Yahooom.

Uzbudite pretragu

Pokrenut krajem 1995. godine, sustav se brzo razvijao. U srpnju 1996. kupio Magellan, u rujnu 1996. kupio WebCrawler. Međutim, oboje ga koriste odvojeno jedno od drugog. Možda će u budućnosti raditi zajedno.

U ovom sustavu postoji i katalog - Excite Reviews. Ulazak u ovaj direktorij prava je sreća, budući da tamo nisu navedene sve stranice. Međutim, tražilica prema zadanim postavkama ne koristi podatke iz ovog imenika, ali ih je moguće provjeriti nakon pregleda rezultata pretraživanja.

HotBot

Lansiran u svibnju 1996. U vlasništvu Wireda. Temeljen na tehnologiji tražilice Berkeley Inktomi.

InfoSeek

Lansiran nešto prije 1995. godine, dobro je poznat, odlično izgleda i lako je dostupan. Ultrasmart / Ultraseek trenutno sadrži oko 50 milijuna URL-ova.

Zadana opcija pretraživanja je Ultrasmart. U tom slučaju se pretražuju oba imenika. Uz opciju Ultraseek, rezultati upita se vraćaju bez dodatnih informacija. Doista nova tehnologija pretraživanja također omogućuje lakše pretraživanje i niz drugih značajki koje možete pročitati o InfoSeeku. Postoji InfoSeek Select imenik odvojen od tražilice.

Lycos

Otprilike od svibnja 1994. godine radi jedna od najstarijih tražilica Lycos. Nadaleko poznat i često korišten. Uključuje tražilicu Point (radi od 1995.) i A2Z katalog (koji radi od veljače 1996.).

OpenText

Sustav OpenText pojavio se nešto ranije od 1995. godine. U lipnju 1996. počela je surađivati s Yahooom. Postupno gubi svoju poziciju i uskoro će prestati biti uključen u broj glavnih tražilica.

Webcrawler

Otvoren 20. travnja 1994. kao istraživački projekt na Sveučilištu Washington. Kupljena od strane America Online u ožujku 1995. Postoji WebCrawler Select katalog.

Yahoo

Najstariji Yahoo imenik pokrenut je početkom 1994. godine. Nadaleko poznat, često korišten i najcjenjeniji. U ožujku 1996. pokrenut je još jedan Yahoo imenik, Yahooligans for Kids. Sve je više regionalnih i top-direktorija Yahooa.

Budući da je Yahoo korisnik koji se temelji na pretplati, neke stranice možda neće biti navedene. Ako Yahoo pretraga ne vrati odgovarajuće rezultate, korisnici mogu koristiti tražilicu. Ovo je vrlo jednostavno za napraviti. Kada se zahtjev uputi Yahoou, imenik ga prosljeđuje bilo kojoj od glavnih tražilica. Prve poveznice na popisu zadovoljavajućih zahtjeva su adrese iz imenika, a zatim slijede adrese primljene od tražilica, posebice od Altaviste.

Značajke tražilica

Svaka tražilica ima niz značajki. Ove značajke treba uzeti u obzir prilikom izrade vaših stranica.

Vrsta tražilice

Tražilice "punog teksta" indeksiraju svaku riječ na web stranici, isključujući nekoliko riječi za zaustavljanje. "Apstraktne" tražilice stvaraju izvod svake stranice.

Za webmastere su strojevi za puni tekst korisniji jer se svaka riječ koja se pojavi na web stranici analizira kako bi se utvrdila njezina relevantnost za zahtjeve korisnika. Međutim, za apstraktne tražilice može se dogoditi da su stranice bolje indeksirane nego za one s punim tekstom. To može proizaći iz algoritma izdvajanja, na primjer, učestalosti istih riječi na stranici.

Veličina

Veličina tražilice određena je brojem indeksiranih stranica. Na primjer, u tražilici velike veličine, gotovo sve vaše stranice mogu se indeksirati, s prosječnim volumenom vaš poslužitelj može biti djelomično indeksiran, a s malom količinom vaše stranice možda neće biti uključene u direktorije tražilica uopće.

Razdoblje obnove

neke tražilice odmah indeksiraju stranicu na zahtjev korisnika, a zatim nastavljaju indeksirati stranice koje još nisu indeksirane
drugi će vjerojatnije "puzati" po najpopularnijim web stranicama nego po drugima

Datum indeksiranja dokumenta

Neke tražilice prikazuju datum kada je određeni dokument indeksiran. To pomaže korisniku da shvati koliko je tražilica "svježu" vezu. Drugi ostavljaju korisnike da samo nagađaju o tome.

Poslane stranice

U idealnom slučaju, tražilice bi trebale pronaći bilo koju stranicu na bilo kojem poslužitelju kao rezultat praćenja poveznica. Prava slika izgleda drugačije. Stranice poslužitelja pojavljuju se mnogo ranije u indeksima tražilica, ako ih navedete izravno (Add URL).

Neposlane stranice

Ako je navedena barem jedna stranica poslužitelja, tražilice će sigurno pronaći sljedeće stranice po poveznicama s navedene. Međutim, to traje dulje. Neki strojevi indeksiraju cijeli poslužitelj odjednom, ali većina ipak, nakon što upiše navedenu stranicu u indeks, ostavlja indeksiranje poslužitelja za budućnost.

Dubina indeksiranja

Ovaj parametar se odnosi samo na stranice koje nisu navedene. Pokazuje koliko stranica nakon navedene će tražilica indeksirati.

Većina velikih strojeva nema ograničenja dubine indeksiranja. U praksi to nije sasvim točno. Evo nekoliko razloga zašto sve stranice ne mogu biti indeksirane:

ne pretjerano pažljiva upotreba struktura okvira (bez dupliciranih veza u kontrolnoj (frameset) datoteci)
koristeći imagemap bez dupliciranja s redovitim vezama

Podrška za okvir

Ako robot za pretraživanje ne zna raditi sa strukturama okvira, tada će mnoge strukture s okvirima biti propuštene tijekom indeksiranja.

Podrška za ImageMap

Ovo je otprilike isti problem kao kod struktura okvira poslužitelja.

Imenici i poslužitelji zaštićeni lozinkom

Neke tražilice mogu indeksirati takve poslužitelje ako im se dodijeli korisničko ime i lozinka. Zašto je ovo potrebno? Tako da korisnici mogu vidjeti što se nalazi na vašem poslužitelju. To omogućuje barem saznanje da takve informacije postoje, a možda će se tada pretplatiti na vaše podatke.

Frekvencija veze

Glavne tražilice mogu odrediti popularnost dokumenta prema tome koliko često je povezan s drugim mjestima na webu. Neki strojevi na temelju takvih podataka "donose zaključak" isplati li se ili ne trošiti vrijeme na indeksiranje takvog dokumenta.

Sposobnost učenja

Ako se poslužitelj često ažurira, tražilica će ga ponovno indeksirati češće, ako rijetko - rjeđe.

Kontrola indeksiranja

Pokazuje koja sredstva može kontrolirati određena tražilica. Sve glavne tražilice slijede smjernice za datoteku robots.txt. Neki također podržavaju kontrolu korištenjem META oznaka iz dokumenata koji se sami indeksiraju.

Preusmjeravanje

Neke web stranice preusmjeravaju posjetitelje s jednog poslužitelja na drugi, a ovaj parametar pokazuje koji će URL biti povezan s vašim dokumentima. To je važno jer ako tražilica ne obradi preusmjeravanje, tada se mogu pojaviti problemi s nepostojećim datotekama.

Zaustavite riječi

Neke tražilice ne uključuju određene riječi u svoje indekse ili možda ne uključuju te riječi u upite korisnika. Takve se riječi obično smatraju prijedlozima ili samo vrlo često korištenim riječima. I nemojte ih uključivati kako biste uštedjeli prostor na medijima. Na primjer, Altavista zanemaruje riječ web, a za zahtjeve web programera bit će vraćena samo druga riječ. Postoje načini da se to izbjegne.

Utjecaj na algoritam za određivanje relevantnosti

Tražilice pazite da koriste lokaciju i učestalost ključnih riječi u dokumentu. Međutim, dodatni mehanizmi za povećanje važnosti različiti su za svako vozilo. Ovaj parametar pokazuje kakvi mehanizmi postoje za određeni stroj.

Spam kazne

Sve glavne tražilice "ne vole" kada web-mjesto pokušava povećati svoj rang, na primjer, uzastopno navođenjem putem URL-a za dodavanje ili spominjanjem iste ključne riječi više puta, itd. U većini slučajeva takve radnje (spam, slaganje ) se kažnjavaju, a ocjena stranice, naprotiv, pada.

Tražilice. Pronalaženje informacija na webu

Prikupljanje adresa web stranica na Internetu

Ispumpavanje stranica

Sastavljanje indeksa

traži

Kvaliteta tražilice

Što je

Bolji

Zašto ti treba

Što je

Bolji

Zašto ti treba

3. YaCy

Što je

Bolji

Zašto ti treba

4. Pipl

Što je

Bolji

Zašto ti treba

Što je

Bolji

Zašto ti treba

Što je

Bolji

Zašto ti treba

Što je

Bolji

Zašto ti treba

Što je

Bolji

Zašto ti treba

Konačno

Glavne tražilice

Značajke tražilica

Vrhunski povezani članci