Kako postaviti pametne telefone i računala. Informativni portal
  • Dom
  • Savjet
  • Slučaj je tražilica. Internetska tražilica - Yahoo

Slučaj je tražilica. Internetska tražilica - Yahoo

Arhitektura tražilice obično uključuje:

Sveučilišni YouTube

    1 / 5

    ✪ 3. lekcija: Kako radi tražilica. Uvod u SEO

    ✪ Tražilica iznutra

    ✪ Shodan - crni Google

    ✪ Tražilica CHEBURASHKA zamijenit će Google i Yandex u Rusiji

    ✪ Lekcija 1 - Kako radi tražilica

    titlovi

Priča

Kronologija
Godina Sustav Događaj
1993 W3Catalog ?! Trčanje
Aliweb Trčanje
JumpStation Trčanje
1994 Webcrawler Trčanje
Infoseek Trčanje
Lycos Trčanje
1995 AltaVista Trčanje
Daum Baza
Otvorite tekst Web indeks Trčanje
Magellan Trčanje
Oduševiti Trčanje
SAPO Trčanje
Yahoo! Trčanje
1996 Dogpile Trčanje
Inktomi Baza
Lutalica Baza
HotBot Baza
Pitaj jeevesa Baza
1997 Sjeverno svjetlo Trčanje
Yandex. Trčanje
1998 Google Trčanje
1999 AlltheWeb Trčanje
Genie zna Baza
Naver Trčanje
Teoma Baza
Vivisimo Baza
2000 Baidu Baza
Exalead Baza
2003 Info.com Trčanje
2004 Yahoo! traži Konačno lansiranje
A9.com Trčanje
Sogou Trčanje
2005 MSN pretraga Konačno lansiranje
Ask.com Trčanje
Nygma Trčanje
GoodSearch Trčanje
Pretraži me Baza
2006 wikiseek Baza
Quaero Baza
Pretraživanje uživo Trčanje
ChaCha Pokretanje (beta)
Guruji.com Pokretanje (beta)
2007 wikiseek Trčanje
Sproose Trčanje
Wikia pretraga Trčanje
Blackle.com Trčanje
2008 DuckDuckGo Trčanje
Tooby Trčanje
Pikolator Trčanje
Viewzi Trčanje
Cuil Trčanje
Boogami Trčanje
LeapFish Pokretanje (beta)
Forestle Trčanje
VADLO Trčanje
Powerset Trčanje
2009 Bing Trčanje
KAZ.KZ Trčanje
Yebol Pokretanje (beta)
Mugurdy Zatvaranje
Izviđač Trčanje
2010 Cuil Zatvaranje
Blekko Pokretanje (beta)
Viewzi Zatvaranje
2012 WAZZUB Trčanje
2014 Satelit Pokretanje (beta)

U prvim danima interneta, Tim Berners-Lee je vodio popis web poslužitelja objavljen na web stranici CERN-a. Postojalo je sve više stranica, a bilo je sve teže ručno održavati takav popis. Na web stranici NCSA postojao je poseban odjeljak Što je novo. (engleski What "s New!), gdje su objavili poveznice na nove stranice.

Prvi računalni program za pretraživanje Interneta bio je program Archie(engleski archie je arhiva bez slova "in"). Stvorili su ga 1990. Alan Emtage, Bill Heelan i J. Peter Deutsch, studenti informatike na Sveučilištu McGill u Montrealu. Program je preuzeo popis svih datoteka sa svih dostupnih anonimnih FTP poslužitelja i napravio bazu podataka koju je moguće pretraživati ​​prema nazivima datoteka. Međutim, Archiejev program nije indeksirao sadržaj tih datoteka, jer je količina podataka bila toliko mala da se sve moglo lako pronaći ručno.

Razvoj i širenje Gopher mrežnog protokola, koji je 1991. izumio Mark McCahill sa Sveučilišta Minnesota, doveo je do stvaranja dva nova programa pretraživanja, Veronika i Jughead. Poput Archieja, tražili su nazive datoteka i zaglavlja pohranjena u Gopher indeksnim sustavima. Veronika (eng. Vrlo jednostavno glodavcima orijentirano internetsko kazalo kompjuteriziranih arhiva) dopuštena pretraživanja ključnih riječi za većinu naslova Gopher izbornika na svim Gopher popisima. Jughead program (eng. Jonzyjev univerzalni gopher hijerarhijski iskopavanje i prikaz) dohvaćaju informacije izbornika s određenih Gopher poslužitelja. Iako naziv tražilice Archie nije imao nikakve veze s ciklusom stripa "Archie" međutim Veronica i Jughead su likovi u ovim stripovima.

Do ljeta 1993. još uvijek nije postojao sustav za pretraživanje weba, iako su se brojni specijalizirani imenici održavali ručno. Oscar Nierstrasz sa Sveučilišta u Ženevi napisao je niz Perl skripti koje su povremeno kopirale te stranice i transkribirale ih u standardni format. Ovo je postalo osnova za W3Catalog ?!, prva primitivna tražilica na webu, pokrenuta 2. rujna 1993. godine.

Vjerojatno prvi alat za indeksiranje koji je napisan na Perlu bio je bot "World Wide Web Wanderer" Matthewa Graya u lipnju 1993. godine. Ovaj robot kreirao je Wandex indeks pretraživanja. Cilj robota Wanderer bio je izmjeriti veličinu svjetske mreže i pronaći sve web stranice koje sadrže riječi iz upita. 1993. godine pojavila se druga tražilica Aliweb. Aliweb nije koristio alat za indeksiranje, već je umjesto toga čekao obavijesti administratora web-mjesta o prisutnosti indeksne datoteke u određenom formatu na njihovim stranicama.

JumpStation, koju je u prosincu 1993. kreirao Jonathan Fletcher, tražio je web stranice i gradio njihove indekse pomoću alata za indeksiranje te koristio web obrazac kao sučelje za formuliranje pretraživanja. Bio je to prvi internetski alat za pretraživanje koji je kombinirao tri bitne funkcije tražilice (provjera valjanosti, indeksiranje i stvarno pretraživanje). Zbog ograničenih resursa računala u to vrijeme, indeksiranje, a samim time i pretraživanje, bilo je ograničeno samo na naslove i naslove web stranica koje je pronašao robot za pretraživanje.

Tražilice su sudjelovale u dotcom balonu kasnih 1990-ih. Nekoliko tvrtki uspješno je ušlo na tržište, ostvarivši rekordnu dobit tijekom inicijalne javne ponude. Neki su napustili tržište tražilica otvorenog koda i počeli raditi samo s korporativnim sektorom, na primjer, Sjeverno svjetlo.

Google je preuzeo ideju prodaje ključnih riječi 1998. godine kada je bila mala tvrtka koja je pokretala tražilicu na goto.com. Taj je potez navijestio prelazak tražilica iz međusobnog natjecanja u jedan od najprofitabilnijih poslovnih pothvata na internetu. Tražilice su počele prodavati top pozicije u rezultatima pretraživanja pojedinačnim tvrtkama.

Google tražilica istaknuta je od ranih 2000-ih. Tvrtka je postigla visoku poziciju zahvaljujući dobrim rezultatima pretraživanja korištenjem PageRank algoritma. Algoritam je javnosti predstavljen u članku "Anatomija tražilice", koji su napisali Sergey Brin i Larry Page, osnivači Googlea. Ovaj iterativni algoritam rangira web stranice na temelju procjene broja hiperveza na web stranicu, pretpostavljajući više veza na "dobre" i "važne" stranice od ostalih. Googleovo sučelje je spartansko i nema ništa suvišno, za razliku od mnogih njegovih konkurenata koji su tražilicu ugradili u web portal. Google tražilica postala je toliko popularna da su postojali sustavi koji je oponašaju, na primjer, Tragač misterija(tajna tražilica).

Tražite informacije na ruskom

Godine 1996. provedena je pretraga uzimajući u obzir rusku morfologiju na tražilici Altavista te su pokrenute originalne ruske tražilice Rambler i Aport. 23. rujna 1997. pokrenuta je tražilica Yandex. Rostelecom je 22. svibnja 2014. pokrenuo nacionalnu tražilicu Sputnik, koja je u vrijeme 2015. godine u beta testiranju. 22. travnja 2015. puštena je u rad nova usluga Sputnik. Djeca posebno za djecu s povećanom sigurnošću.

Metode klaster analize i pretraživanja metapodataka postale su vrlo popularne. Od međunarodnih automobila ove vrste, najpoznatiji je primljen "Clusty" društvo Vivisimo... 2005. godine u Rusiji je uz potporu Moskovskog državnog sveučilišta pokrenuta tražilica "Nigma" koja podržava automatsko grupiranje. Godine 2006. otvoren je ruski metastroj Quintura koji nudi vizualno grupiranje u obliku oblaka oznaka. Nygma je također eksperimentirala s vizualnim grupiranjem.

Kako radi tražilica

Glavne komponente tražilice: robot za pretraživanje, indekser, tražilica.

Tipično, sustavi rade u fazama. Prvo, alat za indeksiranje prima sadržaj, zatim indekser generira indeks koji se može pretraživati, i na kraju, tražilica pruža funkcionalnost pretraživanja indeksiranih podataka. Za ažuriranje tražilice ovaj ciklus indeksiranja se ponavlja.

Tražilice rade tako da pohranjuju informacije o mnogim web stranicama koje dohvaćaju s HTML stranica. Aparat za indeksiranje ili "pazalica" je program koji automatski prelazi sve veze pronađene na stranici i ističe ih. Alat za indeksiranje, na temelju poveznica ili na temelju unaprijed određenog popisa adresa, traži nove dokumente koji tražilici još nisu poznati. Vlasnik web-mjesta može isključiti određene stranice koristeći robots.txt, koji se može koristiti za sprječavanje indeksiranja datoteka, stranica ili direktorija web-mjesta.

Tražilica analizira sadržaj svake stranice radi daljnjeg indeksiranja. Riječi se mogu izdvojiti iz naslova, teksta stranice ili posebnih polja – meta tagova. Indekser je modul koji analizira stranicu nakon što je razbije na dijelove koristeći vlastite leksičke i morfološke algoritme. Svi elementi web stranice su izolirani i analizirani zasebno. Podaci o web stranicama pohranjuju se u indeksnu bazu podataka za korištenje u sljedećim upitima. Indeks vam omogućuje brzo pronalaženje informacija na zahtjev korisnika. Brojne tražilice, poput Googlea, pohranjuju originalnu stranicu u cijelosti ili djelomično, takozvanu predmemoriju, kao i razne informacije o web stranici. Drugi sustavi poput AltaVista pohranjuju svaku riječ svake stranice koju pronađe. Korištenje predmemorije pomaže ubrzati dohvaćanje informacija s već posjećenih stranica. Stranice u predmemoriji uvijek sadrže tekst koji je korisnik naveo u upitu za pretraživanje. Ovo može biti korisno u slučaju kada je web stranica osvježena, odnosno više ne sadrži tekst zahtjeva korisnika, a stranica u predmemoriji je još uvijek stara. Ova situacija je povezana s gubitkom poveznica (eng. linkrot) i Googleov pristup prilagođen korisniku (upotrebljivost). To uključuje dohvaćanje kratkih dijelova teksta iz predmemorije koji sadrže tekst zahtjeva. Primjenjuje se načelo najmanjeg iznenađenja, korisnik obično očekuje da će u tekstovima primljenih stranica vidjeti tražene riječi ( Očekivanja korisnika). Osim ubrzavanja pretraživanja korištenjem stranica u predmemoriji, stranice u predmemoriji mogu sadržavati informacije koje više nisu dostupne nigdje drugdje.

Tražilica radi s izlaznim datotekama primljenim od indeksera. Tražilica prihvaća upite korisnika, obrađuje ih pomoću indeksa i vraća rezultate pretraživanja.

Kada korisnik unese upit u tražilicu (obično koristeći ključne riječi), sustav provjerava njegov indeks i proizvodi popis najprikladnijih web stranica (razvrstanih po nekom kriteriju), obično s kratkom napomenom koja sadrži naslov dokumenta i ponekad dijelovi teksta. Indeks pretraživanja izrađen je posebnom tehnikom na temelju informacija izvađenih s web stranica. Od 2007. Google tražilica omogućuje pretraživanje prema vremenu, kreiranje željenih dokumenata (pozovite izbornik "Alati za pretraživanje" i odredite vremenski raspon). Većina tražilica podržava upotrebu logičkih operatora AND, OR, NOT u upitima, što vam omogućuje da precizirate ili proširite popis ključnih riječi koje tražite. U tom slučaju, sustav će tražiti riječi ili izraze točno onako kako su uneseni. Neke tražilice imaju tu opciju približna pretraga, u ovom slučaju korisnici proširuju svoje pretraživanje navođenjem udaljenosti do ključnih riječi. Također postoje konceptualno traženje, koji koristi statističku analizu korištenja riječi i izraza za pretraživanje u tekstovima web stranica. Ovi sustavi omogućuju sastavljanje upita na prirodnom jeziku. Primjer takve tražilice je ask com.

Korisnost tražilice ovisi o relevantnosti stranica koje pronađe. Iako milijuni web-stranica mogu sadržavati riječ ili izraz, neke mogu biti relevantnije, popularnije ili autoritativnije od drugih. Većina tražilica koristi tehnike rangiranja kako bi "najbolje" rezultate doveli na vrh popisa. Tražilice odlučuju koje su stranice relevantnije i kojim redoslijedom bi se rezultati trebali prikazati na različite načine. Metode pretraživanja, poput samog interneta, s vremenom se mijenjaju. Tako su se pojavile dvije glavne vrste tražilica: sustavi unaprijed definiranih i hijerarhijski uređenih ključnih riječi i sustavi u kojima se na temelju analize teksta generira obrnuti indeks.

Većina tražilica su komercijalna poduzeća koja profitiraju od oglašavanja, u nekim tražilicama možete kupiti prva mjesta u SERP-u za zadane ključne riječi uz naknadu. Od kontekstualnog oglašavanja zarađuju tražilice koje ne naplaćuju redoslijed prikazivanja rezultata, dok oglasne poruke odgovaraju zahtjevu korisnika. Takve reklame se prikazuju na stranici s popisom rezultata pretraživanja, a tražilice zarađuju svaki put kada korisnik klikne na reklame.

Vrste tražilica

Postoje četiri vrste tražilica: robotske, vođene ljudima, hibridne i metasustavi.

  • sustavi tražilica
Sastoje se od tri dijela: indeksa ("bot", "robot" ili "spider"), indeksa i softvera tražilice. Za indeksiranje mreže i izradu popisa web stranica potreban je alat za indeksiranje. Indeks je velika arhiva kopija web stranica. Svrha softvera je evaluacija rezultata pretraživanja. Zbog činjenice da robot za pretraživanje u ovom mehanizmu neprestano istražuje mrežu, informacije su relevantnije. Većina modernih tražilica je ovog tipa.
  • sustavi kojima upravlja čovjek (direktoriji resursa)
Ove tražilice primaju popise web stranica. Imenik sadrži adresu, naslov i kratki opis stranice. Imenik resursa traži samo rezultate iz opisa stranica koje su mu poslali webmasteri. Prednost kataloga je u tome što se svi resursi provjeravaju ručno, stoga će kvaliteta sadržaja biti bolja u odnosu na rezultate dobivene automatski sustavom prve vrste. Ali postoji i nedostatak - ažuriranje ovih kataloga vrši se ručno i može značajno zaostajati za stvarnim stanjem stvari. Rangiranje stranica ne može se promijeniti odmah. Primjeri takvih sustava su Yahoo imenik, dmoz i Galaxy.
  • hibridni sustavi
Tražilice kao što su Yahoo, Google, MSN kombiniraju funkcije sustava tražilica i sustava kojima upravljaju ljudi.
  • meta-sustavi
Metatražilice kombiniraju i rangiraju rezultate nekoliko tražilica odjednom. Te su tražilice bile korisne kada je svaka tražilica imala jedinstveni indeks i tražilice su bile manje inteligentne. Kako se potraga sada dosta poboljšala, potreba za njima se smanjila. primjeri: MetaCrawler i MSN Search.

Tržište tražilica

Google je najpopularnija tražilica na svijetu s tržišnim udjelom od 68,69%. Bing je na drugom mjestu s udjelom od 12,26%.

Najpopularnije tražilice na svijetu:

Sustav pretraživanja Tržišni udio u srpnju 2014 Tržišni udio u listopadu 2014 Tržišni udio u rujnu 2015
Google 68,69 % 58.01 % 69.24%
Baidu 17,17 % 29.06 % 6,48%
Bing 6.22 % 8.01 % 12,26%
Yahoo! 6.74 % 4.01 % 9,19%
Aol 0,13 % 0.21 % 1,11%
Oduševiti 0.22 % 0,00 % 0.00%
Pitaj 0,13 % 0,10 % 0,24%

Azija

U istočnoazijskim zemljama i Rusiji Google nije najpopularnija tražilica. U Kini je, na primjer, popularniji Soso tražilica.

U Južnoj Koreji, Naverov vlasnički portal za pretraživanje koristi oko 70% Yahoo! Japan i Yahoo! Tajvan su najpopularnije tražilice u Japanu i Tajvanu.

Rusija i tražilice na ruskom jeziku

Prema podacima LiveInterneta iz lipnja 2015. o dosegu upita za pretraživanje na ruskom jeziku:

  • svejezično:
    • Yahoo! (0,1%) i tražilice u vlasništvu ove tvrtke: Inktomi, AltaVista, Alltheweb
  • Govorni engleski i međunarodni:
    • Pitaj Jeevesa(Teoma mehanizam)
  • Ruski govorni - većina "rusko govorećih" tražilica indeksira i traži tekstove na mnogim jezicima - ukrajinskom, bjeloruskom, engleskom, tatarskom i drugima. Oni se razlikuju od “svejezičnih” sustava koji indeksiraju sve dokumente zaredom, po tome što uglavnom indeksiraju resurse koji se nalaze u domenskim zonama u kojima dominira ruski jezik ili na druge načine ograničavaju svoje robote na web-mjesta na ruskom jeziku.

Neke od tražilica koriste vanjske algoritme pretraživanja.

Kvantitativni podaci Google tražilice

Broj korisnika interneta i tražilica te zahtjevi korisnika za ove sustave stalno raste. Kako bi se povećala brzina traženja informacija koje su vam potrebne, velike tražilice sadrže velik broj poslužitelja. Poslužitelji se obično grupiraju u poslužiteljske centre (podatkovne centre). Popularne tražilice imaju poslužiteljske centre raštrkane po cijelom svijetu.

U listopadu 2012. Google je pokrenuo projekt Gdje internet živi, ​​koji korisnicima pruža priliku da istraže podatkovne centre tvrtke.

Google tražilica o radu podatkovnih centara zna sljedeće:

  • Ukupni kapacitet svih Googleovih podatkovnih centara od 2011. procijenjen je na 220 MW.
  • Kada je Google 2008. planirao otvoriti novi kompleks od 6,5 milijuna m² od tri zgrade u Oregonu, Harper's Magazine je izračunao da tako veliki kompleks troši preko 100 megavata električne energije, što je usporedivo s potrošnjom energije grada od 300 000 ljudi.
  • Procijenjeni broj Google poslužitelja u 2012. je 1.000.000.
  • Googleova potrošnja na podatkovne centre iznosila je 1,9 milijardi dolara 2006. godine i 2,4 milijarde dolara 2007. godine.

Veličina World Wide Weba, koju je Google indeksirao u prosincu 2014., iznosi otprilike 4,36 milijardi stranica.

Tražilice koje poštuju vjerske zabrane

Globalno širenje interneta i sve veća popularnost elektroničkih uređaja u arapskom i muslimanskom svijetu, posebice u zemljama Bliskog istoka i indijskog potkontinenta, pridonijeli su razvoju lokalnih tražilica koje uzimaju u obzir islamske tradicije. Takve tražilice sadrže posebne filtere koji korisnicima pomažu da ne idu na zabranjene stranice, na primjer, stranice s pornografijom, i dopuštaju im korištenje samo onih stranica čiji sadržaj nije u suprotnosti s islamskom vjerom. Nešto prije muslimanskog mjeseca ramazana, u julu 2013. godine, predstavljen je svijet Halalgoogling- sustav koji korisnicima daje samo halal "ispravne" linkove, filtrirajući rezultate pretraživanja primljene od drugih tražilica kao što su Google i Bing. Dvije godine ranije, u rujnu 2011., pokrenuta je tražilica I'mHalal koja služi korisnicima na Bliskom istoku. Međutim, ova se usluga traženja morala uskoro zatvoriti, kaže vlasnik, zbog nedostatka sredstava.

Nedostatak ulaganja i spor tempo širenja tehnologije u muslimanskom svijetu ometali su napredak i omeli uspjeh ozbiljne islamske tražilice. Očigledni neuspjeh ogromnih ulaganja u muslimanske web-projekte lifestyle, od kojih je jedan bio Muxlim... Dobio je milijune dolara od investitora kao što je Rite Internet Ventures i sada - prema posljednjoj poruci I'mHalala prije zatvaranja - dolazi na sumnjivu ideju da bi "sljedeći Facebook ili Google mogao biti samo na Bliskom istoku . ako podupireš našu briljantnu mladost." Bez obzira na to, stručnjaci za islamski internet proveli su mnogo godina definirajući što je ili nije u skladu sa šerijatom i klasificirajući web stranice kao "halal" ili "haram". Sve bivše i sadašnje islamske tražilice jednostavno su posebno indeksirani skup podataka, ili su to glavne tražilice kao što su Google, Yahoo i Bing, s nekim sustavom filtriranja koji se koristi da spriječi korisnike da pristupe haram stranicama kao što su stranice o golotinji, LGBT, kockanje i bilo koje drugo, čija se tema smatra antiislamskom.

Druge religiozno orijentirane tražilice uključuju Jewogle, židovsku verziju Googlea, i SeekFind.org, kršćansku stranicu koja uključuje filtre kako bi korisnike zaštitila od sadržaja koji bi mogao potkopati ili oslabiti njihovu vjeru.

Personalizirani rezultati i mjehurići filtera

Mnoge tražilice, kao što su Google i Bing, koriste algoritme kako bi selektivno pogodili koje bi informacije korisnik želio vidjeti na temelju svojih prošlih aktivnosti na sustavu. Kao rezultat toga, web stranice prikazuju samo informacije koje su u skladu s prethodnim interesima korisnika. Taj se efekt naziva filter mjehurić.

Sve to dovodi do toga da korisnici dobivaju puno manje proturječnih informacija i intelektualno se izoliraju u vlastitom „informacijskom balonu“. Dakle, “efekt mjehurića” može imati negativne posljedice na formiranje građanskog mišljenja.

Pristranost tražilice

Dok su tražilice programirane da rangiraju web stranice na temelju neke kombinacije popularnosti i relevantnosti, u stvarnosti, eksperimentalna istraživanja pokazuju da različiti politički, ekonomski i društveni čimbenici utječu na rezultate pretraživanja.

Ova pristranost može biti izravna posljedica ekonomskih i komercijalnih procesa: tvrtke koje se oglašavaju na tražilici mogu postati popularnije u organskim rezultatima pretraživanja unutar te tražilice. Uklanjanje rezultata pretraživanja koji nisu u skladu s lokalnim zakonima primjer je utjecaja političkih procesa. Na primjer, Google neće prikazivati ​​neke neonacističke web stranice u Francuskoj i Njemačkoj, gdje je poricanje holokausta protuzakonito.

Pristranost također može biti posljedica društvenih procesa, budući da su algoritmi tražilice često dizajnirani da isključe neformalna gledišta u korist "popularnijih" rezultata. Algoritmi indeksiranja za glavne tražilice daju prioritet američkim stranicama.

Bomba za pretraživanje jedan je primjer pokušaja upravljanja rezultatima pretraživanja iz političkih, društvenih ili komercijalnih razloga.

vidi također

  • Qwika
  • Elektronička knjižnica # Popisi knjižnica i tražilice
  • Nadzorna ploča za web programere

Bilješke (uredi)

Književnost

  • Ashmanov I.S., Ivanov A.A. Promocija web stranica u tražilicama. - M.: Williams, 2007. - 304 str. - ISBN 978-5-8459-1155-1.
  • Baikov V.D. Internet. Potražite informacije. Promocija web stranice. - SPb. : BHV-Peterburg, 2000 .-- 288 str. - ISBN 5-8206-0095-9.
  • Kolisničenko D.N. Tražilice i promocija web stranica na Internetu. - M.: Dijalektika, 2007.-- 272 str. - ISBN 978-5-8459-1269-5.
  • Lande D.V. Potražite znanje na internetu. - M.: Dijalektika, 2005.-- 272 str. - ISBN 5-8459-0764-0.
  • Lande D.V., Snarskiy A.A., Bezsudnov I.V. Internetika: Navigacija u složenim mrežama: modeli i algoritmi. - M .: Librokom (Uvodnik URSS), 2009 .-- 264 str. - ISBN 978-5-397-00497-8.
  • Chu H., Rosenthal M. Tražilice za World Wide Web: komparativna studija i metodologija evaluacije // PROCEEDINGS OF THE ANNUAL MEETING-AMERICAN SOCIETY FOR INFORMATION SCIENCE: časopis. - 1996. - Vol. 33. - Str. 127-135.
  • Gandal, Neil. Dinamika konkurencije na tržištu internetskih tražilica. - 2001. - Vol. 19. - Str. 1103-1117. -

Profesionalno pretraživanje na Internetu zahtijeva specijalizirani softver, kao i specijalizirane tražilice i usluge pretraživanja.

PROGRAMI

http://dr-watson.wix.com/home - program je dizajniran za proučavanje nizova tekstualnih informacija kako bi se identificirali entiteti i odnosi između njih. Rezultat rada je izvješće o objektu koji se proučava.

http://www.fmsasg.com/ - jedan od najboljih svjetskih programa za vizualizaciju komunikacije i odnosa Sentinel Vizualizer. Tvrtka je potpuno rusificirala svoje proizvode i spojila telefonsku liniju na ruskom jeziku.

http://www.newprosoft.com/ - “Web Content Extractor” je najmoćniji softver za ekstrakciju podataka web-mjesta koji je jednostavan za korištenje. Također ima učinkovit vizualni web pauk.

SiteSputnik jedinstveni softverski paket u svijetu koji omogućuje pretraživanje i obradu njegovih rezultata na vidljivom i nevidljivom internetu, koristeći sve tražilice potrebne korisniku.

WebSite-Watcher - omogućuje praćenje web stranica, uključujući one zaštićene lozinkom, nadzor foruma, RSS feedova, novinskih grupa, lokalnih datoteka. Ima moćan sustav filtera. Nadgledanje se provodi automatski i isporučuje se u obliku prilagođenom korisniku. Napredni program košta 50 eura. Stalno ažurirano.

http://www.scribd.com/ je najpopularnija platforma na svijetu i sve se više koristi u Rusiji za smještaj raznih vrsta dokumenata, knjiga itd. za besplatan pristup uz vrlo zgodnu tražilicu za imena, teme itd.

http://www.atlasti.com/ - najmoćniji je i najučinkovitiji alat za kvalitetnu analizu informacija dostupan pojedinačnim korisnicima, malim pa čak i srednjim poduzećima. Program je višenamjenski i stoga koristan. Kombinira mogućnosti stvaranja jedinstvenog informacijskog okruženja za rad s raznim tekstualnim, tabelarnim, audio i video datotekama u cjelini, kao i alate za kvalitativnu analizu i vizualizaciju.

Ashampoo ClipFinder HD - video je sve veći udio u protoku informacija. Sukladno tome, agenti konkurentske obavještajne službe trebaju alate za rad s ovim formatom. Jedan od takvih proizvoda je osigurani besplatni uslužni program. Omogućuje vam pretraživanje videozapisa prema određenim kriterijima na pohranama video datoteka kao što je YouTube. Program je jednostavan za korištenje, prikazuje sve rezultate pretraživanja na jednoj stranici s detaljnim informacijama, naslovima, trajanjem, vremenom kada je video učitan u pohranu itd. Postoji rusko sučelje.

http://www.advego.ru/plagiatus/ - program su napravili SEO optimizatori, ali je sasvim prikladan kao alat za internetsku inteligenciju. Plagijat pokazuje stupanj jedinstvenosti teksta, izvore teksta, postotak podudarnosti teksta. Program također provjerava jedinstvenost navedenog URL-a. Program je besplatan.

http://neiron.ru/toolbar/ - uključuje dodatak za kombiniranje Google i Yandex pretraživanja, a također omogućuje analizu konkurentnosti na temelju procjene učinkovitosti web-mjesta i kontekstualnog oglašavanja. Implementirano kao dodatak za FF i GC.

http://web-data-extractor.net/ je rješenje na jednom mjestu za dobivanje svih podataka dostupnih na Internetu. Postavljanje rezanja podataka s bilo koje stranice vrši se u nekoliko klikova mišem. Vi samo trebate odabrati područje podataka koje želite spremiti i Datacol će odabrati formulu za rezanje ovog bloka.

CaptureSaver je profesionalni alat za istraživanje interneta. Jednostavno nezamjenjiv radni program koji vam omogućuje snimanje, pohranjivanje i izvoz bilo kakvih internetskih informacija, uključujući ne samo web stranice, blogove, već i RSS vijesti, e-poštu, slike i još mnogo toga. Ima najširu funkcionalnost, intuitivno sučelje i smiješnu cijenu.

http://www.orbiscope.net/en/software.html - sustav za praćenje weba po više nego pristupačnim cijenama.

http://www.kbcrawl.co.uk/ - softver za rad, uključujući "Nevidljivi internet".

http://www.copernic.com/en/products/agent/index.html - program vam omogućuje pretraživanje pomoću više od 90 tražilica, više od 10 parametara. Omogućuje vam kombiniranje rezultata, uklanjanje duplikata, blokiranje neispravnih veza, prikazivanje najrelevantnijih rezultata. Dolazi u besplatnoj, osobnoj i profesionalnoj verziji. Koristi ga više od 20 milijuna korisnika.

Maltego je temeljno novi softver koji vam omogućuje uspostavljanje odnosa subjekata, događaja i objekata u stvarnom životu i na internetu.

USLUGE

novi https://hunter.io/ učinkovita je usluga za otkrivanje i provjeru e-pošte.

https://www.whatruns.com/ je jednostavan za korištenje, ali učinkovit skener za otkrivanje što radi, a što ne radi na web stranici i koje su sigurnosne rupe. Također implementiran kao dodatak za Chrom.

https://www.crayon.co/ je američka platforma za tržište i konkurentsku obavještajnu informaciju na internetu koja se financira iz proračuna.

http://www.cs.cornell.edu/~bwong/octant/ - identifikator hosta.

https://iplogger.ru/ jednostavan je i prikladan servis za određivanje tuđeg IP-a.

http://linkurio.us/ moćan je novi proizvod za radnike u ekonomskoj sigurnosti i istražitelje korupcije. Obrađuje i vizualizira ogromne količine nestrukturiranih informacija iz financijskih izvora.

http://www.intelsuite.com/en - internetska platforma na engleskom jeziku za obavještavanje i praćenje konkurencije.

http://yewno.com/about/ - prvi operativni sustav za prevođenje informacija u znanje i vizualizaciju nestrukturiranih informacija. Trenutno podržava engleski, francuski, njemački, španjolski i portugalski.

https://start.avalancheonline.ru/landing/?next=%2F - prognoze i analitičke usluge Andreja Masaloviča.

https://www.outwit.com/products/hub/ - kompletan set samostalnih programa za profesionalni rad na webu 1.

https://github.com/search?q=user%3Acmlh+maltego - proširenja za Maltego.

http://www.whoishostingthis.com/ - tražilica za hosting, IP adrese itd.

http: // appfollow .ru / - analiza aplikacija na temelju recenzija, ASO optimizacije, pozicija u vrhovima i rezultata pretraživanja za App Store, Google Play i Windows Phone Store.

http://spiraldb.com/ je usluga implementirana kao dodatak za Chrom, koji vam omogućuje da dobijete puno vrijednih informacija o bilo kojem elektroničkom resursu.

https://millie.northernlight.com/dashboard.php?id=93 - besplatna usluga koja prikuplja i strukturira ključne informacije po djelatnostima i tvrtkama. Moguće je koristiti informacijske ploče na temelju analize teksta.

http://byratino.info/ - prikupljanje činjeničnih podataka iz javno dostupnih izvora na internetu.

http://www.datafox.co/ - CI platforma koja prikuplja i analizira informacije o tvrtkama od interesa za klijente. Postoji demo.

https://unwiredlabs.com/home je specijalizirana aplikacija s API-jem za pretraživanje geolokacijom bilo kojeg uređaja spojenog na internet.

http://visualping.io/ - servis za praćenje stranica i, prije svega, fotografija i slika dostupnih na njima. Čak i ako se fotografija pojavi na sekundu, bit će u e-pošti pretplatnika. Ima dodatak za GoogleC hrom.

http://spyonweb.com/ je istraživački alat koji omogućuje dubinsku analizu bilo kojeg internetskog izvora.

http://bigvisor.ru/ - usluga vam omogućuje praćenje reklamnih kampanja za određene segmente robe i usluga ili određene organizacije.

http://www.itsec.pro/2013/09/microsoft-word.html - Upute Artema Ageeva o korištenju Windows programa za potrebe konkurentske inteligencije.

http://granoproject.org/ je alat otvorenog koda za istraživače koji prate mreže veza između pojedinaca i organizacija u politici, ekonomiji, kriminalu i još mnogo toga. Omogućuje povezivanje, analizu i vizualizaciju informacija dobivenih iz različitih izvora, kao i pokazivanje značajnih veza.

http://imgops.com/ je servis za vađenje metapodataka iz grafičkih datoteka i rad s njima.

http://sergeybelove.ru/tools/one-button-scan/ - mali on-line skener za provjeru sigurnosnih rupa na stranicama i drugim resursima.

http://isce-library.net/epi.aspx - servis za pretraživanje primarnih izvora po tekstu na engleskom

https://www.rivaliq.com/ učinkovit je alat za provođenje obavještajnih podataka o konkurenciji na zapadnom, prvenstveno europskom i američkom tržištu roba i usluga.

http://watchthatpage.com/ je usluga koja vam omogućuje automatsko prikupljanje novih informacija iz nadziranih izvora na Internetu. Usluga je besplatna.

http://falcon.io/ je vrsta izvješća za web. Nije zamjena za Rapportive, ali pruža dodatne alate. Za razliku od Rapportivea, daje opći profil osobe, kao da je zalijepljen iz podataka s društvenih mreža i spominjanja na webu.http: //watchthatpage.com/ - usluga koja vam omogućuje automatsko prikupljanje novih informacija iz praćenih resursa na internet. Usluga je besplatna.

https://addons.mozilla.org/ru/firefox/addon/update-scanner/ - dodatak za Firefox. Prati ažuriranja web stranica. Korisno za web stranice koje nemaju feedove vijesti (Atom ili RSS).

http://agregator.pro/ - agregator vijesti i medijskih portala. Koriste ga trgovci, analitičari itd. analizirati tokove vijesti o određenim temama.

http://price.apishops.com/ - automatizirani web servis za praćenje cijena za odabrane grupe proizvoda, određene online trgovine i druge parametre.

http://www.la0.ru/ je prikladna i relevantna usluga za analizu veza i povratnih veza na internetski izvor.

www.recordedfuture.com je moćan alat za analizu i vizualizaciju podataka implementiran kao online usluga računalstva u oblaku.

http://advse.ru/ - usluga pod sloganom "Naučite sve o svojim konkurentima". Omogućuje, u skladu s upitima za pretraživanje, dobivanje web stranica konkurenata, analizu reklamnih tvrtki konkurenata u Googleu i Yandexu.

http://spyonweb.com/ - usluga vam omogućuje da identificirate stranice s istim karakteristikama, uključujući one koje koriste iste identifikatore statističke usluge Google Analytics, IP adrese itd.

http://www.connotate.com/solutions - linija proizvoda za konkurentnu inteligenciju, upravljanje protokom informacija i transformaciju informacija u informacijsku imovinu. Uključuje složene platforme i jednostavne jeftine usluge koje omogućuju učinkovito praćenje uz kompresiju informacija i dobivanje samo potrebnih rezultata.

http://www.clearci.com/ - Konkurentna obavještajna platforma za tvrtke različitih veličina od novoosnovanih i malih tvrtki do tvrtki s liste Fortune 500. Riješeno kao saas.

http://startingpage.com/ je Googleov dodatak koji vam omogućuje pretraživanje na Googleu bez popravljanja vaše IP adrese. Potpuno podržava sve Googleove mogućnosti pretraživanja, uključujući i ruski.

http://newspapermap.com/ je jedinstvena usluga vrlo korisna za natjecateljske izviđače. Povezuje geolokaciju s internetskom tražilicom za medije. Oni. birate regiju koja vas zanima, ili čak grad, ili jezik, na karti vidite mjesto i popis online verzija novina i časopisa, kliknite na odgovarajući gumb i čitajte. Podržava ruski, vrlo user-friendly sučelje.

http://infostream.com.ua/ vrlo je zgodan, prvoklasan izbor, sasvim dostupan svakom novčaniku, Infostream sustav za praćenje vijesti iz jednog od klasika internetske pretrage, D.V. Landea.

http://www.instapaper.com/ je vrlo jednostavan i učinkovit alat za spremanje bitnih web stranica. Može se koristiti na računalima, iPhoneu, iPadu itd.

http://screen-scraper.com/ - omogućuje vam automatsko izdvajanje svih informacija s web stranica, preuzimanje velike većine formata datoteka, automatski unos podataka u različite oblike. Pohranjuje preuzete datoteke i stranice u baze podataka i obavlja mnoge druge iznimno korisne funkcije. Radi na svim glavnim platformama, ima potpuno funkcionalnu besplatnu i vrlo moćnu profesionalnu verziju.

http://www.mozenda.com/ - web usluga višenamjenskog web praćenja i dostave informacija potrebnih korisniku s odabranih stranica, koja ima nekoliko tarifnih planova i dostupna je čak i malim poduzećima.

http://www.recipdonor.com/ - servis omogućuje automatsko praćenje svega što se događa na web stranicama konkurenata.

http://www.spyfu.com/ - a ovo je ako imate strane konkurente.

www.webground.su je servis za praćenje Runeta kreiran od strane profesionalaca internet pretraživanja, koji uključuje sve glavne pružatelje informacija, vijesti i sl., sposoban za individualne postavke praćenja za potrebe korisnika.

TRAŽI

https: // www .idmarch .org / - najbolja tražilica za svjetsku arhivu pdf dokumenata u smislu kvalitete izlaza. Trenutno je indeksirano više od 18 milijuna pdf dokumenata, od knjiga do povjerljivih izvješća.

http://www.marketvisual.com/ je jedinstvena tražilica koja vam omogućuje traženje vlasnika i top menadžmenta po punom imenu, nazivu tvrtke, poziciji ili njihovoj kombinaciji. Rezultati pretraživanja ne sadrže samo objekte koje tražite, već i njihove poveznice. Dizajniran prvenstveno za zemlje engleskog govornog područja.

http://worldc.am/ je javno dostupna tražilica fotografija povezana s geolokacijom.

https://app.echosec.net/ je tražilica otvorenog koda koja sebe opisuje kao najnapredniji analitički alat za profesionalce za provođenje zakona i sigurnosne i obavještajne službe. Omogućuje vam pretraživanje fotografija objavljenih na raznim stranicama, društvenim platformama i društvenim mrežama u odnosu na određene geolokacijske koordinate. Trenutno je povezano sedam izvora podataka. Do kraja godine njihov će broj biti veći od 450. Hvala Dementiju na napojnici.

http://www.quandl.com/ - Tražilica za sedam milijuna financijskih, ekonomskih i društvenih baza podataka.

http://bitzakaz.ru/ - tražilica za natječaje i vladine narudžbe s dodatnim plaćenim funkcijama

Website-Finder - omogućuje pronalaženje web-lokacija koje Google loše indeksira. Jedino ograničenje je da pretražuje samo 30 web stranica za svaku ključnu riječ. Program je jednostavan za korištenje.

http://www.dtsearch.com/ - najmoćnija tražilica koja vam omogućuje obradu terabajta teksta. Radi na desktopu, internetu i intranetu. Podržava i statičke i dinamičke podatke. Omogućuje pretraživanje u svim MS Office programima. Pretraživanje se temelji na frazama, riječima, oznakama, indeksima i još mnogo toga. Jedina dostupna federalna tražilica. Ima i plaćenu i besplatnu verziju.

http://www.strategator.com/ - Pretražuje, filtrira i agregira informacije o tvrtki iz desetaka tisuća web izvora. Traži SAD, UK, glavne zemlje EEZ. Odlikuje se visokom relevantnošću, jednostavnošću za korištenje, ima besplatnu i plaćenu opciju (14 USD mjesečno).

http://www.shodanhq.com/ je neobična tražilica. Odmah nakon pojavljivanja dobio je nadimak “Google za hakere”. Ne traži stranice, već određuje IP adrese, vrste usmjerivača, računala, poslužitelja i radnih stanica koje se nalaze na jednoj ili drugoj adresi, prati lance DNS poslužitelja i omogućuje implementaciju mnogih drugih zanimljivih funkcija za konkurentsku inteligenciju.

http://search.usa.gov/ - tražilica za web stranice i otvorene baze podataka svih američkih vladinih agencija. Baze podataka sadrže mnogo praktičnih korisnih informacija, uključujući i za korištenje u našoj zemlji.

http://visual.ly/ - Danas se vizualizacija sve više koristi za predstavljanje podataka. To je prva tražilica za infografiku na webu. Uz tražilicu, portal ima moćne alate za vizualizaciju podataka koji ne zahtijevaju vještine programiranja.

http://go.mail.ru/realtime - traženje rasprava o temama, događajima, objektima, temama u stvarnom ili prilagođenom vremenu. Prethodno jako kritizirano pretraživanje Mail.ru radi vrlo učinkovito i daje zanimljive, relevantne rezultate.

Zanran je novi početak, ali već izvrsno radi kao prvi i jedini pronalazač podataka, izdvajanje podataka iz PDF datoteka, EXCEL tablica, podataka u HTML stranicama.

http://www.ciradar.com/Competitive-Analysis.aspx jedna je od najboljih svjetskih tražilica za konkurentnu inteligenciju na dubokom webu. Ekstrahira gotovo sve vrste datoteka u svim formatima na temu od interesa. Implementirano kao web servis. Cijene su više nego razumne.

http://public.ru/ - Učinkovito pretraživanje i stručna analiza informacija, medijska arhiva od 1990. godine. Internetska medijska knjižnica nudi širok raspon informacijskih usluga: od pristupa elektroničkim arhivima medijskih publikacija na ruskom jeziku i gotovih tematskih pregleda tiska do individualnog praćenja i ekskluzivnih analitičkih studija temeljenih na materijalima za medije.

Cluuz je mlada tražilica s velikim mogućnostima za konkurentnu inteligenciju, posebno na engleskom govornom području. Omogućuje ne samo pronalaženje, već i vizualizaciju, uspostavljanje veza između ljudi, tvrtki, domena, e-mailova, adresa itd.

www.wolframalpha.com je tražilica sutrašnjice. Kao odgovor na upit za pretraživanje, izdaje statističke i činjenične informacije dostupne na objektu upita, uključujući vizualizirane informacije.

www.ist-budget.ru - univerzalno pretraživanje u bazama podataka o državnim kupnjama, trgovinama, aukcijama itd.

Tražilica je baza podataka specifičnih informacija na Internetu. Mnogi korisnici vjeruju da čim upišu upit u tražilicu, odmah počnu skenirati cijeli internet, no to uopće nije tako. Internet se stalno skenira, brojnim programima, podaci o stranicama unose se u bazu podataka, gdje se, prema određenim kriterijima, sve stranice i sve njihove stranice raspoređuju u razne vrste lista i baza podataka. Odnosno, radi se o svojevrsnom ormaru za arhiviranje podataka, a pretraga se ne odvija na internetu, već prema ovoj kartoteci.

Popularne tražilice

Yandex je najveća tražilica na ruskom internetu.

Osim tražilice, Yandex nudi 77 dodatnih usluga, od kojih su najpopularnije usluge pošte Yandex, preglednik Yandex, Yandex disk, informacije o prometu i vremenu, Yandex novac i još mnogo toga. Tražilica uzima u obzir vašu lokaciju kada prikazuje rezultate pretraživanja. Također, program pretraživanja se stalno modernizira kako bi pružio točnije rezultate, dizajniran za što veći informativni sadržaj za korisnika.

Google je najpopularnija tražilica na svijetu.

Osim tražilice, Google nudi mnoge dodatne usluge, softver i hardver, uključujući uslugu pošte, preglednik Google Chrome, najveću youtube videoteku i mnoge druge projekte. Google samouvjereno kupuje mnoge projekte koji generiraju veliku zaradu. Većina usluga nije usmjerena na izravne korisnike, već na zaradu na internetu i integrirana je s fokusom na interese europskih i američkih korisnika.

Mail je tražilica popularna uglavnom zbog svoje usluge e-pošte.

Postoji mnogo dodatnih usluga, od kojih je ključ Mail, u ovom trenutku tvrtka Mail posjeduje društvenu mrežu Odnoklassniki, vlastitu mrežu "My World", uslugu Money-mail, mnoge online igre, tri gotovo identična preglednika s različitim nazivima . Sve aplikacije i usluge imaju puno reklamnog sadržaja. Društvena mreža VKonatkte blokira izravne veze s Mail uslugama, agregirajući veliki broj virusa.

Wikipedia.

Wikipedia je sustav pomoći za pretraživanje.

Neprofitna tražilica koju pokreće privatne donacije, tako da ne popunjava stranice oglasima. Višejezični projekt čiji je cilj stvoriti cjelovitu referentnu enciklopediju na svim jezicima svijeta. Nema posebnih suradnika, dovršavaju i vode volonteri iz cijelog svijeta. Svaki korisnik može pisati i uređivati ​​članak.

Službena stranica je www.wikipedia.org.

Youtube je najveća biblioteka video datoteka.

Video hosting s elementima društvene mreže, gdje svaki korisnik može dodati video. Od trenutka kada ih je nabavio Google Ink, posebna registracija za YouTube nije potrebna, dovoljno je registrirati se na Google mail servisu.

Službena stranica je youtube.com.

Yahoo! - druga najvažnija tražilica na svijetu.

Postoje i dodatne usluge, od kojih je najpoznatija Yahoo mail. Kao dio poboljšanja kvalitete tražilice, Yahoo šalje podatke o korisnicima i njihovim upitima Microsoftu. Iz ovih podataka formira se predodžba o interesima korisnika, kao i tržište reklamnih sadržaja. Tražilica Yahoo, kao i, bavi se preuzimanjem drugih tvrtki, na primjer, Yahoo posjeduje uslugu pretraživanja Altavista i stranicu za e-trgovinu Alibaba.

Službena stranica je www.yahoo.com.

WDL je digitalna knjižnica.

Knjižnica prikuplja knjige koje pružaju kulturnu vrijednost u digitalnom obliku. Glavni cilj je povećati razinu kulturnih sadržaja na internetu. Pristup knjižnici je besplatan.

Službena stranica je www.wdl.org/ru/.

Bing je tražilica iz Microsofta.

Službena stranica je www.baidu.com.

Tražilice u Rusiji

Rambler je "proamerička" tražilica.

Izvorno je nastao kao internetski medijski portal. Kao i mnoge druge tražilice, ima usluge pretraživanja slika, video datoteke, karte, vremensku prognozu, odjeljak s vijestima i još mnogo toga. Izdavači također nude besplatni preglednik Rambler-Nichrome.

Službena stranica je www.rambler.ru.

Nigma je inteligentna tražilica.

Prikladnija tražilica zbog prisutnosti mnogih filtara i postavki. Sučelje vam omogućuje da u potrazi za boljim rezultatima uključite ili isključite predložene slične vrijednosti. Također, prilikom primanja rezultata pretraživanja, omogućuje vam korištenje informacija drugih glavnih tražilica.

Službena stranica je www.nigma.ru.

Aport - online katalog robe.

U prošlosti je tražilica, ali nakon prekida razvoja i inovacija, brzo izgubila tlo pod nogama i. Aport je trenutno trgovačka platforma na kojoj se prezentira roba iz više od 1500 tvrtki.

Službena stranica je www.aport.ru.

Sputnik je nacionalna tražilica i internetski portal.

Kreirao Rostelecom. Trenutno je u fazi testiranja.

Službena stranica je www.sputnik.ru.

Metabot je tražilica koja se razvija.

Zadaci Metabota su kreiranje tražilice za sve ostale tražilice, kreiranje pozicija za izdavanje rezultata, uzimajući u obzir podatke cjelokupnog popisa tražilica. Odnosno, to je tražilica za tražilice.

Službena stranica je www.metabot.ru.

Tražilica je obustavljena.

Službena stranica je www.turtle.ru.

KM je multi-portal.

U početku je stranica bila multi-portal s naknadnim uvođenjem tražilice. Pretraživanje se može provesti i unutar stranice i na svim praćenim stranicama ruskog Interneta.

Službena stranica - www.km.ru.

Gogo - ne radi, preusmjerava na tražilicu.

Službena stranica - www.gogo.ru.

Ruskom multiportalu, koji nije baš popularan, treba malo poraditi. Tražilica uključuje vijesti, televiziju, igrice, kartu.

Službena stranica je www.zoneru.org.

Tražilica ne radi, programeri predlažu korištenje tražilice.

Službena stranica - www.au.ru.

Tražilice (SE) su već duže vrijeme neizostavan dio interneta. Danas su to ogromni i složeni mehanizmi, koji nisu samo alat za pronalaženje svih potrebnih informacija, već i prilično uzbudljiva područja za poslovanje.


Mnogi korisnici pretraživanja nikada nisu razmišljali o principima svog rada, o načinima obrade korisničkih zahtjeva, o tome kako su ti sustavi izgrađeni i funkcioniraju. Ovaj materijal pomoći će ljudima koji se bave optimizacijom i razumjeti strukturu i osnovne funkcije tražilica.

Funkcije i koncept PS-a

Sustav pretraživanja Je hardversko-softverski kompleks koji je dizajniran za obavljanje funkcije pretraživanja na Internetu, a na zahtjev korisnika, koji se obično postavlja u obliku tekstualne fraze (ili, točnije, upita za pretraživanje), odgovara izdavanjem popis poveznica na izvore informacija, proveden prema relevantnosti. Najčešće i najveće tražilice su Google, Bing, Yahoo, Baidu. U Runetu - Yandex, Mail.Ru, Rambler.

Pogledajmo pobliže samo značenje upita za pretraživanje, uzimajući za primjer sustav Yandex.

Zahtjev mora biti formuliran od strane korisnika u potpunosti u skladu s predmetom svoje pretrage, što jednostavnije i sažetije. Na primjer, želimo pronaći informacije u ovoj tražilici: "kako odabrati automobil za sebe." Da biste to učinili, otvorite glavnu stranicu i unesite upit za pretraživanje "kako odabrati automobil". Tada se naše funkcije svode na praćenje danih poveznica na izvore informacija na mreži.




Ali čak i postupajući na ovaj način, možda nećete dobiti informacije koje su nam potrebne. Ako smo dobili tako negativan rezultat, potrebno je samo ponovno formirati svoj zahtjev ili u bazi pretraživanja zaista nema korisnih informacija o ovoj vrsti zahtjeva (to je sasvim moguće uz zadane "uske" parametre upita, npr. na primjer, "kako odabrati automobil u Anadyru ").

Najosnovniji zadatak svake tražilice je dostaviti ljudima upravo onu vrstu informacija koja im je potrebna. I praktički je nemoguće osposobiti korisnike da kreiraju "ispravan" tip upita tražilicama, odnosno fraze koje će odgovarati njihovim principima rada.

Zato programeri tražilica prave takve principe i algoritme za svoj rad koji bi korisnicima omogućili da pronađu informacije koje ih zanimaju. To znači da sustav mora “razmišljati” na isti način kao što čovjek razmišlja kada traži potrebne informacije na internetu.

Kada unese svoj upit u tražilicu, želi što lakše i brže pronaći ono što mu treba. Nakon što je dobio rezultat, korisnik daje vlastitu procjenu rada sustava, vođen nekoliko kriterija. Je li uspio pronaći potrebne informacije? Ako nije, koliko je puta morao preoblikovati tekst upita da ga pronađe? Koliko su relevantne bile informacije koje je dobio? Koliko brzo je tražilica obradila njegov zahtjev? Koliko su prikladni bili rezultati pretraživanja? Je li željeni rezultat bio prvi ili je bio na 30. mjestu? Koliko je smeća (nepotrebnih informacija) pronađeno zajedno s korisnim informacijama? Hoće li biti relevantnih informacija za njega, prilikom korištenja PS-a, za tjedan dana ili za mjesec dana?




Kako bi dobili prave odgovore na takva pitanja, programeri pretraživanja neprestano poboljšavaju principe rangiranja i njegove algoritme, dodajući im nove značajke i funkcije te na svaki način pokušavaju ubrzati rad sustava.

Glavne karakteristike tražilica

Označimo glavne karakteristike pretraživanja:

Potpunost.

Potpunost je jedna od najvažnijih karakteristika pretraživanja, to je omjer broja informacijskih dokumenata pronađenih na zahtjev prema njihovom ukupnom broju na Internetu koji se odnosi na ovaj zahtjev. Na primjer, na Internetu postoji 100 stranica koje imaju izraz "kako odabrati automobil", a za isti upit odabrano je samo 60 od ukupnog broja, tada će u ovom slučaju kompletnost pretraživanja biti 0,6. Jasno je da što je sama pretraga potpunija, veća je vjerojatnost da će korisnik pronaći upravo onaj dokument koji mu je potreban, naravno ako uopće postoji.

Točnost.

Druga primarna funkcija tražilice je točnost. Određuje stupanj usklađenosti s korisničkim zahtjevom pronađenih stranica na webu. Na primjer, ako postoje stotine dokumenata za ključnu frazu "kako odabrati automobil", polovica njih sadrži ovu frazu, a ostali jednostavno sadrže takve riječi (kako pravilno odabrati auto radio i instalirati ga u automobil " ), tada je točnost pretraživanja jednaka 50/100 = 0,5.

Što je pretraga preciznija, prije će korisnik pronaći potrebne informacije, manje će se različitog "smeća" naći među rezultatima, što manje pronađenih dokumenata neće odgovarati značenju upita.

Relevantnost.

Ovo je značajna komponenta pretraživanja koju karakterizira vrijeme koje protekne od trenutka objave informacija na Internetu do upisa u indeksnu bazu tražilice.

Na primjer, dan nakon što su se pojavile informacije o izlasku novog iPada, mnogi su se korisnici okrenuli pretraživanju s odgovarajućim vrstama upita. U većini slučajeva informacije o ovoj vijesti već su dostupne u pretrazi, iako je od njezine pojave prošlo vrlo malo vremena. To je zbog činjenice da velike tražilice imaju "brzu bazu", koja se ažurira nekoliko puta dnevno.

Brzina pretraživanja.

Funkcija kao što je brzina pretraživanja usko je povezana s takozvanim "otporom opterećenja". Svake sekunde se ogroman broj ljudi okreće pretraživanju, takvo opterećenje zahtijeva značajno smanjenje vremena obrade jednog zahtjeva. Ovdje se interesi i tražilice i korisnika potpuno poklapaju: posjetitelj želi što brže dobiti rezultate, a tražilica mora što brže obraditi njegov zahtjev kako ne bi usporila obradu naknadnih zahtjeva.

Vidljivost.

Jasna prezentacija rezultata bitan je element pogodnosti pretraživanja. Za mnoge upite tražilica pronalazi tisuće, au nekim slučajevima i milijune različitih dokumenata. Zbog nejasnog sastava ključnih fraza za pretraživanje ili njegove netočnosti, čak ni prvi rezultati upita nemaju uvijek samo potrebne podatke.

To znači da osoba često mora sama tražiti među ponuđenim rezultatima. Različite komponente stranica s rezultatima tražilice pomažu u kretanju kroz rezultate pretraživanja.

Povijest razvoja tražilica

Kada se internet prvi put počeo razvijati, broj njegovih redovitih korisnika bio je mali, a količina informacija kojoj je trebalo pristupiti bila je relativno mala. U osnovi, samo stručnjaci u istraživačkim područjima imali su pristup ovoj mreži. U to vrijeme zadatak pronalaženja informacija nije bio tako hitan kao sada.

Jedna od najranijih metoda organiziranja širokog pristupa informacijskim resursima bila je izrada kataloga stranica, a poveznice na njih počele su se grupirati po predmetima. Ovaj prvi projekt bio je resurs Yahoo.com, koji je otvoren u proljeće 1994. godine. Nakon toga, kada se broj stranica u Yahoo imeniku značajno povećao, dodana je opcija za traženje potrebnih informacija u imeniku. To još nije bila u potpunosti tražilica, budući da je područje takve pretrage bilo ograničeno samo na stranice uključene u ovaj imenik, a ne na apsolutno sve resurse na Internetu. Imenici veza bili su naširoko korišteni ranije, ali sada su gotovo potpuno izgubili svoju popularnost.

Uostalom, i današnji ogromni katalozi sadrže podatke o neznatnom dijelu stranica na internetu. Najpoznatiji i najveći imenik na svijetu ima informacije na pet milijuna stranica, dok Google baza podataka sadrži informacije na više od 25 milijardi stranica.




Prva prava tražilica bila je WebCrawler, koja se pojavila davne 1994. godine.

Sljedeće godine pojavili su se AltaVista i Lycos. Štoviše, prvi je dugo bio lider u traženju informacija.




Godine 1997. Sergey Brin je zajedno s Larryjem Pageom stvorio tražilicu Google kao istraživački projekt na Sveučilištu Stanford. Danas je to Google, najtraženija i najpopularnija tražilica na svijetu.




U rujnu 1997. objavljen je (službeno) PS Yandex, koji je trenutno najpopularnija tražilica na Runetu.




Prema podacima o rujna 2015, udjeli tražilica u svijetu raspoređeni su na sljedeći način:
  • Google - 69,24%;
  • Bing - 12,26%;
  • Yahoo! - 9,19%;
  • Baidu - 6,48%;
  • AOL - 1,11%;
  • Pitati - 0,23%;
  • Uzbuditi - 0,00%


Prema podacima o prosinca 2016, udio tražilica u Runetu:

  • Yandex - 48,40%
  • Google - 45,10%
  • Search.Mail.ru - 5,70%
  • Rambler - 0,40%
  • Bing - 0,30%
  • Yahoo - 0,10%

Kako radi tražilica

U Rusiji je glavna tražilica Yandex, zatim Google, a zatim [email protected]. Sve velike tražilice imaju svoju strukturu, koja se jako razlikuje od ostalih. Ipak, možemo izdvojiti osnovne elemente zajedničke svim tražilicama.

Modul za indeksiranje.

Ova komponenta se sastoji od tri robotska programa:

Pauk(na engleskom spider) - program koji je dizajniran za preuzimanje web stranica. Pauk preuzima određenu stranicu, istovremeno izvlačeći sve veze s nje. HTML kod se preuzima sa gotovo svake stranice. Da bi to učinili, roboti koriste HTTP protokole.




"Pauk" funkcionira na sljedeći način. Robot šalje zahtjev poslužitelju "get / path / document" i druge naredbe HTTP zahtjeva. Kao odgovor, program robota prima tok teksta koji sadrži informacije o vrsti usluge i, naravno, sam dokument.
  • URL preuzete stranice;
  • datum kada je stranica preuzeta;
  • zaglavlje http odgovora poslužitelja;
  • html-kod, "tijelo" stranice.
Crawler("Putujući" pauk). Ovaj program automatski ide na sve poveznice koje se nalaze na stranici i također ih ističe. Njegov je zadatak odrediti kamo bi pauk trebao ići u budućnosti, na temelju ovih poveznica ili na temelju zadanog popisa adresa.

Indekser(robot indekser) je program koji analizira stranice koje su pauci preuzeli.



Indeksator u potpunosti analizira stranicu na njezine sastavne elemente i analizira ih koristeći svoje morfološke i leksičke vrste algoritama.

Analiza se provodi na različitim dijelovima stranice, kao što su naslovi, tekst, veze, stilske i strukturne značajke, html oznake itd.

Dakle, modul indeksiranja omogućuje praćenje poveznica zadanog broja resursa, preuzimanje stranica, izdvajanje mase linkova na nove stranice iz primljenih dokumenata i njihovu detaljnu analizu.

Baza podataka

Baza podataka(ili indeks tražilice) je kompleks za pohranu podataka, niz informacija u kojem se na određeni način pohranjuju parametri svakog preuzetog i obrađenog dokumenta koji modul za indeksiranje obrađuje.

Poslužitelj za pretraživanje

Ovo je najvažniji element cijelog sustava, jer brzina i, naravno, kvaliteta pretraživanja izravno ovise o algoritmima koji su u osnovi njegove funkcionalnosti.

Tražilica radi na sljedeći način:

  • Zahtjev koji dolazi od korisnika podvrgava se morfološkoj analizi. Generira se informacijsko okruženje bilo kojeg dokumenta dostupnog u bazi podataka (dalje će se prikazati kao isječak, tj. informacijsko polje teksta koji odgovara ovom zahtjevu).
  • Primljeni podaci prosljeđuju se kao ulazni parametri u specijalizirani modul za rangiranje. Oni se obrađuju za sve dokumente, a kao rezultat toga, za svaki takav dokument izračunava se vlastita ocjena koja karakterizira relevantnost takvog dokumenta za zahtjev korisnika i ostale komponente.
  • Ovisno o uvjetima koje postavlja korisnik, ova se ocjena može prilagoditi dodatnim.
  • Tada se generira sam isječak, t.j. za svaki pronađeni dokument iz odgovarajuće se tablice izdvaja naslov, bilješka koja najbolje odgovara zahtjevu i poveznica na ovaj dokument, dok su pronađeni oblici riječi i riječi istaknuti.
  • Rezultati dobivene pretrage prenose se osobi koja ju je izvršila u obliku stranice na kojoj se daju rezultati pretraživanja (SERP).
Svi su ti elementi međusobno usko povezani i funkcioniraju, međusobno djeluju, tvoreći poseban, ali prilično kompliciran mehanizam za funkcioniranje PS-a, koji zahtijeva velike izdatke sredstava.

Izdali smo novu knjigu “Content Marketing na društvenim mrežama: Kako doći do glava pretplatnika i zaljubiti se u svoju marku”.

Pretplatite se na

Ako nešto stvarno razumijete, onda temeljito. A ako ste pretplaćeni na naš blog, vjerojatno želite postati super stručnjak ili želite saznati više o online pretraživanju. Da biste postigli ono što želite – trikovi i life hacks nisu dovoljni. Morate proširiti svoje vidike.

Tražilica je velik i složen program dizajniran za pronalaženje informacija na Internetu.

Jeste li se ikada zapitali kako se pojavilo ono što svakodnevno koristimo, koji postoje na internetu i zašto svi studiji rade samo s i? Ne biste trebali odgađati takva pitanja u pozadini. Samo 10 minuta i evo još jedne teme za razgovor koju lako možete podržati.

Kako su se pojavile tražilice

Nekad davno, kada je internet bio mlad i zelen...

Korisnici, kojih je, moram reći, bilo vrlo malo, imali su svoje oznake. Ali to nije dugo trajalo: uskoro je osobi postalo teško kretati se raznolikošću koja se pojavila na mreži u kratkom vremenu.

A kako bi se na neki način pojednostavio kaos, izmišljeni su imenici Yahoo, DMOZ i drugi (neki postoje i dan-danas), u koje su autori dodavali i sortirali nove stranice u kategorije. Na neko vrijeme život je postao lakši.

Ali internet se nastavio širiti i ubrzo je veličina imenika narasla u nešto zapanjujuće divovsko. Tada su programeri prvi put razmišljali o pretraživanju unutar direktorija, a tek onda o stvaranju automatiziranog sustava indeksiranja svega na Internetu kako bi se pojednostavio rad svim korisnicima.

Tako su se pojavili prvi roboti za pretraživanje.

Koja je tražilica prva

Razmatra se prva tražilica Wandex (pa, zbunjeno s Yandexom!).Ova i druge prve službe, naravno, bile su daleko od savršene. Na upit za pretraživanje dali su nešto sasvim drugačije od onoga što smo sada navikli vidjeti, t.j. ne najviše relevantan stranicama, ali sve redom, zanemarujući rang. 1. siječnja 2012. Wandex je ponovno pokrenut.

Tako je prvi PS počeo s radom.Što su tražilicena modernom internetu? Prilažem popis.

Tražilice su: kraljevi plesnog podija

Začudo, ima onih koji se svađajukako je tražilica bolja... Ne bih to radio, jednostavno iz razloga što su različiti i općenito sve ovisi o cilju i kakav ste korisnik.

Yandex.

Ovo je najpopularnija tražilica u našoj zemlji. To tvrdi LiveInternet Yandex koristi 50,9%, dok na Google otpada 40,6% (podaci iz lipnja 2015.).

Postoji takav mit, kažu, u Yandexu ima mnogo puta više komercijalnih zahtjeva od onih najbližeg konkurenta. Nekoliko puta sam naišao na ideju da se zbog regionalnosti usavršavane tijekom godina može razlikovati vrsta publike ili njezin broj - to je razlog superiornosti Yandexa u komercijalnim upitima. Zato nemojte vjerovati. Oni lažu.

Google

Google tražilica je najpopularnija svugdje osim u Rusiji :) Ima puno mogućnosti u različitim smjerovima. Općenito, neprikosnoveni svjetski lider među robotima za pretraživanje.

Sam Google se pojavio otprilike zajedno s Yandexom, a u Rusiju je došao tek 2004. godine, kada je Yandex ojačao svoju poziciju.

Proces pretraživanja u Googleu već je postao poznat mnogim zemljanima. Ali kad svojoj majci kažem "Google", ona i dalje ide tražiti informacije koje su joj potrebne u Yandexu :) Ona uopće ne znakoje tražilice postoje na internetu.

Što su tražilice: popis malo poznatih tražilica

Većina korisnika interneta ni ne znakoje su tražilice osim Yandexai Google. Pa evo ih;) Upoznajte se!

Udio pretraživanja ove tražilice teško se može nazvati velikim, ali pokazatelji polako rastu. Iako ne treba zanemariti činjenicu da ove brojke izravno ovise o Odnoklassniki, Mail.ru pošti i drugim stvarima iz Mail Corporation.

Ovo je prava stara škola. Zamislite samo: kada se ova tražilica pojavila, neki SEO-i su tek učili hodati. Uglavnom, Rambler je imao priliku zavladati loptom, ali to se iz niza razloga nije dogodilo. Trenutno to više nije baš tražilica, već svojevrsni skup usluga koje koriste Yandex motor kao tražilicu - na primjer, imaju svoje. Posjećenost je, inače, sasvim pristojna: početnu stranicu Ramblera dnevno posjeti nešto više od milijun korisnika.

Rambler također ima verziju Rambler Lite (svejedno, samo bez vremena, vijesti, reklama itd.) i XRambler , koji kombinira 15 tražilica odjednom.

Koliko je imena ova tražilica promijenila! 8 godina uspio je ocrniti naziv MSN Search, zatim Windows Live Search, zatim skratio prethodni naziv u Live Search i sada došao do imena Bing. Mnogi tvrde da je kvaliteta pretraživanja bliska Googleovom standardu.

Sada je teško Yahu nazvati tražilicom, budući da se prema ugovoru Bingova tražilica koristi na svim stranicama u vlasništvu Yahua. Najnovije vijesti o ugovoru možete pronaći na Tražilice.

Webalta

Sigurno vam je poznata ova takozvana tražilica. Jeste li ga morali iščupati kao krpelja iz svog preglednika?Već dugo svi znaju za mračna djela ove tražilice. Jao, ovaj PS nikoga ne zanima. Korisnici traže samo članke o tome kako ukloniti ovo smeće sa svog računala.

Nygma

Ova tražilica uvelike se razlikuje od ostalih. A ako nikoga nećete iznenaditi indeksnom bazom drugih tražilica, tada sposobnost rješavanja problema iz kemije i matematike razlikuje Nigmu od ostalih PS-ova. Nigma također nudi pretraživanje glazbe, knjiga, igara i torrenta.

Tražilica, koju je naručila ruska vlada, smatra se prvom svjetskom tražilicom u državnom vlasništvu. Nudi zasebnu medicinsku pretragu (traženje ljekarni, lijekova i artikala o bolestima). Vrlo zgodna tema uz "Zgodnu zemlju", gdje su na jednom mjestu skupljene sve preporuke koje pomažu građaninu. Na primjer, odjeljak "Dokumenti".

Ovaj PS se bitno razlikuje od togakoje su tražilice na internetu. DuckDuckGo - tražilica open source i zanimljiva politika nekorištenja mjehurića filtra. Za one koji ne znaju: "filter balon" je kada tražilica u rezultatima pretraživanja prikazuje samo one rezultate pretraživanja koje (ovaj PS) smatra potrebnima za određenog korisnika. Istodobno, mišljenje samog korisnika nikoga ne zanima. DuckDuckGo osigurava da će korištenje njihove tražilice osigurati da dobijete sve informacije koje tražilica ima.

"Duck Duck Go" uzima sve više maha. Već ovog ljeta (2015.) kreator PS-a prijavio je tri milijarde zahtjeva godišnje.

Dok sam pisao ovaj članak, imao sam nekoliko pitanja. U takvim slučajevima se ne oslanjam na izdavanje, da, a zašto, ako je pored mene osoba koja zna sve o internetu? Mini-intervju s Igorom Ivanovim.

Igor Ivanov

Voditeljica studija SEMANTICA

Ako se moja stranica nalazi na Googleu i Yandexu, hoće li moja stranica biti na vrhu rezultata pretraživanja u drugim, manjim tražilicama?

Vrlo je velika vjerojatnost da će tako i biti. Yandex i Google razvijaju svoje algoritme u pravom smjeru, a druge tražilice slijede njihov primjer. Bio je slučaj kada su Google stručnjaci primijetili da tražilica Bing ne kopira samo njihove algoritme, već i rezultate pretraživanja.

Zašto vjerojatnost, a ne potpuna sigurnost? Jer druge tražilice neće imati vremena prilagoditi svoje algoritme za rangiranje standardu koji su postavili njihovi uspješniji konkurenti.

Isplati li se uopće promovirati na Sputnjiku, Miletu i ostalim “našim” tražilicama? Koja je tražilica najbolja?

Vrhunski povezani članci