Cum se configurează smartphone-uri și PC-uri. Portal informativ
  • Acasă
  • Sfat
  • Cazul este un motor de căutare. Motor de căutare pe Internet - Yahoo

Cazul este un motor de căutare. Motor de căutare pe Internet - Yahoo

Arhitectura motorului de căutare include de obicei:

YouTube colegial

    1 / 5

    ✪ Lecția 3: Cum funcționează motorul de căutare. Introducere în SEO

    ✪ Motor de căutare din interior

    ✪ Shodan - Google negru

    ✪ Motorul de căutare CHEBURASHKA va înlocui Google și Yandex în Rusia

    ✪ Lecția 1 - Cum funcționează motorul de căutare

    Subtitrări

Poveste

Cronologie
An Sistem Eveniment
1993 W3Catalog?! Alergare
Aliweb Alergare
JumpStation Alergare
1994 Webcrawler Alergare
Căutare de informații Alergare
Lycos Alergare
1995 AltaVista Alergare
Daum Baza
Deschideți textul Index web Alergare
Magellan Alergare
Excita Alergare
SAPO Alergare
Yahoo! Alergare
1996 Dogpile Alergare
Inktomi Baza
Hoinar Baza
HotBot Baza
Întreabă-l pe Jeeves Baza
1997 Lumina Nordului Alergare
Yandex. Alergare
1998 Google Alergare
1999 AlltheWeb Alergare
Genie Knows Baza
Naver Alergare
Teoma Baza
Vivisimo Baza
2000 Baidu Baza
Exalead Baza
2003 Info.com Alergare
2004 Yahoo! Căutare Lansare finală
A9.com Alergare
Sogou Alergare
2005 Căutare MSN Lansare finală
Ask.com Alergare
Nygma Alergare
GoodSearch Alergare
Cauta-ma Baza
2006 wikiseek Baza
Quaero Baza
Cautare in timp real Alergare
ChaCha Lansare (beta)
Guruji.com Lansare (beta)
2007 wikiseek Alergare
Sproose Alergare
Căutare Wikia Alergare
Blackle.com Alergare
2008 DuckDuckGo Alergare
Tooby Alergare
Picolator Alergare
Viewzi Alergare
Cuil Alergare
Boogami Alergare
LeapFish Lansare (beta)
Forestle Alergare
VADLO Alergare
Powerset Alergare
2009 Bing Alergare
KAZ.KZ Alergare
Yebol Lansare (beta)
Mugurdy Închidere
cercetaș Alergare
2010 Cuil Închidere
Blekko Lansare (beta)
Viewzi Închidere
2012 WAZZUB Alergare
2014 Satelit Lansare (beta)

În primele zile ale internetului, Tim Berners-Lee ținea o listă de servere web postată pe site-ul CERN. Au fost din ce în ce mai multe site-uri și a devenit din ce în ce mai dificil să întreținem manual o astfel de listă. A existat o secțiune specială Ce este nou pe site-ul NCSA. (Engleză What "s New!), unde au publicat link-uri către site-uri noi.

Primul program de calculator care a căutat pe Internet a fost programul Archie(Arhie engleză este o arhivă fără litera „în”). A fost creat în 1990 de către Alan Emtage, Bill Heelan și J. Peter Deutsch, studenți la informatică la Universitatea McGill din Montreal. Programul a descărcat o listă cu toate fișierele de pe toate serverele FTP anonime disponibile și a construit o bază de date care putea fi căutată după numele fișierelor. Cu toate acestea, programul lui Archie nu a indexat conținutul acestor fișiere, deoarece cantitatea de date era atât de mică încât totul putea fi găsit cu ușurință manual.

Dezvoltarea și proliferarea protocolului de rețea Gopher, inventat în 1991 de Mark McCahill la Universitatea din Minnesota, a condus la crearea a două noi programe de căutare, Veronicași Jughead. La fel ca Archie, au căutat nume de fișiere și anteturi stocate în sistemele de index Gopher. Veronica (ing. Foarte ușor, orientat spre rozătoare, index la nivel de rețea la arhivele computerizate) au permis căutări de cuvinte cheie pentru majoritatea titlurilor de meniu Gopher din toate listele Gopher. Programul Jughead (ing. Excavarea și afișarea ierarhiei universale a lui Jonzy) a preluat informații din meniu de la anumite servere Gopher. Deși numele motorului de căutare Archie nu avea nicio legătură cu ciclul de benzi desenate "Archie" cu toate acestea, Veronica și Jughead sunt personaje din aceste benzi desenate.

Până în vara lui 1993, nu exista încă un sistem de căutare pe web, deși numeroase directoare specializate au fost întreținute manual. Oscar Nierstrasz de la Universitatea din Geneva a scris o serie de scripturi Perl care copiau periodic aceste pagini și le transcriu într-un format standard. Aceasta a devenit baza pentru W3Catalog?!, primul motor de căutare primitiv de pe web, lansat pe 2 septembrie 1993.

Probabil că primul crawler care a fost scris în Perl a fost robotul „World Wide Web Wanderer” de Matthew Gray în iunie 1993. Acest robot a creat indexul de căutare Wandex. Scopul robotului Wanderer a fost să măsoare dimensiunea World Wide Web și să găsească toate paginile web care conțin cuvinte dintr-o interogare. În 1993, a apărut un al doilea motor de căutare, Aliweb. Aliweb nu a folosit un crawler, ci a așteptat în schimb notificări de la administratorii site-urilor web despre prezența unui fișier index într-un anumit format pe site-urile lor.

JumpStation, creat în decembrie 1993 de Jonathan Fletcher, a căutat pagini web și a construit indexurile acestora cu un crawler și a folosit un formular web ca interfață pentru a formula căutări. A fost primul instrument de căutare pe Internet care a combinat cele trei funcții esențiale ale unui motor de căutare (validare, indexare și căutare reală). Din cauza resurselor limitate ale computerelor la acea vreme, indexarea și, prin urmare, căutările erau limitate doar la titlurile și titlurile paginilor web găsite de robotul de căutare.

Motoarele de căutare au participat la bula dotcom de la sfârșitul anilor 1990. Mai multe companii au intrat cu succes pe piață, generând profituri record în timpul ofertei publice inițiale. Unii au abandonat piața motoarelor de căutare open source și au început să lucreze doar cu sectorul corporativ, de exemplu, Lumina Nordului.

Google a preluat ideea de a vinde cuvinte cheie în 1998, când era o companie mică care rula un motor de căutare la goto.com. Mișcarea a anunțat o trecere pentru motoarele de căutare de la concurența între ele la una dintre cele mai profitabile întreprinderi de afaceri de pe Internet. Motoarele de căutare au început să vândă companiilor individuale pozițiile de top în rezultatele căutării.

Motorul de căutare Google a fost proeminent de la începutul anilor 2000. Compania a atins o poziție înaltă datorită rezultatelor bune de căutare folosind algoritmul PageRank. Algoritmul a fost prezentat publicului în articolul „The Anatomy of Search Engine”, scris de Sergey Brin și Larry Page, fondatorii Google. Acest algoritm iterativ clasifică paginile web pe baza unei estimări a numărului de hyperlinkuri către o pagină web, presupunând mai multe link-uri către pagini „bune” și „importante” decât altele. Interfața Google este spartană și nu are nimic de prisos, spre deosebire de mulți dintre concurenții săi care au construit un motor de căutare într-un portal web. Motorul de căutare Google a devenit atât de popular încât au existat sisteme care îl imită, de exemplu, Căutător de mistere(motor de căutare secret).

Căutați informații în rusă

În 1996, a fost implementată o căutare ținând cont de morfologia rusă pe motorul de căutare Altavista și au fost lansate motoarele de căutare originale rusești Rambler și Aport. La 23 septembrie 1997, a fost lansat motorul de căutare Yandex. Pe 22 mai 2014, Rostelecom a lansat motorul național de căutare Sputnik, care la momentul anului 2015 se află în testare beta. Pe 22 aprilie 2015 a fost lansat noul serviciu Sputnik. Copii special pentru copii cu siguranta sporita.

Metodele de analiză a clusterelor și căutarea metadatelor au devenit foarte populare. Dintre mașinile internaționale de acest gen, se primește cel mai faimos "Clusty" companie Vivisimo... În 2005, în Rusia, cu sprijinul Universității de Stat din Moscova, a fost lansat motorul de căutare „Nigma”, care acceptă gruparea automată. În 2006, s-a deschis metamașina rusă Quintura, oferind grupări vizuale sub forma unui nor de etichete. Nygma a experimentat, de asemenea, gruparea vizuală.

Cum funcționează motorul de căutare

Principalele componente ale unui motor de căutare: robot de căutare, indexator, motor de căutare.

De obicei, sistemele funcționează în etape. În primul rând, crawler-ul primește conținutul, apoi indexerul generează un index care poate fi căutat și, în final, motorul de căutare oferă funcționalitatea de a căuta datele indexate. Pentru a actualiza motorul de căutare, acest ciclu de indexare se repetă.

Motoarele de căutare funcționează prin stocarea informațiilor despre multe pagini web pe care le recuperează din paginile HTML. Un crawler sau „crawler” este un program care parcurge automat toate linkurile găsite pe o pagină și le evidențiază. Crawler-ul, pe baza link-urilor sau pe baza unei liste predeterminate de adrese, caută noi documente care nu sunt încă cunoscute de motorul de căutare. Proprietarul site-ului poate exclude anumite pagini folosind robots.txt, care poate fi folosit pentru a preveni indexarea fișierelor, paginilor sau directoarelor site-ului.

Motorul de căutare analizează conținutul fiecărei pagini pentru o indexare ulterioară. Cuvintele pot fi extrase din titluri, textul paginii sau câmpuri speciale - metaetichete. Un indexator este un modul care analizează o pagină după ce o împarte în părți folosind proprii algoritmi lexicali și morfologici. Toate elementele paginii web sunt izolate și analizate separat. Datele despre paginile web sunt stocate într-o bază de date index pentru a fi utilizate în interogările ulterioare. Indexul vă permite să găsiți rapid informații la cererea utilizatorului. O serie de motoare de căutare, precum Google, stochează pagina originală în întregime sau parțial, așa-numita cache, precum și diverse informații despre pagina web. Alte sisteme precum AltaVista stochează fiecare cuvânt din fiecare pagină pe care o găsește. Folosirea memoriei cache ajută la accelerarea regăsirii informațiilor din paginile deja vizitate. Paginile stocate în cache conțin întotdeauna textul specificat de utilizator în interogarea de căutare. Acest lucru poate fi util în cazul în care pagina web a fost reîmprospătată, adică nu mai conține textul de solicitare al utilizatorului, iar pagina din cache este încă veche. Această situație este legată de pierderea legăturilor (ing. linkrot) și abordarea Google ușor de utilizat (utilizabilitate). Aceasta implică preluarea unor bucăți scurte de text din memoria cache care conțin textul solicitării. Se aplică principiul celei mai mici surprize, utilizatorul se așteaptă de obicei să vadă cuvintele căutate în textele paginilor primite ( Așteptările utilizatorilor). Pe lângă accelerarea căutărilor prin utilizarea paginilor stocate în cache, paginile din cache pot conține informații care nu mai sunt disponibile în altă parte.

Motorul de căutare funcționează cu fișierele de ieșire primite de la indexator. Motorul de căutare acceptă interogările utilizatorilor, le procesează folosind un index și returnează rezultatele căutării.

Când un utilizator introduce o interogare într-un motor de căutare (de obicei folosind cuvinte cheie), sistemul își verifică indexul și produce o listă cu cele mai potrivite pagini web (sortate după un anumit criteriu), de obicei cu o scurtă adnotare care conține titlul documentului și uneori porțiuni din text. Indexul de căutare este construit folosind o tehnică specială bazată pe informații extrase din paginile web. Din 2007, motorul de căutare Google vă permite să căutați în funcție de timp, să creați documentele dorite (apelați meniul „Instrumente de căutare” și specificați intervalul de timp). Majoritatea motoarelor de căutare acceptă utilizarea operatorilor booleeni ȘI, SAU, NU în interogări, ceea ce vă permite să rafinați sau să extindeți lista de cuvinte cheie pe care o căutați. În acest caz, sistemul va căuta cuvinte sau expresii exact așa cum au fost introduse. Unele motoare de căutare au opțiunea căutare aproximativă, în acest caz, utilizatorii își extind căutarea specificând distanța până la cuvintele cheie. Există, de asemenea căutare conceptuală, care utilizează o analiză statistică a utilizării cuvintelor și expresiilor de căutare în textele paginilor web. Aceste sisteme vă permit să compuneți interogări în limbaj natural. Un exemplu de astfel de motor de căutare este ask com.

Utilitatea unui motor de căutare depinde de relevanța paginilor pe care le găsește. Deși milioane de pagini web pot include un cuvânt sau o expresie, unele pot fi mai relevante, populare sau mai autorizate decât altele. Majoritatea motoarelor de căutare folosesc tehnici de clasare pentru a aduce cele mai „mai bune” rezultate în fruntea listei. Motoarele de căutare decid ce pagini sunt mai relevante și în ce ordine ar trebui să fie afișate rezultatele, în moduri diferite. Metodele de căutare, precum Internetul însuși, se schimbă în timp. Așa au apărut două tipuri principale de motoare de căutare: sisteme de cuvinte cheie predefinite și ordonate ierarhic și sisteme în care se generează un index inversat pe baza analizei textului.

Majoritatea motoarelor de căutare sunt întreprinderi comerciale care profită din publicitate, în unele motoare de căutare puteți cumpăra primele locuri în SERP pentru cuvintele cheie date contra cost. Motoarele de căutare care nu percep bani pentru ordinea în care sunt afișate rezultatele câștigă din publicitate contextuală, în timp ce mesajele publicitare corespund solicitării utilizatorului. Astfel de reclame sunt afișate pe o pagină cu o listă de rezultate de căutare, iar motoarele de căutare câștigă de fiecare dată când un utilizator face clic pe reclame.

Tipuri de motoare de căutare

Există patru tipuri de motoare de căutare: robotizate, conduse de oameni, hibride și meta-sisteme.

  • sistemele motoarelor de căutare
Acestea constau din trei părți: crawler-ul („bot”, „robot” sau „spider”), indexul și software-ul motorului de căutare. Este necesar un crawler pentru a accesa cu crawlere rețeaua și pentru a crea liste de pagini web. Indexul este o arhivă mare de copii ale paginilor web. Scopul software-ului este de a evalua rezultatele căutării. Datorită faptului că robotul de căutare din acest mecanism explorează în mod constant rețeaua, informațiile sunt mai relevante. Cele mai multe motoare de căutare moderne sunt de acest tip.
  • sisteme gestionate de oameni (directoare de resurse)
Aceste motoare de căutare primesc liste de pagini web. Directorul conține adresa, titlul și o scurtă descriere a site-ului. Directorul de resurse caută doar rezultate din descrierile paginilor trimise acestuia de către webmasteri. Avantajul cataloagelor este că toate resursele sunt verificate manual, prin urmare, calitatea conținutului va fi mai bună în comparație cu rezultatele obținute automat de sistemul de primul tip. Dar există și un dezavantaj - actualizarea acestor cataloage se face manual și poate rămâne semnificativ în urma situației reale. Clasamentul paginilor nu se poate schimba instantaneu. Exemple de astfel de sisteme sunt directorul Yahoo, dmoz și Galaxy.
  • sisteme hibride
Motoarele de căutare precum Yahoo, Google, MSN combină funcțiile sistemelor motoarelor de căutare și sistemele conduse de om.
  • meta-sisteme
Motoarele de metacăutare combină și clasifică rezultatele mai multor motoare de căutare simultan. Aceste motoare de căutare erau utile atunci când fiecare motor de căutare avea un index unic, iar motoarele de căutare erau mai puțin inteligente. Pe măsură ce căutarea s-a îmbunătățit mult acum, nevoia de ele a scăzut. Exemple: MetaCrawlerși MSN Search.

Piața motoarelor de căutare

Google este cel mai popular motor de căutare din lume, cu o cotă de piață de 68,69%. Bing ocupă locul al doilea cu o cotă de 12,26%.

Cele mai populare motoare de căutare din lume:

Sistem de căutare Cota de piata in iulie 2014 Cota de piata in octombrie 2014 Cota de piata in septembrie 2015
Google 68,69 % 58.01 % 69.24%
Baidu 17,17 % 29.06 % 6,48%
Bing 6.22 % 8.01 % 12,26%
Yahoo! 6.74 % 4.01 % 9,19%
Aol 0,13 % 0.21 % 1,11%
Excita 0.22 % 0,00 % 0.00%
Cere 0,13 % 0,10 % 0,24%

Asia

În țările din Asia de Est și în Rusia, Google nu este cel mai popular motor de căutare. În China, de exemplu, este mai popular Motorul de căutare Soso.

În Coreea de Sud, portalul de căutare proprietar al Naver este folosit de aproximativ 70% din Yahoo! Japonia și Yahoo! Taiwan sunt cele mai populare motoare de căutare din Japonia și, respectiv, Taiwan.

Rusia și motoarele de căutare în limba rusă

Conform datelor LiveInternet din iunie 2015 privind acoperirea interogărilor de căutare în limba rusă:

  • Toate limbi:
    • Yahoo! (0,1%) și motoarele de căutare deținute de această companie: Inktomi, AltaVista, Alltheweb
  • vorbitor de engleză și internațional:
    • Întreabă-l pe Jeeves(mecanismul Teoma)
  • Limbă rusă - majoritatea motoarelor de căutare „vorbitoare de rusă” indexează și caută texte în multe limbi - ucraineană, belarusă, engleză, tătără și altele. Ele diferă de sistemele „toate limbi” care indexează toate documentele la rând, prin aceea că indexează în principal resursele situate în zonele de domeniu dominate de limba rusă sau, în alte moduri, își restricționează roboții la site-uri în limba rusă.

Unele dintre motoarele de căutare folosesc algoritmi de căutare externi.

Date cantitative ale motorului de căutare Google

Numărul de utilizatori de Internet și motoare de căutare și cerințele utilizatorilor pentru aceste sisteme este în continuă creștere. Pentru a crește viteza de căutare a informațiilor de care aveți nevoie, motoarele de căutare mari conțin un număr mare de servere. Serverele sunt de obicei grupate în centre de servere (centre de date). Motoarele de căutare populare au centre de server împrăștiate în toată lumea.

În octombrie 2012, Google a lansat proiectul Where the Internet Lives, care oferă utilizatorilor posibilitatea de a explora centrele de date ale companiei.

Motorul de căutare Google știe următoarele despre activitatea centrelor de date:

  • Capacitatea totală a tuturor centrelor de date Google din 2011 a fost estimată la 220 MW.
  • Când Google a plănuit să deschidă un nou complex de 6,5 milioane m² de trei clădiri în Oregon în 2008, Harper's Magazine a calculat că un complex atât de mare consumă peste 100 de megawați de electricitate, ceea ce este comparabil cu consumul de energie al unui oraș de 300.000 de locuitori.
  • Numărul estimat de servere Google în 2012 este de 1.000.000.
  • Cheltuielile Google pentru centrele de date au fost de 1,9 miliarde de dolari în 2006 și de 2,4 miliarde de dolari în 2007.

Dimensiunea World Wide Web, indexată de Google în decembrie 2014, este de aproximativ 4,36 miliarde de pagini.

Motoare de căutare care respectă interdicțiile religioase

Răspândirea globală a internetului și popularitatea tot mai mare a dispozitivelor electronice în lumea arabă și musulmană, în special în țările din Orientul Mijlociu și subcontinentul indian, au contribuit la dezvoltarea motoarelor de căutare locale care țin cont de tradițiile islamice. Astfel de motoare de căutare conțin filtre speciale care ajută utilizatorii să nu meargă pe site-uri interzise, ​​de exemplu, site-uri cu pornografie, și le permit să utilizeze numai acele site-uri al căror conținut nu contrazice credința islamică. Cu puțin timp înainte de luna musulmană Ramadan, în iulie 2013, a fost prezentată lumea Halalgoogling- un sistem care oferă utilizatorilor numai link-uri „corecte” halal, filtrarea rezultatelor căutării primite de la alte motoare de căutare precum Google și Bing. Cu doi ani mai devreme, în septembrie 2011, motorul de căutare I'mHalal a fost lansat pentru a servi utilizatorilor din Orientul Mijlociu. Totuși, acest serviciu de căutare a trebuit să fie închis în curând, potrivit proprietarului, din lipsă de finanțare.

Lipsa investițiilor și ritmul lent de difuzare a tehnologiei în lumea musulmană au împiedicat progresul și au împiedicat succesul unui motor de căutare islamic serios. Eșecul evident al investițiilor uriașe în proiecte web de stil de viață musulman, dintre care unul a fost Muxlim... A primit milioane de dolari de la investitori precum Rite Internet Ventures și acum - conform ultimului mesaj de la I'mHalal înainte de a se închide - vine cu ideea dubioasă că „următorul Facebook sau Google ar putea fi doar în Orientul Mijlociu. . dacă ne susțineți tineretul strălucit.” Cu toate acestea, experții în Internet islamic au petrecut mulți ani definind ceea ce este sau nu conform Sharia și clasificând site-urile web drept „halal” sau „haram”. Toate motoarele de căutare islamice anterioare și actuale sunt pur și simplu un set special de date indexate sau sunt motoare de căutare majore, cum ar fi Google, Yahoo și Bing, cu un sistem de filtrare folosit pentru a împiedica utilizatorii să acceseze site-uri haraam, cum ar fi site-uri despre nuditate, LGBT, jocurile de noroc și orice altele, a căror temă este considerată anti-islamică.

Alte motoare de căutare orientate religios includ Jewogle, versiunea evreiască a Google și SeekFind.org, un site creștin care include filtre pentru a proteja utilizatorii de conținut care le-ar putea submina sau slăbi credința.

Rezultate personalizate și bule de filtrare

Multe motoare de căutare, cum ar fi Google și Bing, folosesc algoritmi pentru a ghici selectiv ce informații ar dori să vadă un utilizator pe baza activității sale anterioare pe sistem. Ca urmare, site-urile web afișează doar informații care sunt în concordanță cu interesele trecute ale utilizatorului. Acest efect se numește balon de filtru.

Toate acestea duc la faptul că utilizatorii primesc informații mult mai puțin conflictuale și devin izolați intelectual în propria „bulă informațională”. Astfel, „efectul bulei” poate avea consecințe negative pentru formarea opiniei civile.

Prejudecata motorului de căutare

În timp ce motoarele de căutare sunt programate să clasifice site-urile web pe baza unei combinații de popularitate și relevanță, în realitate, cercetările experimentale indică faptul că diverși factori politici, economici și sociali influențează rezultatele căutării.

Această părtinire poate fi un rezultat direct al proceselor economice și comerciale: companiile care fac publicitate pe un motor de căutare pot deveni mai populare în rezultatele căutării organice din acel motor de căutare. Eliminarea rezultatelor căutării care nu respectă legile locale este un exemplu de influență a proceselor politice. De exemplu, Google nu va afișa unele site-uri web neonaziste în Franța și Germania, unde negarea Holocaustului este ilegală.

Prejudecățile pot fi, de asemenea, o consecință a proceselor sociale, deoarece algoritmii motoarelor de căutare sunt adesea proiectați pentru a exclude punctele de vedere informale în favoarea unor rezultate mai „populare”. Algoritmii de indexare pentru motoarele de căutare majore acordă prioritate site-urilor americane.

Bomba de căutare este un exemplu de încercare de a gestiona rezultatele căutării din motive politice, sociale sau comerciale.

Vezi si

  • Qwika
  • Bibliotecă electronică # Liste de biblioteci și motoare de căutare
  • Tabloul de bord pentru dezvoltatori web

Note (editare)

Literatură

  • Ashmanov I.S., Ivanov A.A. Promovarea site-ului web în motoarele de căutare. - M.: Williams, 2007 .-- 304 p. - ISBN 978-5-8459-1155-1.
  • Baikov V.D. Internet. Căutați informații. Promovarea site-ului web. - SPb. : BHV-Petersburg, 2000 .-- 288 p. - ISBN 5-8206-0095-9.
  • Kolisnichenko D.N. Motoarele de căutare și promovarea site-urilor pe Internet. - M.: Dialectică, 2007 .-- 272 p. - ISBN 978-5-8459-1269-5.
  • Lande D.V. Căutați cunoștințe pe Internet. - M.: Dialectica, 2005 .-- 272 p. - ISBN 5-8459-0764-0.
  • Lande D.V., Snarskiy A.A., Bezsudnov I.V. Internetics: Navigare în rețele complexe: modele și algoritmi. - M .: Librokom (Editorial URSS), 2009 .-- 264 p. - ISBN 978-5-397-00497-8.
  • Chu H., Rosenthal M. Motoare de căutare pentru World Wide Web: O metodologie de studiu și evaluare comparativă // PROCEEDINGS OF THE ANNUAL MEETING-AMERICAN SOCIETY FOR INFORMATION SCIENCE: jurnal. - 1996. - Vol. 33. - P. 127-135.
  • Gandal, Neil. Dinamica concurenței pe piața motoarelor de căutare pe internet. - 2001. - Vol. 19. - P. 1103-1117. -

Căutarea profesională pe Internet necesită software specializat, precum și motoare de căutare și servicii de căutare specializate.

PROGRAME

http://dr-watson.wix.com/home - programul este conceput pentru a studia rețele de informații textuale pentru a identifica entitățile și relațiile dintre ele. Rezultatul lucrării este un raport asupra obiectului studiat.

http://www.fmsasg.com/ - unul dintre cele mai bune programe de comunicare și vizualizare a relațiilor din lume Sentinel Vizualizer. Compania și-a rusificat complet produsele și a conectat o linie telefonică în limba rusă.

http://www.newprosoft.com/ - „Web Content Extractor” este cel mai puternic și mai ușor de utilizat software de extragere a datelor de site-uri web. Are, de asemenea, un păianjen Visual Web eficient.

SiteSputnik un pachet software unic în lume care vă permite să căutați și să procesați rezultatele acestuia în Internetul Vizibil și Invizibil, folosind toate motoarele de căutare necesare utilizatorului.

WebSite-Watcher - permite monitorizarea paginilor web, inclusiv a celor protejate cu parolă, forumuri de monitorizare, fluxuri RSS, grupuri de știri, fișiere locale. Are un sistem de filtrare puternic. Monitorizarea se realizează automat și este furnizată într-o formă ușor de utilizat. Programul avansat costă 50 de euro. Actualizat constant.

http://www.scribd.com/ este cea mai populară platformă din lume și din ce în ce mai utilizată în Rusia pentru plasarea diferitelor tipuri de documente, cărți etc. pentru acces gratuit cu un motor de căutare foarte convenabil pentru nume, subiecte etc.

http://www.atlasti.com/ - este cel mai puternic și eficient instrument de analiză a informațiilor de înaltă calitate disponibil pentru utilizatorii individuali, întreprinderile mici și chiar mijlocii. Programul este multifuncțional și, prin urmare, util. Combină posibilitățile de a crea un mediu informațional unificat pentru lucrul cu diverse fișiere text, tabelare, audio și video în ansamblu, precum și instrumente de analiză și vizualizare calitativă.

Ashampoo ClipFinder HD - o cotă din ce în ce mai mare din fluxul de informații este video. În consecință, agenții de inteligență competitivă au nevoie de instrumente pentru a lucra cu acest format. Unul dintre astfel de produse este utilitatea gratuită furnizată. Vă permite să căutați videoclipuri după criterii specificate în stocarea fișierelor video, cum ar fi YouTube. Programul este ușor de utilizat, afișează toate rezultatele căutării pe o singură pagină cu informații detaliate, titluri, durata, ora la care videoclipul a fost încărcat în stocare etc. Există o interfață rusă.

http://www.advego.ru/plagiatus/ - programul a fost realizat de optimizatori seo, dar este destul de potrivit ca instrument de inteligență pe Internet. Plagiatul arată gradul de unicitate al textului, sursele textului, procentul de coincidență a textului. Programul verifică, de asemenea, unicitatea adresei URL specificate. Programul este gratuit.

http://neiron.ru/toolbar/ - include un add-on pentru combinarea căutărilor Google și Yandex și, de asemenea, permite o analiză competitivă bazată pe evaluarea eficienței site-urilor și a publicității contextuale. Implementat ca plugin pentru FF și GC.

http://web-data-extractor.net/ este o soluție unică pentru obținerea oricăror date disponibile pe Internet. Configurarea tăierii datelor de pe orice pagină se face în câteva clicuri de mouse. Trebuie doar să selectați zona de date pe care doriți să o salvați și Datacol va selecta formula pentru tăierea acestui bloc.

CaptureSaver este un instrument profesional de explorare a internetului. Pur și simplu un program de lucru de neînlocuit, care vă permite să captați, să stocați și să exportați orice informații de pe Internet, inclusiv nu numai pagini web, bloguri, ci și știri RSS, e-mail, imagini și multe altele. Are cea mai largă funcționalitate, o interfață intuitivă și un preț ridicol.

http://www.orbiscope.net/en/software.html - sistem de monitorizare web la prețuri mai mult decât accesibile.

http://www.kbcrawl.co.uk/ - software pentru serviciu, inclusiv „Internetul invizibil”.

http://www.copernic.com/en/products/agent/index.html - programul vă permite să căutați folosind mai mult de 90 de motoare de căutare, mai mult de 10 parametri. Vă permite să combinați rezultatele, să eliminați duplicatele, să blocați link-urile rupte, să afișați cele mai relevante rezultate. Vine în versiuni gratuite, personale și profesionale. Folosit de peste 20 de milioane de utilizatori.

Maltego este un software fundamental nou, care vă permite să stabiliți relația dintre subiecte, evenimente și obiecte din viața reală și pe Internet.

SERVICII

nou https://hunter.io/ este un serviciu eficient pentru detectarea și verificarea e-mailului.

https://www.whatruns.com/ este un scaner ușor de utilizat, dar eficient, pentru a detecta ce funcționează și ce nu funcționează pe un site web și care sunt găurile de securitate. De asemenea, implementat ca plugin pentru Chrom.

https://www.crayon.co/ este o piață americană finanțată de la buget și o platformă de informații competitive pe internet.

http://www.cs.cornell.edu/~bwong/octant/ - identificatorul gazdei.

https://iplogger.ru/ este un serviciu simplu și convenabil pentru a determina IP-ul altcuiva.

http://linkurio.us/ este un nou produs puternic pentru lucrătorii din domeniul securității economice și anchetatorii corupției. Prelucrează și vizualizează cantități uriașe de informații nestructurate din surse financiare.

http://www.intelsuite.com/en - Platformă online în limba engleză pentru inteligență competitivă și monitorizare.

http://yewno.com/about/ - primul sistem de operare pentru traducerea informațiilor în cunoștințe și vizualizarea informațiilor nestructurate. În prezent, acceptă engleză, franceză, germană, spaniolă și portugheză.

https://start.avalancheonline.ru/landing/?next=%2F - Serviciile de prognoză și analiză ale lui Andrey Masalovich.

https://www.outwit.com/products/hub/ - un set complet de programe de sine stătătoare pentru munca profesională pe web 1.

https://github.com/search?q=user%3Acmlh+maltego - extensii pentru Maltego.

http://www.whoishostingthis.com/ - motor de căutare pentru găzduire, adrese IP etc.

http: // appfollow .ru / - analiza aplicațiilor pe baza recenziilor, optimizarea ASO, pozițiile în top și rezultatele căutării pentru App Store, Google Play și Windows Phone Store.

http://spiraldb.com/ este un serviciu implementat ca plugin pentru Chrom, care vă permite să obțineți o mulțime de informații valoroase despre orice resursă electronică.

https://millie.northernlight.com/dashboard.php?id=93 - un serviciu gratuit care colectează și structurează informații cheie în funcție de industrie și companie. Este posibil să utilizați panouri de informații bazate pe analiza textului.

http://byratino.info/ - colectarea de date faptice din surse disponibile public pe internet.

http://www.datafox.co/ - Platformă CI care colectează și analizează informații despre companii de interes pentru clienți. Există un demo.

https://unwiredlabs.com/home este o aplicație specializată cu API pentru căutarea prin geolocalizare a oricărui dispozitiv conectat la Internet.

http://visualping.io/ - serviciu de monitorizare a site-urilor și, în primul rând, a fotografiilor și imaginilor disponibile pe acestea. Chiar dacă fotografia apare pentru o secundă, aceasta va fi în e-mailul abonatului. Are un plugin pentru GoogleC hrome.

http://spyonweb.com/ este un instrument de cercetare care permite o analiză aprofundată a oricărei resurse de pe Internet.

http://bigvisor.ru/ - serviciul vă permite să urmăriți campanii de publicitate pentru anumite segmente de bunuri și servicii sau organizații specifice.

http://www.itsec.pro/2013/09/microsoft-word.html - Instrucțiunile lui Artem Ageev privind utilizarea programelor Windows pentru nevoile de inteligență competitivă.

http://granoproject.org/ este un instrument open source pentru cercetătorii care urmăresc rețelele de conexiuni dintre indivizi și organizații din politică, economie, criminalitate și multe altele. Vă permite să vă conectați, să analizați și să vizualizați informațiile obținute din diverse surse, precum și să afișați conexiuni semnificative.

http://imgops.com/ este un serviciu pentru extragerea metadatelor din fișierele grafice și lucrul cu acestea.

http://sergeybelove.ru/tools/one-button-scan/ - un mic scaner on-line pentru verificarea găurilor de securitate ale site-urilor și ale altor resurse.

http://isce-library.net/epi.aspx - serviciu pentru căutarea surselor primare după o bucată de text în limba engleză

https://www.rivaliq.com/ este un instrument eficient pentru realizarea de informații competitive pe piețele vestice, în primul rând europene și americane, pentru bunuri și servicii.

http://watchthatpage.com/ este un serviciu care vă permite să colectați automat informații noi din resursele monitorizate de pe Internet. Serviciul este gratuit.

http://falcon.io/ este un fel de raportare pentru web. Nu este un înlocuitor pentru Rapportive, dar oferă instrumente suplimentare. Spre deosebire de Rapportive, oferă un profil general al unei persoane, parcă lipit împreună din date din rețelele de socializare și mențiuni de pe web.http: //watchthatpage.com/ - un serviciu care vă permite să colectați automat informații noi din resursele monitorizate pe internetul. Serviciul este gratuit.

https://addons.mozilla.org/ru/firefox/addon/update-scanner/ - supliment pentru Firefox. Ține evidența actualizărilor paginilor web. Util pentru site-urile web care nu au fluxuri de știri (Atom sau RSS).

http://agregator.pro/ - agregator de portaluri de știri și media. Folosit de marketeri, analiști etc. pentru a analiza fluxuri de știri pe anumite subiecte.

http://price.apishops.com/ - un serviciu web automat pentru monitorizarea prețurilor pentru grupuri de produse selectate, magazine online specifice și alți parametri.

http://www.la0.ru/ este un serviciu convenabil și relevant pentru analiza link-urilor și backlink-urilor către o resursă de internet.

www.recordedfuture.com este un instrument puternic de analiză și vizualizare a datelor implementat ca serviciu online de cloud computing.

http://advse.ru/ - un serviciu sub sloganul „Aflați totul despre concurenții tăi”. Permite, în conformitate cu interogările de căutare, să obțineți site-urile concurenților, să analizeze companiile de publicitate ale concurenților în Google și Yandex.

http://spyonweb.com/ - serviciul vă permite să identificați site-uri cu aceleași caracteristici, inclusiv pe cele care folosesc aceiași identificatori ai serviciului de statistică Google Analytics, adrese IP etc.

http://www.connotate.com/solutions - o linie de produse pentru inteligența competitivă, managementul fluxului de informații și transformarea informațiilor în active informaționale. Include atât platforme complexe, cât și servicii simple ieftine care permit monitorizarea eficientă împreună cu comprimarea informațiilor și obținerea doar a rezultatelor necesare.

http://www.clearci.com/ - O platformă de inteligență competitivă pentru afaceri de diferite dimensiuni, de la start-up-uri și companii mici până la companii Fortune 500. Rezolvată ca saas.

http://startingpage.com/ este un supliment Google care vă permite să căutați pe Google fără a vă repara adresa IP. Acceptă pe deplin toate capabilitățile de căutare ale Google, inclusiv în limba rusă.

http://newspapermap.com/ este un serviciu unic foarte util pentru un cercetaș competitiv. Conectează geolocalizarea cu un motor de căutare media online. Acestea. alegeți regiunea de care sunteți interesat, sau chiar un oraș, sau limbă, pe hartă vedeți locul și o listă de versiuni online ale ziarelor și revistelor, faceți clic pe butonul corespunzător și citiți. Acceptă interfața rusă, foarte ușor de utilizat.

http://infostream.com.ua/ este o selecție foarte convenabilă, de primă clasă, destul de accesibilă pentru orice portofel, sistemul de monitorizare a știrilor Infostream de la unul dintre clasicii căutării pe Internet D.V. Lande.

http://www.instapaper.com/ este un instrument foarte simplu și eficient pentru salvarea paginilor web esențiale. Poate fi folosit pe computere, iPhone, iPad, etc.

http://screen-scraper.com/ - vă permite să extrageți automat toate informațiile din paginile web, să descărcați marea majoritate a formatelor de fișiere, să introduceți automat date în diferite forme. Stochează fișierele și paginile descărcate în baze de date și îndeplinește multe alte funcții extrem de utile. Funcționează pe toate platformele majore, are o versiune profesională complet funcțională gratuită și foarte puternică.

http://www.mozenda.com/ - un serviciu web de monitorizare web multifuncțională și livrare a informațiilor necesare utilizatorului de pe site-urile selectate, care are mai multe planuri tarifare și este disponibil chiar și pentru întreprinderile mici.

http://www.recipdonor.com/ - serviciul permite monitorizarea automată a tot ceea ce se întâmplă pe site-urile concurenților.

http://www.spyfu.com/ - și asta dacă aveți concurenți străini.

www.webground.su este un serviciu de monitorizare Runet creat de profesioniștii căutării pe Internet, care include toți furnizorii importanți de informații, știri etc., este capabil să monitorizeze setările individuale pentru nevoile utilizatorului.

CĂUTARE

https: // www .idmarch .org / - cel mai bun motor de căutare pentru arhiva mondială de documente pdf în ceea ce privește calitatea rezultatelor. În prezent, au fost indexate peste 18 milioane de documente pdf, de la cărți la rapoarte clasificate.

http://www.marketvisual.com/ este un motor de căutare unic care vă permite să căutați proprietari și top management după numele complet, numele companiei, funcția deținută sau combinația acestora. Rezultatele căutării conțin nu numai obiectele pe care le căutați, ci și link-urile acestora. Proiectat în principal pentru țările vorbitoare de engleză.

http://worldc.am/ este un motor de căutare a fotografiilor disponibil public legat de geolocalizare.

https://app.echosec.net/ este un motor de căutare open source care se descrie ca fiind cel mai avansat instrument analitic pentru forțele de ordine și securitate și informații. Vă permite să căutați fotografii postate pe diverse site-uri, platforme sociale și rețele sociale în legătură cu anumite coordonate de geolocalizare. În prezent, există șapte surse de date conectate. Până la sfârșitul anului, numărul lor va depăși 450. Mulțumim lui Dementiy pentru pont.

http://www.quandl.com/ - Un motor de căutare pentru șapte milioane de baze de date financiare, economice și sociale.

http://bitzakaz.ru/ - un motor de căutare pentru licitații și comenzi guvernamentale cu funcții suplimentare plătite

Website-Finder - face posibilă găsirea de site-uri care sunt prost indexate de Google. Singura limitare este că caută doar 30 de site-uri web pentru fiecare cuvânt cheie. Programul este ușor de utilizat.

http://www.dtsearch.com/ - cel mai puternic motor de căutare care vă permite să procesați terabytes de text. Funcționează pe desktop, internet și intranet. Suportă atât date statice, cât și dinamice. Vă permite să căutați în toate programele MS Office. Căutarea se bazează pe fraze, cuvinte, etichete, indici și multe altele. Singurul motor de căutare federal disponibil. Are atât versiuni plătite, cât și versiuni gratuite.

http://www.strategator.com/ - Căută, filtrează și agregează informații despre companie din zeci de mii de surse web. Căutări pentru SUA, Marea Britanie, principalele țări din CEE. Diferă prin relevanță ridicată, ușurință în utilizare, are o opțiune gratuită și plătită (14 USD pe lună).

http://www.shodanhq.com/ este un motor de căutare neobișnuit. Imediat după apariție, a primit porecla „Google pentru hackeri”. Nu caută pagini, ci determină adrese IP, tipuri de routere, computere, servere și stații de lucru situate la o anumită adresă, urmărește lanțurile de servere DNS și îți permite să implementezi multe alte funcții interesante pentru inteligența competitivă.

http://search.usa.gov/ - un motor de căutare pentru site-uri web și baze de date deschise ale tuturor agențiilor guvernamentale din SUA. Bazele de date conțin o mulțime de informații practice utile, inclusiv pentru utilizare în țara noastră.

http://visual.ly/ - Astăzi, vizualizarea este din ce în ce mai folosită pentru a reprezenta date. Este primul motor de căutare infografic de pe web. Alături de motorul de căutare, portalul are instrumente puternice de vizualizare a datelor care nu necesită abilități de programare.

http://go.mail.ru/realtime - căutați discuții despre subiecte, evenimente, obiecte, subiecte în timp real sau personalizat. Căutarea Mail.ru, foarte criticată anterior, funcționează foarte eficient și produce rezultate interesante, relevante.

Zanran este un nou început, dar este deja grozav de lucru, primul și singurul instrument de căutare de date, extragerea datelor din fișiere PDF, tabele EXCEL, date în pagini HTML.

http://www.ciradar.com/Competitive-Analysis.aspx este unul dintre cele mai bune motoare de căutare din lume pentru inteligența competitivă în deep web. Extrage aproape toate tipurile de fișiere în toate formatele pe un subiect de interes. Implementat ca serviciu web. Preturile sunt mai mult decat rezonabile.

http://public.ru/ - Căutare eficientă și analiză profesională a informațiilor, arhiva media din 1990. Biblioteca media online oferă o gamă largă de servicii de informare: de la acces la arhivele electronice ale publicațiilor media în limba rusă și recenzii de presă tematice gata făcute până la monitorizare individuală și studii analitice exclusive bazate pe materiale de presă.

Cluuz este un motor de căutare tânăr cu oportunități ample de inteligență competitivă, în special pe internetul vorbitor de engleză. Permite nu doar găsirea, ci și vizualizarea, stabilirea de conexiuni între persoane, companii, domenii, e-mail-uri, adrese etc.

www.wolframalpha.com este motorul de căutare de mâine. Ca răspuns la o interogare de căutare, emite informațiile statistice și faptice disponibile pe obiectul de interogare, inclusiv informațiile vizualizate.

www.ist-budget.ru - căutare universală în bazele de date cu achiziții guvernamentale, tranzacții, licitații etc.

Un motor de căutare este o bază de date cu informații specifice de pe Internet. Mulți utilizatori cred că de îndată ce introduc o interogare într-un motor de căutare, încep imediat să scaneze întregul Internet, dar nu este deloc așa. Internetul este scanat constant, de multe programe, datele despre site-uri sunt introduse într-o bază de date, unde, după anumite criterii, toate site-urile și toate paginile lor sunt distribuite în diverse tipuri de liste și baze de date. Adică este un fel de dulap de fișiere de date, iar căutarea nu are loc pe Internet, ci conform acestui cabinet de fișiere.

Motoare de căutare populare

Yandex este cel mai mare motor de căutare de pe internetul rusesc.

Pe lângă motorul de căutare, Yandex oferă 77 de servicii suplimentare, dintre care cele mai populare sunt serviciul de e-mail Yandex, browser Yandex, disc Yandex, informații despre trafic și vreme, bani Yandex și multe altele. Motorul de căutare ia în considerare locația dvs. atunci când afișează rezultatele căutării. De asemenea, programul de căutare este în permanență modernizat pentru a oferi rezultate mai corecte, concepute pentru cel mai mare conținut de informații pentru utilizator.

Google este cel mai popular motor de căutare din lume.

Pe lângă motorul de căutare, Google oferă multe servicii suplimentare, software și hardware, inclusiv un serviciu de e-mail, browserul Google Chrome, cea mai mare bibliotecă video de pe youtube și multe alte proiecte. Google cumpără cu încredere multe proiecte care generează profituri mari. Majoritatea serviciilor nu sunt destinate utilizatorilor direcți, ci să facă bani pe internet și sunt integrate cu accent pe interesele utilizatorilor europeni și americani.

Mail este un motor de căutare popular în principal pentru serviciul său de e-mail.

Există multe servicii suplimentare, a căror cheie este Mail, în acest moment compania Mail deține rețeaua socială Odnoklassniki, propria rețea „My World”, serviciul Money-mail, multe jocuri online, trei browsere aproape identice cu nume diferite. . Toate aplicațiile și serviciile au o mulțime de conținut publicitar. Rețeaua socială VKonatkte blochează conexiunile directe la serviciile de e-mail, agregând un număr mare de viruși.

Wikipedia.

Wikipedia este un sistem de ajutor pentru căutare.

Un motor de căutare non-profit alimentat de donații private, deci nu populează paginile cu anunțuri. Un proiect multilingv al cărui scop este de a crea o enciclopedie de referință completă în toate limbile lumii. Nu are contribuitori anumiți, este completat și gestionat de voluntari din toată lumea. Fiecare utilizator poate să scrie și să editeze articolul.

Pagina oficială este www.wikipedia.org.

Youtube este cea mai mare bibliotecă de fișiere video.

Găzduire video cu elemente ale unei rețele de socializare, unde fiecare utilizator poate adăuga un videoclip. Din momentul în care au fost achiziționate de Google Ink, nu este necesară o înregistrare separată pentru YouTube, este suficient să vă înregistrați la serviciul de e-mail Google.

Pagina oficială este youtube.com.

Yahoo! - al doilea cel mai important motor de căutare din lume.

Există servicii suplimentare, dintre care cel mai faimos este Yahoo mail. Ca parte a îmbunătățirii calității motorului de căutare, Yahoo trimite date despre utilizatori și întrebările acestora către Microsoft. Din aceste date, se formează o idee despre interesele utilizatorilor, precum și o piață pentru conținut publicitar. Motorul de căutare Yahoo, precum și, este implicat în preluări ale altor companii, de exemplu, Yahoo deține serviciul de căutare Altavista și site-ul de comerț electronic Alibaba.

Pagina oficială este www.yahoo.com.

WDL este o bibliotecă digitală.

Biblioteca colectează cărți care oferă valoare culturală în formă digitală. Scopul principal este creșterea nivelului de conținut cultural pe Internet. Accesul la bibliotecă este gratuit.

Pagina oficială este www.wdl.org/ru/.

Bing este un motor de căutare de la Microsoft.

Pagina oficială este www.baidu.com.

Motoare de căutare în Rusia

Rambler este un motor de căutare „pro-american”.

A fost creat inițial ca un portal media de internet. La fel ca multe alte motoare de căutare, are servicii de căutare de imagini, fișiere video, hărți, prognoză meteo, secțiune de știri și multe altele. Editorii oferă, de asemenea, un browser Rambler-Nichrome gratuit.

Pagina oficială este www.rambler.ru.

Nigma este un motor de căutare inteligent.

Motor de căutare mai convenabil datorită prezenței multor filtre și setări. Interfața vă permite să includeți sau să excludeți valori similare sugerate în căutarea unor rezultate mai bune. De asemenea, atunci când primiți un rezultat de căutare, vă permite să utilizați informațiile altor motoare de căutare majore.

Pagina oficială este www.nigma.ru.

Aport - catalog online de mărfuri.

În trecut, motorul de căutare, dar în urma faptului că dezvoltarea și inovațiile au fost întrerupte, a pierdut rapid teren și. În acest moment, Aport este o platformă de tranzacționare în care sunt prezentate bunuri de la peste 1.500 de companii.

Pagina oficială este www.aport.ru.

Sputnik este un motor de căutare național și un portal de internet.

Creat de Rostelecom. În prezent este în curs de testare.

Pagina oficială este www.sputnik.ru.

Metabot este un motor de căutare în evoluție.

Sarcinile Metabot sunt de a crea un motor de căutare pentru toate celelalte motoare de căutare, creând poziții pentru emiterea de rezultate, ținând cont de datele întregii liste de motoare de căutare. Adică este un motor de căutare pentru motoarele de căutare.

Pagina oficială este www.metabot.ru.

Motorul de căutare a fost suspendat.

Pagina oficială este www.turtle.ru.

KM este un multi-portal.

Inițial, site-ul a fost un multi-portal cu introducerea ulterioară a unui motor de căutare. Căutarea poate fi efectuată atât în ​​cadrul site-ului, cât și pe toate site-urile urmărite de pe internetul rusesc.

Pagina oficială - www.km.ru.

Gogo - nu funcționează, redirecționează către un motor de căutare.

Pagina oficială - www.gogo.ru.

Multiportalul rusesc, nu foarte popular, are nevoie de ceva lucru. Motorul de căutare include știri, televiziune, jocuri, o hartă.

Pagina oficială este www.zoneru.org.

Motorul de căutare nu funcționează, dezvoltatorii sugerează utilizarea motorului de căutare.

Pagina oficială - www.au.ru.

Motoarele de căutare (SE) au fost o parte indispensabilă a Internetului de ceva timp. Astăzi sunt mecanisme uriașe și complexe, care nu sunt doar un instrument pentru găsirea oricăror informații necesare, ci și domenii destul de interesante pentru afaceri.


Mulți utilizatori de căutare nu s-au gândit niciodată la principiile muncii lor, la modalitățile de procesare a cererilor utilizatorilor, la modul în care sunt construite și funcționează aceste sisteme. Acest material va ajuta oamenii care sunt implicați în optimizare și să înțeleagă structura și funcțiile de bază ale motoarelor de căutare.

Funcții și concept de PS

Sistem de căutare Este un complex hardware și software care este conceput pentru a îndeplini funcția de căutare pe Internet și răspunde la o solicitare a utilizatorului, care este de obicei stabilită sub forma unei fraze text (sau, mai precis, a unei interogări de căutare), prin emiterea o listă de link-uri către sursele de informare, realizată în funcție de relevanță. Cele mai comune și mai mari motoare de căutare sunt Google, Bing, Yahoo, Baidu. În Runet - Yandex, Mail.Ru, Rambler.

Să aruncăm o privire mai atentă asupra sensului însuși al interogării de căutare, luând ca exemplu sistemul Yandex.

Solicitarea trebuie formulată de utilizator în deplină concordanță cu subiectul căutării sale, cât mai simplu și concis posibil. De exemplu, dorim să găsim informații în acest motor de căutare: „cum să alegi o mașină pentru tine”. Pentru a face acest lucru, deschideți pagina principală și introduceți o interogare de căutare „cum să alegi o mașină”. Apoi, funcțiile noastre se rezumă la urmărirea legăturilor furnizate către sursele de informații din rețea.




Dar chiar și acționând în acest fel, este posibil să nu obțineți informațiile de care avem nevoie. Dacă am primit un astfel de rezultat negativ, trebuie doar să-ți reformezi cererea sau în baza de căutare chiar nu există informații utile despre acest tip de solicitare (acest lucru este foarte posibil cu parametrii de interogare „îngust”, cum ar fi , de exemplu, „cum să alegi o mașină în Anadyr „).

Sarcina cea mai de bază a oricărui motor de căutare este de a oferi oamenilor exact tipul de informații de care au nevoie. Și este practic imposibil să instruiți utilizatorii să creeze tipul „corect” de interogări către motoarele de căutare, adică expresii care să corespundă principiilor lor de lucru.

De aceea, dezvoltatorii motoarelor de căutare creează astfel de principii și algoritmi pentru munca lor, care ar permite utilizatorilor să găsească informațiile de care sunt interesați. Aceasta înseamnă că sistemul trebuie să „gândească” la fel cum gândește o persoană când caută informațiile necesare pe Internet.

Când își introduce interogarea într-un motor de căutare, vrea să găsească ceea ce are nevoie, cât mai ușor și rapid posibil. După ce a primit rezultatul, utilizatorul își face propria evaluare a funcționării sistemului, ghidat de mai multe criterii. A reușit să găsească informațiile de care avea nevoie? Dacă nu, de câte ori a trebuit să reformateze textul de interogare pentru a-l găsi? Cât de relevante au fost informațiile primite? Cât de repede i-a procesat motorul de căutare cererea? Cât de convenabile au fost furnizate rezultatele căutării? Rezultatul dorit a fost primul sau a fost pe locul 30? Câte deșeuri (informații inutile) au fost găsite împreună cu informații utile? Vor exista informații relevante pentru el, când folosește PS, într-o săptămână sau într-o lună?




Pentru a obține răspunsurile corecte la astfel de întrebări, dezvoltatorii de căutare îmbunătățesc constant principiile de clasare și algoritmii săi, adăugându-le noi caracteristici și funcții și, prin orice mijloace, încearcă să facă sistemul să funcționeze mai rapid.

Principalele caracteristici ale motoarelor de căutare

Să desemnăm principalele caracteristici ale căutării:

Completitudine.

Completitudinea este una dintre cele mai importante caracteristici ale unei căutări, este raportul dintre numărul de documente informative găsite la cerere și numărul lor total pe Internet aferent acestei solicitări. De exemplu, există 100 de pagini pe Internet care au expresia „cum să alegi o mașină”, iar pentru aceeași interogare, au fost selectate doar 60 din total, atunci în acest caz caracterul complet al căutării va fi de 0,6. Este clar că, cu cât căutarea în sine este mai completă, cu atât este mai probabil ca utilizatorul să găsească exact documentul de care are nevoie, desigur, dacă acesta există.

Precizie.

O altă funcție principală a unui motor de căutare este acuratețea. Determină gradul de corespondență cu solicitarea utilizatorului a paginilor găsite pe Web. De exemplu, dacă există sute de documente pentru expresia cheie „cum să alegi o mașină”, jumătate dintre ele conțin această expresie, iar restul pur și simplu conțin astfel de cuvinte (cum să alegi corect un radio auto și să-l instalezi într-o mașină " ), atunci precizia căutării este egală cu 50/100 = 0,5.

Cu cât căutarea este mai precisă, cu atât utilizatorul va găsi mai repede informațiile de care are nevoie, cu atât mai puține „gunoaie” vor fi găsite printre rezultate, cu atât mai puține documente găsite nu vor corespunde sensului interogării.

Relevanţă.

Aceasta este o componentă semnificativă a căutării, care se caracterizează prin timpul care trece de la momentul publicării informațiilor pe Internet până la introducerea lor în baza de index a motorului de căutare.

De exemplu, a doua zi după ce au apărut informațiile despre lansarea noului iPad, mulți utilizatori au apelat la căutarea cu tipurile corespunzătoare de interogări. În majoritatea cazurilor, informațiile despre această știre sunt deja disponibile în căutare, deși a trecut foarte puțin timp de la apariția ei. Acest lucru se datorează faptului că marile motoare de căutare au o „bază rapidă”, care este actualizată de mai multe ori pe zi.

Viteza de căutare.

O funcție precum viteza de căutare este strâns legată de așa-numita „rezistență la sarcină”. În fiecare secundă, un număr mare de persoane apelează la căutare, un astfel de volum de muncă necesită o reducere semnificativă a timpului de procesare a unei cereri. Aici, interesele atât ale motorului de căutare, cât și ale utilizatorului coincid complet: vizitatorul dorește să obțină rezultate cât mai repede, iar motorul de căutare trebuie să-și proceseze cererea cât mai repede pentru a nu încetini procesarea solicitărilor ulterioare.

Vizibilitate.

O prezentare clară a rezultatelor este un element esențial al confortului căutării. Pentru multe interogări, motorul de căutare găsește mii și, în unele cazuri, milioane de documente diferite. Din cauza compoziției neclare a frazelor cheie pentru căutare sau a inexactității acesteia, chiar și primele rezultate ale unei interogări nu au întotdeauna doar informațiile necesare.

Aceasta înseamnă că o persoană trebuie adesea să facă propria căutare printre rezultatele furnizate. Diverse componente ale paginilor cu rezultate ale motorului de căutare ajută la navigarea în rezultatele căutării.

Istoria dezvoltării motoarelor de căutare

Când Internetul a început să se dezvolte, numărul utilizatorilor săi obișnuiți era mic, iar cantitatea de informații de accesat era relativ mică. Practic, doar specialiştii din domeniile de cercetare au avut acces la această reţea. La acel moment, sarcina de a găsi informații nu era la fel de urgentă ca acum.

Una dintre cele mai timpurii metode de organizare a accesului larg la resursele informaționale a fost crearea de cataloage de site-uri, iar linkurile către acestea au început să fie grupate pe subiecte. Acest prim proiect a fost resursa Yahoo.com, care a fost deschisă în primăvara anului 1994. Ulterior, când numărul de site-uri din directorul Yahoo a crescut semnificativ, a fost adăugată o opțiune de căutare a informațiilor necesare în director. Nu era încă pe deplin un motor de căutare, deoarece zona unei astfel de căutări era limitată doar la site-urile incluse în acest director și nu la absolut toate resursele de pe Internet. Directoarele de linkuri au fost utilizate pe scară largă anterior, dar acum și-au pierdut aproape complet popularitatea.

La urma urmei, chiar și cataloagele uriașe de astăzi au informații despre o parte nesemnificativă a site-urilor de pe Internet. Cel mai faimos și cel mai mare director din lume are informații pe cinci milioane de site-uri, când baza de date Google conține informații pe peste 25 de miliarde de pagini.




Primul motor de căutare real a fost WebCrawler, care a apărut în 1994.

În anul următor, au apărut AltaVista și Lycos. Mai mult, primul a fost lider în căutarea de informații pentru o perioadă foarte lungă de timp.




În 1997, Sergey Brin, împreună cu Larry Page, au creat motorul de căutare Google ca proiect de cercetare la Universitatea Stanford. Astăzi este Google, cel mai solicitat și popular motor de căutare din lume.




În septembrie 1997, a fost anunțat PS Yandex (oficial), care este în prezent cel mai popular motor de căutare de pe Runet.




Conform datelor de pe septembrie 2015, cotele motoarelor de căutare din lume sunt distribuite după cum urmează:
  • Google - 69,24%;
  • Bing - 12,26%;
  • Yahoo! - 9,19%;
  • Baidu - 6,48%;
  • AOL - 1,11%;
  • Întrebați - 0,23%;
  • Excitație - 0,00%


Conform datelor de pe decembrie 2016, ponderea motoarelor de căutare în Runet:

  • Yandex - 48,40%
  • Google - 45,10%
  • Search.Mail.ru - 5,70%
  • Rambler - 0,40%
  • Bing - 0,30%
  • Yahoo - 0,10%

Cum funcționează motorul de căutare

În Rusia, principalul motor de căutare este Yandex, apoi Google și apoi [email protected]. Toate motoarele de căutare mari au propria lor structură, care este foarte diferită de celelalte. Totuși, putem evidenția elementele de bază comune tuturor motoarelor de căutare.

Modul de indexare.

Această componentă constă din trei programe de robot:

Păianjen(în engleză spider) - un program care este conceput pentru a descărca pagini web. Păianjenul descarcă o anumită pagină, extragând simultan toate linkurile din ea. Codul html este descărcat de aproape fiecare pagină. Pentru a face acest lucru, roboții folosesc protocoale HTTP.




„Pianjenul” funcționează după cum urmează. Robotul trimite cererea către server „get / path / document” și alte comenzi de solicitare HTTP. Ca răspuns, programul robot primește un flux de text care conține informații de tip serviciu și, desigur, documentul în sine.
  • URL-ul paginii descărcate;
  • data la care pagina a fost descărcată;
  • antet de răspuns http server;
  • codul html, „corpul” paginii.
Tractor pe şenile Păianjen („călător”). Acest program merge automat la toate linkurile care se găsesc pe pagină și, de asemenea, le evidențiază. Sarcina sa este de a determina unde ar trebui să meargă păianjenul în viitor, pe baza acestor legături sau pe baza unei anumite liste de adrese.

Indexator(un robot de indexare) este un program care analizează paginile pe care păianjenii le-au descărcat.



Indexatorul parsează complet pagina în elementele sale constitutive și le analizează folosind tipurile morfologice și lexicale de algoritmi.

Analiza este efectuată pe diferite părți ale paginii, cum ar fi titluri, text, link-uri, caracteristici de stil și structura, etichete html etc.

Astfel, modulul de indexare face posibilă urmărirea legăturilor unui anumit număr de resurse, descărcarea paginilor, extragerea masei de linkuri către pagini noi din documentele primite și analiza detaliată a acestora.

Bază de date

Bază de date(sau indexul motorului de căutare) este un complex de stocare a datelor, o serie de informații în care parametrii fiecărui document descărcat și procesat procesat de modulul de indexare sunt stocați într-un anumit mod.

Server de căutare

Acesta este cel mai important element al întregului sistem, deoarece viteza și, bineînțeles, calitatea căutării depind direct de algoritmii care stau la baza funcționalității acestuia.

Motorul de căutare funcționează după cum urmează:

  • Solicitarea care vine de la utilizator este supusă analizei morfologice. Se generează mediul informațional al oricărui document disponibil în baza de date (va fi afișat în continuare sub formă de fragment, adică câmpul de informații al textului corespunzător acestei solicitări).
  • Datele primite sunt transmise ca parametri de intrare la un modul de clasare specializat. Ele sunt procesate pentru toate documentele și, ca urmare, pentru fiecare astfel de document, se calculează propriul rating, care caracterizează relevanța unui astfel de document pentru solicitarea utilizatorului și alte componente.
  • În funcție de condițiile stabilite de utilizator, acest rating poate fi ajustat prin altele suplimentare.
  • Apoi este generat fragmentul în sine, adică pentru orice document găsit, din tabelul corespunzător sunt extrase un titlu, o adnotare care răspunde cel mai bine solicitării și un link către acest document, în timp ce formele și cuvintele găsite sunt evidențiate.
  • Rezultatele căutării rezultate sunt transmise persoanei care a efectuat-o sub forma unei pagini căreia îi sunt date rezultatele căutării (SERP).
Toate aceste elemente sunt strâns interconectate și funcționează, interacționând, formând un mecanism distinct, dar destul de complicat pentru funcționarea PS, care necesită cheltuieli uriașe de resurse.

Am lansat o nouă carte, „Marketing de conținut pe rețelele sociale: cum să intri în fruntea abonaților și să te îndrăgostești de marca ta”.

Aboneaza-te la

Dacă înțelegi ceva cu adevărat, atunci pe deplin. Și dacă sunteți abonat la blogul nostru, atunci probabil că doriți să deveniți un specialist cool sau doriți să aflați mai multe despre căutarea online. Pentru a obține ceea ce îți dorești - trucurile și trucurile de viață nu sunt suficiente. Trebuie să-ți lărgi orizonturile.

Un motor de căutare este un program mare și complex conceput pentru a găsi informații pe Internet.

Te-ai întrebat vreodată cum a apărut ceea ce folosim zilnic, care există pe Internet și de ce toate studiourile funcționează numai cu și? Nu ar trebui să amânați astfel de întrebări. Doar 10 minute și iată un alt subiect de conversație pe care îl poți susține cu ușurință.

Cum au apărut motoarele de căutare

Cândva, când internetul era tânăr și verde...

Utilizatorii, care, trebuie să spun, erau foarte puțini, aveau propriile lor marcaje. Dar acest lucru nu a durat mult: în curând a devenit dificil pentru o persoană să navigheze în diversitatea care a apărut în rețea într-un timp scurt.

Și pentru a eficientiza cumva haosul, au fost inventate directoare Yahoo, DMOZ și altele (unele există până în zilele noastre), în care autorii adăugau și sortau site-urile emergente pe categorii. Pentru o vreme, viața a devenit mai ușoară.

Dar internetul a continuat să se extindă și, în curând, dimensiunea directoarelor a devenit ceva uluitor de gigantic. Apoi, dezvoltatorii s-au gândit pentru prima dată să caute în directoare și abia apoi să creeze un sistem de indexare automată pentru tot ce este pe Internet, pentru a simplifica munca tuturor utilizatorilor.

Așa au apărut primii roboți de căutare.

Care motor de căutare a fost primul

Se ia în considerare primul motor de căutare Wandex (bine, confundat cu Yandex!).Acestea și alte servicii timpurii, desigur, au fost departe de a fi perfecte. Într-o interogare de căutare, au oferit ceva complet diferit de ceea ce suntem obișnuiți să vedem acum, de exemplu. nu cel mai mult relevante pagini, dar toate la rând, ignorând clasamentul. La 1 ianuarie 2012, Wandex a fost relansat.

Așa și-a început activitatea primul PS.Care sunt motoarele de căutarepe internetul modern? Atasez o lista.

Motoarele de căutare sunt: ​​regii ringului de dans

În mod surprinzător, sunt cei care se ceartăcum este mai bine motorul de cautare... Nu aș face asta, pur și simplu pentru că sunt diferite și, în general, totul depinde de scop și de ce fel de utilizator ești.

Yandex.

Acesta este cel mai popular motor de căutare din țara noastră. LiveInternet susține că Yandex sunt utilizate de 50,9%, în timp ce Google reprezintă 40,6% (date din iunie 2015).

Există un astfel de mit, spun ei, există de multe ori mai multe cereri comerciale în Yandex decât cele ale celui mai apropiat concurent. De câteva ori am dat peste ideea că, datorită regionalității perfecționate de-a lungul anilor, tipul de audiență sau numărul acesteia pot diferi - acesta este motivul superiorității Yandex în interogările comerciale. Deci nu crede. Ei mint.

Google

Motorul de căutare Google este cel mai popular peste tot, cu excepția Rusiei :) Are o mulțime de posibilități în diferite direcții. În general, liderul mondial de necontestat printre roboții de căutare.

Google însuși a apărut aproximativ împreună cu Yandex și a venit la noi în Rusia abia în 2004, când Yandex și-a consolidat poziția.

Procesul de căutare pe Google a devenit deja un nume cunoscut pentru mulți pământeni. Dar când îi spun mamei mele „Google”, ea continuă să caute informațiile de care are nevoie în Yandex :) Ea nu știe delocce motoare de căutare există pe Internet.

Care sunt motoarele de căutare: o listă de motoare de căutare puțin cunoscute

Majoritatea internauților nici măcar nu știucare sunt motoarele de căutare în afară de Yandexși Google. Deci iată-i;) Faceți cunoștință!

Cota de căutare a acestui motor de căutare cu greu poate fi numită mare, dar indicatorii cresc încet. Deși nu trebuie trecut cu vederea faptul că aceste cifre depind direct de Odnoklassniki, mail.ru mail și alte lucruri de la Mail Corporation.

Aceasta este o adevărată școală veche. Imaginați-vă: când a apărut acest motor de căutare, unii SEO tocmai învățau să meargă. În general, Rambler a avut șansa de a controla mingea, dar acest lucru nu s-a întâmplat din mai multe motive. În prezent, nu mai este un motor de căutare, ci un fel de set de servicii care utilizează motorul Yandex ca motor de căutare - de exemplu, au propriul lor. Prezența, apropo, este destul de decentă: puțin mai mult de un milion de utilizatori vizitează pagina de pornire Rambler pe zi.

Rambler are și o versiune Rambler Lite (tot la fel, doar fără vreme, știri, reclame etc.) și XRambler , care combină 15 motoare de căutare simultan.

Câte nume s-a schimbat acest motor de căutare! Timp de 8 ani, a reușit să calomnieze numele MSN Search, apoi Windows Live Search, apoi a scurtat numele anterior la Live Search și acum a ajuns la numele Bing. Mulți susțin că calitatea căutării este aproape de standardul Google.

Acum este dificil să-l numești pe Yahu motor de căutare, deoarece, conform acordului, motorul de căutare Bing este folosit pe toate site-urile deținute de Yahu. Cele mai recente știri despre contract pot fi găsite la Motoare de căutare.

Webalta

Cu siguranță acest așa-numit motor de căutare vă este familiar. A trebuit să-l scoți ca pe o căpușă din browser?De mult timp, toată lumea știe despre faptele întunecate ale acestui motor de căutare. Din păcate, pe nimeni nu este interesat de acest PS. Utilizatorii caută doar articole despre cum să îndepărteze acest gunoi din computerul lor.

Nygma

Acest motor de căutare este foarte diferit de restul. Și dacă nu veți surprinde pe nimeni cu baza de index a altor motoare de căutare, atunci capacitatea de a rezolva probleme de chimie și matematică distinge Nigma de alte PS-uri. Nigma oferă, de asemenea, căutare pentru muzică, cărți, jocuri și torrente.

Motorul de căutare, comandat de guvernul rus, este considerat primul motor de căutare de stat din lume. Oferă o căutare medicală separată (căutare farmacii, medicamente și articole despre boli). Un subiect foarte convenabil cu „Țara convenabilă”, unde toate recomandările care ajută un cetățean sunt adunate într-un singur loc. De exemplu, secțiunea „Documente”.

Acest PS este semnificativ diferit de acestacare sunt motoarele de căutare de pe internet. DuckDuckGo - motor de căutare sursă deschisă și o politică interesantă de a nu folosi balonul de filtru. Pentru cei care nu știu: o „bulă de filtrare” este atunci când un motor de căutare arată în rezultatele căutării doar acele rezultate de căutare pe care (acest PS) le consideră necesare pentru un anumit utilizator. În același timp, opinia utilizatorului însuși nu interesează pe nimeni. DuckDuckGo se asigură că utilizarea motorului lor de căutare vă va asigura că veți obține toate informațiile pe care le are motorul de căutare.

„Duck Duck Go” câștigă amploare. Deja în această vară (2015), creatorul PS a raportat trei miliarde de solicitări în termeni anuali.

În timp ce scriam acest articol, am avut câteva întrebări. În astfel de cazuri, nu mă bazez pe emisiune, da, și de ce, dacă lângă mine este o persoană care știe totul despre Internet? Mini-interviu cu Igor Ivanov.

Igor Ivanov

Seful studioului SEMANTICA

Dacă site-ul meu este în Google și Yandex, va fi site-ul meu în fruntea rezultatelor căutării în alte motoare de căutare mai mici?

Există o probabilitate foarte mare ca așa să fie. Yandex și Google își dezvoltă algoritmii în direcția corectă, iar alte motoare de căutare le urmează exemplul. A existat un caz în care specialiștii Google au observat că motorul de căutare Bing nu le copia doar algoritmii, ci și rezultatele căutării.

De ce probabilitate și nu certitudine totală? Pentru că alte motoare de căutare nu vor avea timp să-și ajusteze algoritmii de clasare la standardul stabilit de concurenții lor mai de succes.

Merită să fie promovat în Sputnik, Mile și alte motoare de căutare „noaste”? Care motor de căutare este cel mai bun?

Top articole similare