Motoare de căutare. Găsirea informațiilor pe web

11.08.2019 Siguranță

Un medic postuniversitar poate găsi pe internet articole științifice pentru redactarea unei recenzii a literaturii a unei teze de doctorat în medicină, articole într-o limbă străină pentru pregătirea pentru examenul minim de candidat, o descriere a metodelor moderne de cercetare și multe altele...

Cum să căutați informații pe Internet folosind motoarele de căutare va fi discutat în acest articol.

Pentru cei care nu sunt încă foarte familiarizați cu concepte precum site, server, vă ofer câteva informații de bază despre Internet.

Internetul este un ansamblu de site-uri găzduite pe servere, unite prin canale de comunicație (linie telefonică, fibră optică și satelit).

Un site este o colecție de documente în format html (pagini de site) legate prin hyperlinkuri.

Un site mare (de exemplu, „Medlink” - directorul tematic medical http://www.medlinks.ru - este format din 30.000 de pagini, iar spațiul pe disc pe care îl ocupă pe server este de aproximativ 400 MB).
Un site mic este format din câteva zeci - sute de pagini și ocupă 1 - 10 Mb (de exemplu, site-ul meu „Doctor-student” din 25 iulie 2004 era format din 280 de pagini .htm și ocupa 6 Mb pe server).

Un server este un computer conectat la Internet și care funcționează non-stop. Serverul poate găzdui simultan de la câteva sute la câteva mii de site-uri.

Site-urile găzduite pe un computer server pot fi vizualizate și copiate de utilizatorii de Internet.

Pentru a asigura accesul neîntrerupt la site-uri, serverul este alimentat prin surse de alimentare neîntreruptibile, iar camera în care funcționează serverele (centrul de date) este dotată cu sistem automat de stingere a incendiilor, iar personalul tehnic este organizată non-stop. .

Pentru mai bine de 10 ani de existență, Runet (Internetul vorbitor de limbă rusă) a devenit o structură ordonată, iar căutarea de informații pe Web a devenit mai previzibilă.

Instrumentul principal pentru găsirea de informații pe Internet sunt motoarele de căutare.

Motorul de căutare este format dintr-un program spider care accesează cu crawlere site-urile Internet și o bază de date (index), care conține informații despre site-urile vizitate.

La cererea webmasterului, un robot păianjen intră pe site și se uită prin paginile site-ului, introducând informații despre paginile site-ului în indexul motorului de căutare. Un motor de căutare poate găsi un site singur, chiar dacă webmasterul său nu a solicitat înregistrarea. Dacă un link către un site apare undeva pe calea unui motor de căutare (pe un alt site, de exemplu), atunci acesta va indexa imediat site-ul.

Păianjenul nu copiază paginile site-ului în indexul motorului de căutare, ci salvează informații despre structura fiecărei pagini a site-ului - de exemplu, ce cuvinte apar în document și în ce ordine, adresele hyperlink-urilor a paginilor site-ului, dimensiunea documentului în kiloocteți, data creării acestuia și multe altele. Prin urmare, indexul motorului de căutare este de câteva ori mai mic decât volumul de informații indexate.

Ce și cum caută un motor de căutare pe Internet?

Motorul de căutare a fost inventat de oameni pentru a-i ajuta să caute informații. Ce este informația în înțelegerea noastră umană și reprezentarea vizuală? Nu sunt mirosuri sau sunete, nu sunt senzații sau imagini. Acestea sunt doar cuvinte, text. Când căutăm ceva pe Internet, cerem cuvinte - o interogare de căutare, iar ca răspuns sperăm să primim un text care să conțină exact aceste cuvinte. Pentru că știm că motorul de căutare va căuta exact cuvintele pe care le-am cerut în șirul de informații. Pentru că așa a fost concepută să caute cuvinte.

Motorul de căutare nu caută cuvinte pe Internet, ci în indexul său. Indexul motorului de căutare conține informații doar despre un număr mic de site-uri de internet. Există motoare de căutare care indexează numai site-uri în limba engleză și există motoare de căutare care listează numai site-uri în limba rusă în indexul lor.

(indexul conține site-uri în engleză, germană și alte limbi europene)

Motoarele de căutare Runet(indexul conține site-uri în rusă)

Caracteristicile unor motoare de căutare de pe Runet

Motorul de căutare Google nu ține cont de morfologia limbii ruse. De exemplu, Google consideră că cuvintele „disertație” și „disertație” sunt diferite.

Este necesar să vizualizați nu numai prima pagină a rezultatului interogării de căutare, ci și restul.

Pentru că de multe ori site-urile care conțin informații cu adevărat necesare utilizatorului sunt situate pe paginile 4 - 10 din rezultatul interogării de căutare.

De ce se întâmplă asta? În primul rând, mulți constructori de site-uri web nu își optimizează paginile site-ului pentru motoarele de căutare, de exemplu, nu includ metaetichete în paginile site-ului lor.

Etichetele meta sunt elemente de serviciu ale unui document web care nu sunt vizibile pe ecran, dar sunt importante atunci când motoarele de căutare vă găsesc site-ul. Meta tag-urile facilitează căutarea de către motoarele de căutare, astfel încât să nu fie nevoiți să intre în adâncime în document și să analizeze întregul text al site-ului pentru a întocmi o anumită imagine despre acesta. Cea mai importantă metaetichetă este meta NAME = „keywords” – cuvinte cheie ale paginii site-ului. Dacă un cuvânt din textul principal al documentului nu este considerat „spam de căutare” și se află în „cuvinte cheie” printre primele 50, atunci ponderea acestui cuvânt în interogare crește, adică documentul capătă o relevanță mai mare .

În al doilea rând, există o competiție acerbă între webmasterii site-urilor pentru primele poziții în rezultatul unei interogări de căutare.

Conform statisticilor, 80% dintre vizitatorii site-ului provin din motoarele de căutare. Mai devreme sau mai târziu, webmasterii își dau seama de acest lucru și încep să-și adapteze site-urile la legile motoarelor de căutare.

Din păcate, unii dintre creatorii site-ului folosesc o metodă necinstită de a-și promova site-ul prin motoarele de căutare - așa-numitul „search spam” pentru a crea ceea ce pare a fi o potrivire între conținutul meta-etichetelor și restul textului. site - plasează cuvinte ascunse pe paginile site-ului, tastate în culoarea de fundal, astfel încât să nu interfereze cu vizitatorii site-ului. Cu toate acestea, creatorii motoarelor de căutare țin evidența unor astfel de trucuri și site-ul „cautătorului de spam” cade de la înălțimile atinse până la fund.

Pe Internet, metaforele și comparațiile figurative sunt de puțin folos. Ele denaturează adevărul, îi îndepărtează pe utilizatorii de internet de informații exacte și lipsite de ambiguitate. Cu cât mai puțină artă și mai multă acuratețe în stilul autorului site-ului, cu atât site-ul ocupă poziții mai mari în rezultatele căutării.

La rândul său, dacă vrei ca un motor de căutare să găsească articole pentru tine pe Internet, gândește-te ca o mașinărie, devii o mașină. Cel puțin pentru o vreme. La momentul căutării.

Motoare de căutare

Motoarele de căutare vă permit să găsiți documente WWW legate de un anumit subiect sau prevăzute cu cuvinte cheie sau combinații ale acestora. Motoarele de căutare gestionează două metode de căutare:

· Prin ierarhia conceptelor;

· Prin cuvinte cheie.

Serverele de căutare sunt completate automat sau manual. Motorul de căutare are de obicei link-uri către restul motoarelor de căutare și le trimite o cerere de căutare la cererea utilizatorului.

Există două tipuri de motoare de căutare.

1. Motoare de căutare „text complet” care indexează fiecare cuvânt de pe o pagină web, excluzând cuvintele oprite.

2. Motoarele de căutare „abstracte” care creează un rezumat al fiecărei pagini.

Pentru webmasteri, mașinile full-text sunt mai utile, deoarece orice cuvânt care apare pe o pagină web este analizat pentru a determina relevanța acestuia pentru solicitările utilizatorilor. Cu toate acestea, mașinile abstracte pot indexa paginile mai bine decât cele cu text integral. Depinde de algoritmul de extragere a informațiilor, de exemplu, de frecvența utilizării acelorași cuvinte.

Principalele caracteristici ale motoarelor de căutare.

1. Mărimea motorului de căutare este determinată de numărul de pagini indexate. Cu toate acestea, în orice moment, linkurile furnizate ca răspuns la solicitările utilizatorilor pot avea vârste diferite. Motivele pentru care se întâmplă acest lucru:

· Unele motoare de căutare indexează imediat pagina la cererea utilizatorului, iar apoi continuă să indexeze paginile care nu au fost încă indexate.

· Alții sunt mai probabil să indexeze cele mai populare pagini web.

2.Data indexării. Unele motoare de căutare arată data la care documentul a fost indexat. Acest lucru ajută utilizatorul să determine când a apărut documentul pe web.

3. Profunzimea indexării arată câte pagini după cea specificată va indexa motorul de căutare. Majoritatea mașinilor nu au limite de adâncime de indexare. Motive pentru care nu toate paginile pot fi indexate:

· Utilizarea incorectă a structurilor de cadru.

Utilizarea unui sitemap fără duplicarea link-urilor obișnuite

4. Lucrul cu rame. Dacă robotul de căutare nu știe cum să lucreze cu structuri de cadre, atunci multe structuri cu cadre vor fi omise în timpul indexării.

5. Frecvența legăturilor. Motoarele de căutare majore pot determina popularitatea unui document în funcție de cât de des este referit. Unele mașini, pe baza unor astfel de date, „conclud” dacă merită sau nu indexarea unui document.

6. Frecvența actualizării serverului. Dacă serverul este actualizat frecvent, motorul de căutare îl va reindexa mai des.

7. Controlul indexării. Arată prin ce mijloace poate fi controlat motorul de căutare.

8 redirecționare. Unele site-uri redirecționează vizitatorii de la un server la altul, iar acest parametru arată cum va fi legat de documentele găsite.

9. Cuvinte oprite. Unele motoare de căutare nu includ anumite cuvinte în indexurile lor sau pot să nu includă acele cuvinte în interogările utilizatorilor. Aceste cuvinte sunt de obicei considerate prepoziții sau cuvinte utilizate în mod obișnuit.

10. Penalități pentru spam. Capacitatea de a bloca spam-ul.

11. Ștergerea datelor vechi. Un parametru care determină acțiunile webmasterului atunci când serverul este închis sau mutat la o altă adresă.

Exemple de motoare de căutare.

1. Altavista. Sistemul a fost deschis în decembrie 1995. Este deținut de compania DEC. Din 1996 lucrează cu Yahoo. AltaVista este cea mai bună alegere pentru căutări personalizate ... Oricum, sortarea rezultatelor pe categorii gropile nu sunt executate și trebuie să revizuiți manual informațiile furnizate. AltaVista nu oferă un mijloc de a prelua liste de hotspot, știri sau alte capabilități de căutare de conținut.

2.Excitați căutarea. Lansat la sfârșitul anului 1995. Septembrie 1996 - achiziționat de WebCrawler. Acest nod are o blană de căutare puternicănizm, abilitatea de a personaliza automatinformațiile furnizate, precum și calificările compilatede către personal calificat pentru a descrie setul de noduri. Excita diferă de alte site-uri de căutare prin aceea căvă permite să căutați servicii de știri și să publicați recenzii Pagini web. Motorul de căutare folosește mijloacelecăutare standard de cuvinte cheie și euristicămetode de căutare a conținutului. Datorită acestei combinații,puteți găsi pagini care se potrivesc cu sensul Web, dacă nu conțin o cheie specificată de utilizator afară cuvintele. Dezavantajul Excite este o interfață oarecum haotică.

3.HotBot. Lansat în mai 1996. Deținut de Wired. Bazat pe tehnologia motorului de căutare Berkeley Inktomi. HotBot este o bază de date de documente indexate cu text integral și unul dintre cele mai cuprinzătoare motoare de căutare de pe Web. Căutarea sa booleană și constrângerile de căutare pentru orice regiune sau site web ajută utilizatorul să găsească informațiile de care au nevoie în timp ce filtrează informațiile inutile. HotBot oferă posibilitatea de a selecta parametrii de căutare necesari din listele derulante.

4.Căutare informații. Lansat înainte de 1995 și este ușor accesibil. În prezent, conține aproximativ 50 de milioane de adrese URL. Infoseek are o interfață bine concepută și instrumente excelente de căutare. Majoritatea răspunsurilor la interogări sunt însoțite de link-uri „subiecte conexe”, iar fiecare răspuns este urmat de link-uri „pagini similare”. Baza de date a motorului de căutare a paginilor indexate prin text integral. Răspunsurile sunt sortate după doi indicatori: frecvența de apariție a unui cuvânt sau a frazelor pe pagină tsakh, precum și locația cuvintelor sau expresiilor pe pagini. Există un Director Web subdivizat în 12 categorii cu sute de subcategorii care pot fi căutate. Fiecare pagină a catalogului conține o listă de re noduri prezentate.

5. Lycos. Lucrează din mai 1994. Este cunoscut și folosit pe scară largă. Include un director cu un număr mare de adrese URL. și motorul de căutare Point cu tehnologia de analiză statistică a conținutului paginii, spre deosebire de indexarea prin text integral. Lycos conține știri, recenzii de site-uri, link-uri către site-uri populare, hărți ale orașului și instrumente pentru găsirea adreselor, de la imagini și clipuri audio și video. Lycos ordonează răspunsurile după gradul de corespondenţărezultatele unei interogări după mai multe criterii, de exemplu, după numărul delu termenii de căutare găsiți în adnotarea documentuluipolitist, intervalul dintrefaceți cuvinte într-o anumită expresie a documentului, locațietermenii din document.

6. WebCrawler. Deschis pe 20 aprilie 1994 ca proiect al Universității din Washington. Webcrawler oferă oportunități sintaxă pentru specificarea interogărilor, precum și o selecție mare adnotări ale nodurilor cu o interfață necomplicată.

În urma fiecărui răspuns, WebCrawler-ul va sta în calea unei mici pictograme cu o estimare aproximativă a potrivirii cu cererea. Coma Togo afișează o pagină cu un scurt rezumat pentru fiecare răspuns, adresa URL completă, un scor de potrivire exactă și, de asemenea, utilizează acest răspuns în interogare este modelat ca cuvinte cheie.O interfață grafică pentru personalizarea interogărilor în Web Crawler nr. N e este permisfolosirea wildcard-urilor și, de asemenea, este imposibilatribuiți ponderi cuvintelor cheie.Nu există nicio modalitate de a limita câmpul de căutarezonă specifică.

7. Yahoo. Cel mai vechi director Yahoo a fost lansat la începutul anului 1994. Cunoscut pe scară largă, folosit frecvent și cel mai respectat. În martie 1996, a fost lansat catalogul Yahooligans pentru copii. Apar directoarele regionale și de top Yahoo. Yahoo se bazează pe abonament. Poate servi drept punct de plecare pentru orice căutare pe Web, deoarece își folosește sistemul de clasificare pentru a localiza un site cu informații bine organizate. Conținutul web este împărțit în 14 categorii generale, enumerate pe pagina de start Yahoo!. În funcție de specificul solicitării utilizatorului, este posibil fie să lucrați cu aceste categorii pentru a vă familiariza cu subcategorii și listele de noduri, fie să căutați anumite cuvinte și termeni în întreaga bază de date. De asemenea, utilizatorul poate limita căutarea la orice secțiune sau subsecțiune a Yahoo! Datorită faptului că clasificarea nodurilor este efectuată de oameni și nu de către un computer, calitatea legăturilor este de obicei foarte ridicată. Cu toate acestea, rafinarea unei căutări în caz de eșec este dificilă. Către Yahoo ! motor de căutare inclus AltaVista, deci dacă căutarea dvs. eșuează pe Yahoo! se întâmplă automat repetare folosind un motor de căutare AltaVista ... Rezultatele sunt apoi transferate la Yahoo!. Yahoo! oferă posibilitatea de a trimite interogări pentru a căuta adrese de e-mail în Usenet și Fourl 1.

Motoarele de căutare rusești includ:

1. Rambler. Acesta este un motor de căutare în limba rusă. Secțiunile enumerate pe pagina de pornire Rambler acoperă resurse web în limba rusă. Există un clasificator de informații. O oportunitate convenabilă de a lucra este de a oferi o listă cu cele mai vizitate site-uri pentru fiecare tema propusă.

2. Căutare Aport. Aport clasat printre principalele motoare de căutare certificate Microsoft ca motoare de căutare localesisteme pentru versiunea rusă Microsoft Internet Explorer. Unul dintre avantajele Aport este traducerea online engleză-rusă și rusă-engleză a interogărilor și a rezultatelor căutării, ceea ce face posibilă căutarea în resursele de internet ruse. fără să cunoască măcar limba rusă. în plus poti cauta informatii ment folosind expresii, chiar și pentru propoziții.Printre principalele proprietăți ale motorului de căutare Aport, putețiîmpărtășește următoarele:

Traducerea interogării și a rezultatelor căutării din rusă în englezălimbajul cerului și invers;

Verificarea automată a erorilor de ortografie ale cererii;

Afișare informativă a rezultatelor căutării pentru site-urile găsite;

Abilitatea de a căuta în orice formă gramaticală;

limbaj avansat de interogare pentru profesioniști utilizatorii finali.

Alte proprietăți de căutare includsuport pentru cinci pagini de cod principale (operare diferităsisteme) pentru limba rusă, folosind tehnologia de căutareavem restricții Url și data documentelor, implementarea căutăriidupă titluri, comentarii și subtitrăriaccesați imagini etc., salvați parametrii de căutare și definiți un număr limitat de solicitări anterioare ale utilizatorilor, combinând copii ale documentului aflate pe diferite servere.

3. Lista. ru ( http://www.list.ru) Prin implementarea sa, acest server are multeîn comun cu sistemul de limbă engleză Yahoo!. Pagina de pornire a serverului conține link-uri către cele mai populare categorii de căutare.

Lista de link-uri către principalele categorii ale catalogului ocupă partea centrală. Căutarea în catalog este implementată în așa fel încât în urma interogării să poată fi găsite atât site-uri individuale, cât și categorii. Dacă căutarea are succes, sunt afișate URL-ul, titlul, descrierea, cuvintele cheie. Permis de utilizare Yandex-ul. CUlinkul „Structurăcatalog „deschide într-o fereastră separată întreaga categorie de kataButuruga. A fost implementată capacitatea de a trece de la rubricator la orice subcategorie selectată. Diviziune tematică mai detaliatătitlul curent este reprezentat de o listă de legături. Catalogul este organizat astfel în aşa fel încât toate amplasamentele cuprinse în nivelurile inferioare ale structuriitururile sunt prezentate în rubrici.Lista de resurse afișată este sortată alfabetic, dar puteți alege să sortați: după timp adăugiri noi, prin tranziții, prin ordinea adaugarii in catalog, de catrepopularitate în rândul vizitatorilor directorului.

4. Yandex. Produsele software din seria Yandex reprezintă un set de instrumente pentru indexarea textului integral și căutarea datelor text, ținând cont de morfologia limbii ruse. Yandex include module pentru analiza și sinteza morfologică, indexare și căutare, precum și un set de module auxiliare, cum ar fi un analizor de documente, limbaje de marcare, convertoare de format, spider.

Algoritmii de analiză și sinteză morfologică bazați pe vocabularul de bază sunt capabili să normalizeze cuvintele, adică să-și găsească forma inițială și, de asemenea, să construiască ipoteze pentru cuvintele care nu sunt cuprinse în vocabularul de bază. Sistemul de indexare full-text vă permite să creați un index compact și să efectuați rapid căutări bazate pe operatori logici.

Yandex este proiectat să funcționeze cu texte în rețeaua locală și globală și poate fi, de asemenea, conectat ca modul la alte sisteme.

Elementul principal al internetului modern este motoarele de căutare sau motoarele de căutare, Yandex, Rambler, Google și alții. Există o mare de informații diverse pe Internet și motoarele de căutare sunt cele care ajută utilizatorul să găsească rapid informațiile de care are nevoie.

Există o listă de termeni importanți în manuale sau cărți științifice - un index alfabetic al subiectelor sau index. Indexul enumeră cei mai importanți termeni din această carte (cuvinte cheie) și numerele paginilor pe care apar.

Motoarele de căutare funcționează pe un principiu similar. Practic, atunci când un utilizator introduce un termen de căutare (cuvânt cheie), el sau ea se referă la Internet Subject Index sau index - o listă a tuturor cuvintelor cheie de pe Internet, indicând paginile în care apar.

Motor de căutare Este un program care compilează și stochează indexul de subiect al Internetului (index) și găsește, de asemenea, cuvintele cheie specificate în el.

Etapele compilarii si cautarii indexului:

Colectarea adreselor paginilor web de pe Internet

O listă inițială a adreselor paginilor site-ului web este încărcată într-un motor de căutare. Apoi motorul de căutare, sau mai degrabă partea sa componentă - robot de căutare, colectează toate linkurile hypertext de la fiecare dintre paginile specificate către alte pagini și adaugă toate adresele găsite în link-uri la lista sa originală de adrese. Astfel, lista originală crește rapid.

Pomparea paginilor

Un robot de căutare sau un păianjen accesează cu crawlere paginile, descarcă material text din ele și îl stochează pe discurile computerelor sale, apoi îl transferă către robotul index pentru indexare.

Compilare index

Pentru început, textul paginii indexate este șters de orice elemente non-textuale (grafică, marcaj HTML etc.). Mai mult, cuvintele selectate din text sunt reduse la tulpinile lor sau la cazul nominativ. Tulpinile de cuvinte colectate sunt aranjate în ordine alfabetică, indicând numerele paginilor unde este luată baza și numere de intrare, unde se afla baza pe această pagină.

Căutare

Când un utilizator introduce un cuvânt în șirul de interogare, motorul de căutare se uită la index. Găsește toate numerele de pagină legate de un anumit cuvânt și arată utilizatorului rezultatul căutării (lista de pagini).

Calitatea motorului de căutare

Calitatea căutării este sinonimă cu aceasta. relevanţă.În legătură cu motoarele de căutare, cuvântul relevante(relevant) este aproape termenul principal. Relevanța rezultatelor căutării motorului de căutare înseamnă că acele rezultate conțin pagini care sunt relevante pentru sensul interogării de căutare. Relevanța sau calitatea unei căutări este un lucru complicat.

Un alt criteriu important pentru calitatea muncii motorului de căutare este precizie.

Precizie Este o măsură a calității rezultatelor returnate, este calculată ca numărul de pagini relevante din volumul total de pagini afișate în rezultatele căutării. Cu toate acestea, nu numai acuratețea căutării este importantă, ci și variind rezultatele cautarii.

Variind- locația rezultatelor căutării după relevanță.

Este imposibil de spus care motor de căutare este mai bun. Utilizatorul este mai bine cu un motor de căutare care oferă cele mai relevante și precise rezultate. Pentru un proprietar de site, este bine ca mașina în care site-ul este clar vizibil și care aduce cel mai mare număr de vizitatori vizați.

Ce este

DuckDuckGo este un motor de căutare open source destul de cunoscut. Serverele sunt situate în SUA. Pe lângă propriul robot, motorul de căutare folosește rezultatele din alte surse: Yahoo, Bing, Wikipedia.

Cu atât mai bine

DuckDuckGo se poziționează ca un motor de căutare care oferă confidențialitate și confidențialitate maximă. Sistemul nu colectează date despre utilizator, nu stochează jurnalele (fără istoric de căutare), utilizarea cookie-urilor este cât se poate de limitată.

DuckDuckGo nu colectează și nu partajează informații personale de la utilizatori. Aceasta este politica noastră de confidențialitate.
Gabriel Weinberg, fondatorul DuckDuckGo

Pentru ce ai nevoie

Toate motoarele de căutare majore încearcă să personalizeze pe baza datelor despre persoana din fața monitorului. Acest fenomen se numește „bulă de filtru”: utilizatorul vede doar acele rezultate care sunt de acord cu preferințele sale sau pe care sistemul le consideră ca atare.

DuckDuckGo creează o imagine obiectivă care nu depinde de comportamentul tău trecut pe web și scapă de anunțurile tematice Google și Yandex pe baza interogărilor tale. DuckDuckGo facilitează căutarea informațiilor în limbi străine: Google și Yandex acordă în mod implicit preferință site-urilor în limba rusă, chiar dacă solicitarea este introdusă într-o altă limbă.

Ce este

not Evil este un motor de căutare pentru rețeaua anonimă Tor. Pentru a o utiliza, trebuie să mergeți la această rețea, de exemplu, rulând una specializată cu același nume.

not Evil nu este singurul motor de căutare de acest gen. Există LOOK (căutarea implicită în browserul Tor, accesibilă de pe internetul obișnuit) sau TORCH (unul dintre cele mai vechi motoare de căutare din rețeaua Tor) și altele. Ne-am hotărât pe Not Evil din cauza indicii clare de la Google (doar uitați-vă la pagina de pornire).

Cu atât mai bine

Căutări în care Google, Yandex și alte motoare de căutare sunt închise în principiu.

Pentru ce ai nevoie

Există multe resurse în rețeaua Tor care nu pot fi găsite pe internetul care respectă legea. Iar numărul lor va crește pe măsură ce guvernul își va înăspri controlul asupra conținutului web. Tor este un fel de rețea în cadrul rețelei cu propriile rețele sociale, trackere de torrent, media, piețe, bloguri, biblioteci și așa mai departe.

3. YaCy

Ce este

YaCy este un motor de căutare descentralizat bazat pe rețele P2P. Fiecare computer pe care este instalat modulul software principal scanează Internetul în mod independent, adică este un analog al unui robot de căutare. Rezultatele obținute sunt colectate într-o bază de date comună, care este utilizată de toți participanții la YaCy.

Cu atât mai bine

Este dificil de spus dacă este mai bine sau mai rău aici, deoarece YaCy este o abordare complet diferită a organizării căutării. Absența unui singur server și a unui singur proprietar de companie face ca rezultatele să fie complet independente de preferințele cuiva. Autonomia fiecărui nod exclude cenzura. YaCy este capabil să caute în deep web și în rețele publice neindexate.

Pentru ce ai nevoie

Dacă sunteți un susținător al open source și al internetului gratuit, care nu este influențat de agențiile guvernamentale și de marile corporații, atunci YaCy este alegerea dvs. Poate fi folosit și pentru a organiza căutări în cadrul unei rețele corporative sau autonome. Și în timp ce YaCy nu este foarte util în viața de zi cu zi, este o alternativă demnă la Google în ceea ce privește procesul de căutare.

4. Pipl

Ce este

Pipl este un sistem conceput pentru a căuta informații despre o anumită persoană.

Cu atât mai bine

Autorii lui Pipl susțin că algoritmii lor specializați caută mai eficient decât motoarele de căutare „obișnuite”. În special, sursele prioritare de informații sunt profilurile din rețelele sociale, comentariile, listele de participanți și diverse baze de date în care sunt publicate informații despre persoane, cum ar fi bazele de date cu hotărâri judecătorești. Conducerea lui Pipl în acest domeniu a fost validată de Lifehacker.com, TechCrunch și alții.

Pentru ce ai nevoie

Dacă aveți nevoie să găsiți informații despre o persoană care locuiește în Statele Unite, atunci Pipl va fi mult mai eficient decât Google. Bazele de date ale instanțelor ruse sunt aparent inaccesibile unui motor de căutare. Prin urmare, el nu se descurcă atât de bine cu cetățenii Rusiei.

Ce este

FindSounds este un alt motor de căutare specializat. Caută diverse sunete (casă, natură, mașini, oameni și așa mai departe) în surse deschise. Serviciul nu acceptă solicitări în limba rusă, dar există o listă impresionantă de etichete în limba rusă pe care le puteți căuta.

Cu atât mai bine

Rezultatele sunt doar sunete și nimic mai mult. În setările de căutare, puteți seta formatul dorit și calitatea sunetului. Toate sunetele găsite sunt disponibile pentru descărcare. Există o căutare de sunete după model.

Pentru ce ai nevoie

Dacă trebuie să găsiți rapid sunetul unei împușcături de muschetă, loviturile unei ciocănitoare suge sau țipătul lui Homer Simpson, atunci acest serviciu este pentru dvs. Și am ales acest lucru doar din cererile disponibile în limba rusă. În engleză, spectrul este și mai larg.

Dar serios, un serviciu specializat își asumă un public specializat. Dar dacă este util?

Ce este

Wolfram | Alpha este un motor de căutare computațional. În loc de link-uri către articole care conțin cuvinte cheie, oferă un răspuns gata făcut la cererea unui utilizator. De exemplu, dacă introduceți „comparați populațiile din New York și San Francisco” în limba engleză în formularul de căutare, Wolfram | Alpha va afișa imediat tabele și grafice cu o comparație.

Cu atât mai bine

Acest serviciu este mai bun decât altele pentru a găsi fapte și a calcula date. Wolfram | Alpha colectează și organizează cunoștințele disponibile pe Web dintr-o varietate de domenii, inclusiv știință, cultură și divertisment. Dacă această bază de date conține un răspuns gata făcut la o interogare de căutare, sistemul îl arată; dacă nu, calculează și afișează rezultatul. În acest caz, utilizatorul vede doar informațiile necesare și nimic de prisos.

Pentru ce ai nevoie

Dacă sunteți, de exemplu, student, analist, jurnalist sau cercetător, puteți utiliza Wolfram | Alpha pentru a găsi și calcula date legate de munca dvs. Serviciul nu înțelege toate solicitările, dar este în continuă evoluție și devine mai inteligent.

Ce este

Metamotorul Dogpile afișează o listă combinată de rezultate din rezultatele căutării de la Google, Yahoo și alte motoare de căutare populare.

Cu atât mai bine

În primul rând, Dogpile afișează mai puține anunțuri. În al doilea rând, serviciul folosește un algoritm special pentru a găsi și afișa cele mai bune rezultate din diferite motoare de căutare. Potrivit dezvoltatorilor Dogpile, sistemul lor generează cele mai complete rezultate de căutare de pe întregul Internet.

Pentru ce ai nevoie

Dacă nu puteți găsi informații în Google sau în alt motor de căutare standard, căutați-le în mai multe motoare de căutare simultan folosind Dogpile.

Ce este

BoardReader este un sistem de căutare de text în forumuri, servicii de întrebări și răspunsuri și alte comunități.

Cu atât mai bine

Serviciul vă permite să restrângeți câmpul de căutare la platformele sociale. Datorită filtrelor speciale, puteți găsi rapid postări și comentarii ale utilizatorilor care corespund criteriilor dvs.: limbă, data publicării și numele site-ului.

Pentru ce ai nevoie

BoardReader poate fi util pentru specialiștii în PR și pentru alți profesioniști media care sunt interesați de opinia unui public de masă asupra anumitor probleme.

In cele din urma

Viața motoarelor de căutare alternative este adesea trecătoare. Lifehacker l-a întrebat pe Serghei Petrenko, fostul director general al filialei ucrainene Yandex, despre perspectivele pe termen lung ale unor astfel de proiecte.

Serghei Petrenko

Fost CEO al Yandex.Ukraine.

În ceea ce privește soarta motoarelor de căutare alternative, este simplu: să fie proiecte foarte de nișă cu un public restrâns, așadar, fără perspective comerciale clare, sau, dimpotrivă, cu claritate deplină a absenței lor.

Dacă te uiți la exemplele din articol, poți vedea că astfel de motoare de căutare fie sunt specializate într-o nișă îngustă, dar solicitată, care, poate doar până acum, nu a crescut suficient pentru a fi vizibilă pe radarele Google sau Yandex, fie testează. o ipoteză originală în clasament.care nu este încă aplicabilă în căutarea obișnuită.

De exemplu, dacă o căutare pe Tor se dovedește brusc a fi solicitată, adică rezultatele de acolo vor fi necesare cel puțin unui procent din audiența Google, atunci, desigur, motoarele de căutare obișnuite vor începe să rezolve problema cum pentru a le găsi și a le arăta utilizatorului. Dacă comportamentul publicului arată că rezultatele par mai relevante pentru o pondere vizibilă de utilizatori într-un număr vizibil de interogări, date fără a lua în considerare factorii dependenți de utilizator, atunci Yandex sau Google vor începe să ofere astfel de rezultate.

„A fi mai bun” în contextul acestui articol nu înseamnă „a fi mai bun în orice”. Da, în multe aspecte, eroii noștri sunt departe de Google și Yandex (chiar și Bing este departe). Dar, pe de altă parte, fiecare dintre aceste servicii oferă utilizatorului ceva ce giganții industriei de căutare nu pot oferi. Cu siguranță cunoașteți și proiecte similare. Distribuie cu noi - vom discuta.

Motoarele de căutare sunt una dintre principalele modalități de a găsi informații pe Internet. Motoarele de căutare se târăsc pe web în fiecare zi: vizitează pagini web și le introduc în baze de date uriașe. Acest lucru permite utilizatorului să introducă unele cuvinte cheie, să apese pe trimitere și să vadă ce pagini îi satisfac cererea.

Înțelegerea modului în care funcționează motoarele de căutare este esențială pentru webmasteri. Pentru ei, structura corectă a documentelor și a întregului server sau site din punctul de vedere al motoarelor de căutare este de o importanță vitală. Fără aceasta, documentele nu vor apărea suficient de des ca răspuns la întrebările utilizatorilor către un motor de căutare sau chiar nu vor fi indexate deloc.

Webmasterii doresc să crească clasamentul paginilor lor, iar acest lucru este de înțeles: până la urmă, pentru orice solicitare către un motor de căutare, pot fi emise sute și mii de link-uri către documente care îi corespund. În cele mai multe cazuri, doar primele 10 link-uri au suficientă relevanță pentru interogare.

Bineînțeles, doriți ca documentul să fie în top zece, deoarece majoritatea utilizatorilor se uită rar la linkurile care urmează pe primele zece. Cu alte cuvinte, dacă legătura către document este a unsprezecea, atunci este la fel de rău ca și cum nu ar exista deloc.

Principalele motoare de căutare

Care dintre sutele de motoare de căutare sunt cu adevărat importante pentru un webmaster? Ei bine, desigur, larg cunoscut și folosit frecvent. Dar, în același timp, ar trebui să țineți cont de publicul pentru care este proiectat serverul dvs. De exemplu, dacă serverul tău conține informații foarte specializate despre cele mai recente metode de muls vacile, atunci probabil că nu ar trebui să te bazezi pe motoarele de căutare generale. În acest caz, v-aș sfătui să faceți schimb de legături cu colegii dvs. care sunt implicați în probleme similare 🙂 Deci, mai întâi, să definim terminologia.

Există două tipuri de baze de date informaționale despre paginile web: motoarele de căutare și directoare.

Motoarele de căutare: (păianjeni, crawler-uri) explorează în mod constant Web-ul pentru a-și umple bazele de date cu documente. Acest lucru nu necesită, de obicei, niciun efort din partea persoanei. Un exemplu ar fi motorul de căutare Altavista.

Pentru motoarele de căutare, construcția fiecărui document este destul de importantă. Titlul, meta-etichetele și conținutul paginii sunt de mare importanță.

Directoare: spre deosebire de motoarele de căutare, informațiile sunt introduse într-un director la inițiativa unei persoane. Pagina adăugată trebuie să fie legată rigid de categoriile acceptate în catalog. Un exemplu de director este Yahoo. Construcția paginilor nu contează. În continuare ne vom concentra în principal pe motoarele de căutare.

Altavista

Sistemul a fost deschis în decembrie 1995. Este deținut de compania DEC. Din 1996 lucrează cu Yahoo.

Emotionează căutarea

Lansat la sfârșitul anului 1995, sistemul a evoluat rapid. Iulie 1996 achiziționat Magellan, septembrie 1996 achiziționat WebCrawler. Cu toate acestea, ambele îl folosesc separat unul de celălalt. Poate că în viitor vor lucra împreună.

Există și un catalog în acest sistem - Excite Reviews. Intrarea în acest director este un noroc, deoarece nu toate site-urile sunt listate acolo. Cu toate acestea, informațiile din acest director nu sunt folosite de motorul de căutare în mod implicit, dar este posibil să le verifici după vizualizarea rezultatelor căutării.

HotBot

Lansat în mai 1996. Deținut de Wired. Bazat pe tehnologia motorului de căutare Berkeley Inktomi.

Căutare informații

Lansat puțin mai devreme de 1995, este bine cunoscut, arată grozav și este ușor accesibil. Ultrasmart / Ultraseek conține în prezent aproximativ 50 de milioane de adrese URL.

Opțiunea de căutare implicită este Ultrasmart. În acest caz, sunt căutate ambele directoare. Cu opțiunea Ultraseek, rezultatele interogării sunt returnate fără informații suplimentare. Tehnologia de căutare cu adevărat nouă permite, de asemenea, căutări mai ușoare și o serie de alte funcții pe care le puteți citi despre InfoSeek. Există un director InfoSeek Select separat de motorul de căutare.

Lycos

Din mai 1994, unul dintre cele mai vechi motoare de căutare, Lycos, funcționează. Cunoscut pe scară largă și folosit frecvent. Include motorul de căutare Point (funcționează din 1995) și catalogul A2Z (funcționează din februarie 1996).

OpenText

Sistemul OpenText a apărut puțin mai devreme de 1995. În iunie 1996, ea a început să colaboreze cu Yahoo. Isi pierde treptat pozitia si in curand va inceta sa fie inclusa in numarul motoarelor de cautare majore.

Webcrawler

Deschis pe 20 aprilie 1994 ca proiect de cercetare la Universitatea din Washington. Achiziționat de America Online în martie 1995. Există un catalog WebCrawler Select.

Yahoo

Cel mai vechi director Yahoo a fost lansat la începutul anului 1994. Cunoscut pe scară largă, folosit frecvent și cel mai respectat. În martie 1996, a fost lansat un alt director Yahoo, Yahooligans for Kids. Există tot mai multe directoare regionale și de top ale Yahoo.

Deoarece Yahoo este un utilizator bazat pe abonament, este posibil ca unele site-uri să nu fie listate. Dacă o căutare Yahoo nu returnează niciun rezultat adecvat, utilizatorii pot folosi motorul de căutare. Acest lucru este foarte ușor de făcut. Când se face o solicitare către Yahoo, directorul o redirecționează către oricare dintre principalele motoare de căutare. Primele link-uri din lista de satisfacere a cererii sunt adresele din director, iar apoi sunt adresele primite de la motoarele de cautare, in special de la Altavista.

Caracteristicile motoarelor de căutare

Fiecare motor de căutare are o serie de caracteristici. Aceste caracteristici ar trebui să fie luate în considerare atunci când vă creați paginile.

Tipul de motor de căutare

Motoarele de căutare „full-text” indexează fiecare cuvânt de pe o pagină web, excluzând câteva cuvinte oprite. Motoarele de căutare „abstracte” creează un extras din fiecare pagină.

Pentru webmasteri, mașinile full-text sunt mai utile, deoarece orice cuvânt care apare pe o pagină web este analizat pentru a determina relevanța acestuia pentru solicitările utilizatorilor. Cu toate acestea, se poate întâmpla pentru motoarele de căutare abstracte ca paginile să fie indexate mai bine decât pentru cele cu text integral. Acest lucru poate proveni din algoritmul de extracție, de exemplu, frecvența acelorași cuvinte în pagină.

Marimea

Dimensiunea unui motor de căutare este determinată de numărul de pagini indexate. De exemplu, într-un motor de căutare cu o dimensiune mare, aproape toate paginile dvs. pot fi indexate, cu un volum mediu, serverul dvs. poate fi indexat parțial, iar cu un volum mic, paginile dvs. pot să nu fie incluse în directoarele motor de căutare deloc.

Perioada de reînnoire

unele motoare de căutare indexează imediat pagina la cererea utilizatorului și apoi continuă să indexeze paginile care nu au fost încă indexate
alții au mai multe șanse să se „crawleze” pe cele mai populare pagini web decât pe altele

Data la care documentul a fost indexat

Unele motoare de căutare arată data la care a fost indexat un anumit document. Acest lucru ajută utilizatorul să înțeleagă cât de „proaspăt” este dat linkul de motorul de căutare. Alții îi lasă pe utilizatori doar să ghicească despre asta.

Pagini trimise

În mod ideal, motoarele de căutare ar trebui să găsească orice pagină pe orice server ca urmare a urmăririi linkurilor. Imaginea reală arată diferit. Paginile server apar mult mai devreme în indexurile motoarelor de căutare, dacă le specificați direct (Add URL).

Pagini netrimise

Dacă este specificată cel puțin o pagină a serverului, atunci motoarele de căutare vor găsi cu siguranță paginile următoare prin link-urile de la cea specificată. Cu toate acestea, acest lucru durează mai mult. Unele mașini indexează întregul server deodată, dar majoritatea, după ce au scris pagina specificată în index, lasă indexarea serverului pentru viitor.

Adâncimea de indexare

Acest parametru se aplică numai paginilor care nu sunt listate. Arată câte pagini după cea specificată va indexa motorul de căutare.

Majoritatea mașinilor mari nu au limite de adâncime de indexare. În practică, acest lucru nu este în întregime adevărat. Iată câteva motive pentru care nu toate paginile pot fi indexate:

utilizarea nu prea atentă a structurilor de cadre (fără legături duplicate în fișierul de control (setul de cadre))
folosind imaginemap fără a le duplica cu link-uri obișnuite

Suport cadru

Dacă robotul de căutare nu știe cum să lucreze cu structuri de cadre, atunci multe structuri cu cadre vor fi omise în timpul indexării.

Suport ImageMap

Aceasta este aproximativ aceeași problemă ca și cu structurile de cadre ale serverului.

Directoare și servere protejate cu parolă

Unele motoare de căutare pot indexa astfel de servere dacă li se oferă un nume de utilizator și o parolă. De ce este nevoie de asta? Pentru ca utilizatorii să poată vedea ce este pe serverul tău. Acest lucru permite cel puțin să știți că astfel de informații sunt acolo și, probabil, atunci se vor abona la informațiile dvs.

Frecvența legăturii

Motoarele de căutare majore pot determina popularitatea unui document în funcție de cât de des este conectat din altă parte de pe web. Unele mașini, pe baza unor astfel de date, „trag o concluzie” dacă merită sau nu să petreacă timp indexând un astfel de document.

Abilitate de învățare

Dacă serverul este actualizat frecvent, atunci motorul de căutare îl va reindexa mai des, dacă rar - mai rar.

Controlul indexării

Arată ce mijloace pot fi controlate de un anumit motor de căutare. Toate motoarele de căutare majore urmează regulile pentru fișierele robots.txt. Unele suportă, de asemenea, controlul folosind etichetele META din documentele care sunt indexate.

Redirecţiona

Unele site-uri redirecționează vizitatorii de la un server la altul, iar acest parametru indică ce adresă URL va fi asociată documentelor dvs. Acest lucru este important deoarece dacă motorul de căutare nu procesează redirecționarea, atunci pot apărea probleme cu fișierele inexistente.

Cuvinte oprite

Unele motoare de căutare nu includ anumite cuvinte în indexurile lor sau pot să nu includă acele cuvinte în interogările utilizatorilor. Astfel de cuvinte sunt de obicei considerate prepoziții sau doar cuvinte foarte des folosite. Și nu le includeți pentru a economisi spațiu pe media. De exemplu, Altavista ignoră cuvântul web și pentru solicitările dezvoltatorilor web, va fi returnat doar al doilea cuvânt. Există modalități de a evita acest lucru.

Influența asupra algoritmului de determinare a relevanței

Motoarele de căutare se asigură că utilizează locația și frecvența cuvintelor cheie din document. Cu toate acestea, mecanismele suplimentare pentru creșterea relevanței sunt diferite pentru fiecare vehicul. Acest parametru arată ce fel de mecanisme există pentru o anumită mașină.

Amenzi pentru spam

Toate motoarele de căutare majore „nu-i plac” atunci când un site încearcă să-și mărească clasamentul, de exemplu, specificându-se în mod repetat prin intermediul Adăugare URL sau menționând de mai multe ori același cuvânt cheie etc. În cele mai multe cazuri, astfel de acțiuni (spam, stivuire). ) sunt pedepsite, iar ratingul site-ului, dimpotrivă, scade.

Motoare de căutare. Găsirea informațiilor pe web

Colectarea adreselor paginilor web de pe Internet

Pomparea paginilor

Compilare index

Căutare

Calitatea motorului de căutare

Ce este

Cu atât mai bine

Pentru ce ai nevoie

Ce este

Cu atât mai bine

Pentru ce ai nevoie

3. YaCy

Ce este

Cu atât mai bine

Pentru ce ai nevoie

4. Pipl

Ce este

Cu atât mai bine

Pentru ce ai nevoie

Ce este

Cu atât mai bine

Pentru ce ai nevoie

Ce este

Cu atât mai bine

Pentru ce ai nevoie

Ce este

Cu atât mai bine

Pentru ce ai nevoie

Ce este

Cu atât mai bine

Pentru ce ai nevoie

In cele din urma

Principalele motoare de căutare

Caracteristicile motoarelor de căutare

Top articole similare