Si funksionojnë robotët e kërkimit. Kërkoni robotë

11.08.2019 Në kontakt me

Disa robotë mund të maskohen si robotë Yandex duke specifikuar agjentin e duhur të Përdoruesit. Ju mund të verifikoni që roboti është ai që pretendon se po përdor identifikimin bazuar në kërkimet e kundërta të DNS.

Për ta bërë këtë ju duhet të bëni sa më poshtë:

Për agjentin e përdoruesit me interes, përcaktoni adresën IP nga regjistrat e serverit tuaj. Të gjithë robotët Yandex përfaqësohen duke përdorur agjentin e specifikuar të Përdoruesit.

Duke përdorur adresën IP të marrë, përcaktoni emrin e domenit të hostit duke përdorur një pyetje të kundërt DNS.

Pas përcaktimit të emrit të hostit, mund të kontrolloni nëse i përket Yandex. Emrat e të gjithë robotëve Yandex përfundojnë në "yandex.ru", "yandex.net" ose "yandex.com". Nëse emri i hostit ka një fund tjetër, kjo do të thotë që roboti nuk i përket Yandex.

Së fundi, sigurohuni që emri që keni marrë është i saktë. Për ta bërë këtë, duhet të përdorni një kërkim përpara DNS për të marrë adresën IP që korrespondon me emrin e hostit. Duhet të përputhet me adresën IP të përdorur në kërkimin e kundërt të DNS. Nëse adresat IP nuk përputhen, do të thotë që emri i hostit të marrë është i rremë.

Robotët Yandex në regjistrat e serverëve

Pyetje dhe pergjigje

Si të mbroheni nga robotët mashtrues që paraqiten si robotë Yandex

Nëse dëshironi të mbroheni nga robotët mashtrues që paraqiten si robotë Yandex, mund të përdorni filtrimin bazuar në pyetjet e kundërta DNS. Kjo skemë preferohet për kontrollin e aksesit bazuar në adresat IP, pasi është rezistent ndaj ndryshimeve në rrjetet e brendshme Yandex.

Sasia e trafikut midis serverit tim të internetit dhe robotit tuaj është shumë e madhe. A ka mbështetje për shkarkimin e faqeve në formë të ngjeshur?

Po, ekziston. Roboti i kërkimit Yandex thotë me secilën kërkesë të faqes: "Prano-Enkodimi: gzip, deflate". Kjo do të thotë që duke konfiguruar serverin tuaj të internetit në përputhje me rrethanat, ju mund të zvogëloni sasinë e trafikut të transmetuar midis tij dhe robotit tonë. Megjithatë, mbani në mend se transferimi i përmbajtjes në formë të ngjeshur rrit ngarkesën në CPU-në e serverit tuaj dhe nëse ngarkohet shumë, mund të shfaqen probleme. Duke mbështetur gzip dhe deflate, roboti i përmbahet standardit rfc2616.

Motorët e kërkimit përdorin për të zvarritur faqet e internetit robotë (merimangat, zvarritësit) - programet e indeksimit të faqeve dhe futja e informacionit të marrë në një bazë të dhënash. Parimi i funksionimit të merimangës është i ngjashëm me atë të një shfletuesi: ai vlerëson përmbajtjen e një faqeje, e ruan atë në serverin e motorit të kërkimit dhe ndjek lidhjet me seksionet e tjera.

Zhvilluesit e motorëve të kërkimit mund të kufizojnë vëllimin maksimal të tekstit të skanuar dhe thellësinë e depërtimit të robotit në burim. Prandaj, për promovim efektiv të faqes në internet, këto parametra rregullohen në përputhje me veçoritë e indeksimit të faqeve nga merimangat e ndryshme.

Frekuenca e vizitave, rendi i faqeve të zvarritjes dhe kriteret për përcaktimin e rëndësisë së informacionit me kërkesat e përdoruesve përcaktohen nga algoritmet e kërkimit. Nëse të paktën një lidhje nga një uebsajt tjetër çon në burimin e promovuar, robotët do ta indeksojnë atë me kalimin e kohës (sa më e madhe të jetë pesha e lidhjes, aq më shpejt). Përndryshe, për të shpejtuar promovimin e faqes në internet, URL-ja e saj shtohet në bazën e të dhënave të motorit të kërkimit me dorë.

Llojet e merimangave

Në varësi të qëllimit, dallohen llojet e mëposhtme të robotëve të kërkimit.

kombëtare, ose kryesore. Mblidhni informacion nga një domen kombëtar, për shembull, .ru ose .su, dhe faqet e pranuara për indeksim;
globale. Mblidhni të dhëna nga të gjitha faqet e internetit kombëtare;
indeksuesit e fotografive, skedarëve audio dhe video;
krijues pasqyrash. Përcaktoni pasqyrat e burimeve;
referencë. Numëroni numrin e lidhjeve në sit;
dritat e pasme. Ata formatojnë rezultatet e motorit të kërkimit, për shembull, theksojnë frazat e kërkuara në tekst;
inspektorët. Ata kontrollojnë disponueshmërinë e burimit në bazën e të dhënave të motorit të kërkimit dhe numrin e dokumenteve të indeksuar;
informatorë (ose qukapikët). Përcaktoni periodikisht aksesueshmërinë e faqes, faqes ose dokumentit në të cilin çon lidhja;
spiunë. Kërkoni për lidhje me burime që nuk janë indeksuar ende nga motorët e kërkimit;
kujdestarët. Ato lansohen në modalitetin manual dhe rishikojnë rezultatet e marra;
Kërkuesit. Përdoret për korrigjimin e algoritmeve të kërkimit dhe studimin e sajteve individuale;
robotë të shpejtë. Ata kontrollojnë automatikisht datën e përditësimit të fundit dhe indeksojnë menjëherë informacionin e ri.

Emërtimet

Gjatë optimizimit të një faqe interneti në motorët e kërkimit, disa përmbajtje bllokohen nga indeksimi nga robotët (korrespondenca personale e vizitorëve, shporta e porosive, faqet me profilet e përdoruesve të regjistruar, etj.). Për ta bërë këtë, në skedarin robots.txt në fushën User-agent, futni emrat e robotëve: për motorin e kërkimit Yandex - Yandex, për Google - Googlebot, për Rambler - StackRambler, për Yahoo - Yahoo! Slurp ose Slurp, për MSN - MSNBot, për Alexa - ia_archiver, etj.

Përshëndetje miq! Sot do të mësoni se si funksionojnë robotët e kërkimit Yandex dhe Google dhe çfarë funksioni kryejnë në promovimin e faqes në internet. Pra, le të shkojmë!

Motorët e kërkimit e bëjnë këtë veprim për të gjetur dhjetë projekte WEB nga një milion sajte që kanë një përgjigje cilësore dhe përkatëse për kërkesën e përdoruesit. Pse vetëm dhjetë? Sepse përbëhet nga vetëm dhjetë pozicione.

Robotët e kërkimit janë miq si për webmasterët ashtu edhe për përdoruesit

Pse është e rëndësishme që robotët e kërkimit të vizitojnë një faqe tashmë është bërë e qartë, por pse përdoruesi ka nevojë për këtë? Kjo është e drejtë, në mënyrë që përdoruesi të shohë vetëm ato faqe që do t'i përgjigjen plotësisht kërkesës së tij.

Roboti i kërkimit- një mjet shumë fleksibël, është në gjendje të gjejë një faqe, qoftë edhe atë që sapo është krijuar, dhe pronari i kësaj faqeje nuk ka punuar ende në të. Kjo është arsyeja pse ky robot u quajt merimangë; ai mund të zgjasë këmbët dhe të arrijë kudo në rrjetin virtual.

A është e mundur të kontrolloni një robot kërkimi në avantazhin tuaj?

Ka raste kur disa faqe nuk përfshihen në kërkim. Kjo është kryesisht për faktin se kjo faqe nuk është indeksuar ende nga një robot kërkimi. Sigurisht, herët a vonë një robot kërkimi do ta vërejë këtë faqe. Por kërkon kohë, dhe nganjëherë mjaft kohë. Por këtu mund ta ndihmoni robotin e kërkimit ta vizitojë këtë faqe më shpejt.

Për ta bërë këtë, mund ta vendosni faqen tuaj të internetit në drejtori ose lista të veçanta, rrjete sociale. Në përgjithësi, në të gjitha faqet ku roboti i kërkimit thjesht jeton. Për shembull, rrjetet sociale përditësohen çdo sekondë. Mundohuni të reklamoni faqen tuaj dhe roboti i kërkimit do të vijë në faqen tuaj shumë më shpejt.

Një rregull kryesor rrjedh nga kjo. Nëse dëshironi që robotët e motorëve të kërkimit të vizitojnë faqen tuaj, ju duhet t'i ushqeni ato me përmbajtje të re rregullisht. Nëse ata vërejnë se përmbajtja po përditësohet dhe faqja po zhvillohet, ata do të fillojnë të vizitojnë projektin tuaj të internetit shumë më shpesh.

Çdo robot kërkimi mund të kujtojë se sa shpesh ndryshon përmbajtja juaj. Ai vlerëson jo vetëm cilësinë, por intervalet kohore. Dhe nëse materiali në sit përditësohet një herë në muaj, atëherë ai do të vijë në sit një herë në muaj.

Kështu, nëse faqja përditësohet një herë në javë, atëherë roboti i kërkimit do të vijë një herë në javë. Nëse e përditësoni faqen çdo ditë, atëherë roboti i kërkimit do ta vizitojë faqen çdo ditë ose çdo ditë tjetër. Ka sajte që indeksohen brenda pak minutash pas përditësimit. Këto janë rrjetet sociale, grumbulluesit e lajmeve dhe faqet që postojnë disa artikuj në ditë.

Si t'i jepni një detyrë një roboti dhe ta ndaloni atë të bëjë asgjë?

Që në fillim, mësuam se motorët e kërkimit kanë robotë të shumtë që kryejnë detyra të ndryshme. Disa po kërkojnë fotografi, disa për lidhje, e kështu me radhë.

Ju mund të kontrolloni çdo robot duke përdorur një skedar të veçantë robots.txt . Është nga ky skedar që roboti fillon të njihet me sitin. Në këtë skedar mund të specifikoni nëse roboti mund të indeksojë sitin, dhe nëse po, cilat seksione. Të gjitha këto udhëzime mund të krijohen për një ose të gjithë robotët.

Trajnim për promovimin e faqes në internet

Unë flas më në detaje për ndërlikimet e promovimit të faqes SEO në motorët e kërkimit Google dhe Yandex në Skype tim. I solla të gjitha projektet e mia WEB në më shumë trafik dhe mora rezultate të shkëlqyera nga kjo. Mund t'jua mësoj edhe këtë, nëse jeni të interesuar!

Detyra e tij është të analizojë me kujdes përmbajtjen e faqeve të faqeve të paraqitura në internet dhe të dërgojë rezultatet e analizës në motorin e kërkimit.

Roboti i kërkimit zvarritet faqet e reja për një kohë, por më vonë ato indeksohen dhe, në mungesë të ndonjë sanksioni nga motorët e kërkimit, mund të shfaqen në rezultatet e kërkimit.

Parimi i funksionimit

Veprimi i robotëve të kërkimit bazohet në të njëjtin parim si puna e një shfletuesi të zakonshëm. Kur vizitojnë një sit të caktuar, ata anashkalojnë disa nga faqet e tij ose të gjitha faqet pa përjashtim. Ata dërgojnë informacionin e marrë në lidhje me sitin në indeksin e kërkimit. Ky informacion shfaqet në rezultatet e kërkimit që korrespondojnë me një kërkesë të veçantë.

Për shkak të faktit se robotët e kërkimit mund të vizitojnë vetëm një pjesë të faqeve, mund të shfaqen probleme me indeksimin e faqeve të mëdha. Të njëjtat probleme ekzakte mund të lindin për shkak të cilësisë së dobët.

Ndërprerjet në funksionimin e tij i bëjnë disa faqe të padisponueshme për analizë. Një skedar robots.txt i përpiluar dhe i konfiguruar siç duhet luan një rol të rëndësishëm në vlerësimin e një siti nga robotët e kërkimit.

Thellësia e skanimit të burimeve dhe frekuenca e zvarritjes së faqeve nga robotët e kërkimit varet nga:

Algoritme për motorët e kërkimit.
Frekuenca e përditësimit të faqes në internet.
Strukturat e sitit.

Indeksi i kërkimit

Baza e të dhënave e informacionit që mbledhin robotët e kërkimit quhet indeks kërkimi. Kjo bazë të dhënash përdoret nga motorët e kërkimit për të gjeneruar rezultate kërkimi për .

Jo vetëm informacionet rreth sajteve futen në indeks: robotët e kërkimit janë në gjendje të njohin imazhe, skedarë multimedialë dhe dokumente në formate të ndryshme elektronike (.docx, .pdf, etj.).

Një nga robotët më aktivë të kërkimit në sistemin Yandex është Bystrobot. Ai skanon vazhdimisht burimet e lajmeve dhe faqet e tjera të përditësuara shpesh. , që nuk vërehet nga speedbot, nuk ka asnjë kuptim.

Ju mund ta tërheqni atë me ndihmën e mjeteve speciale, dhe ato janë efektive për faqet për qëllime të ndryshme. Ka robotë të veçantë për të kontrolluar faqet për akses, për të analizuar karakteristikat e tyre individuale dhe për indeksimin e fotografive dhe dokumenteve në motorët e kërkimit.

Php për fillestarët

Roboti i motorit të kërkimit, çfarë është? Kjo është, si funksionojnë të gjithë motorët e kërkimit?
Ata të gjithë punojnë si kjo:

1. Së pari, shkarkohen të gjitha lidhjet nga faqja.
2. Më pas, renditen lidhjet dhe hiqen ato të panevojshme.
3. Më pas, të gjitha faqet shkarkohen duke përdorur lidhjet, nga të cilat është marrë vetëm teksti.
4. Teksti regjistrohet në bazën e të dhënave, faqet renditen sipas likuiditetit.
5. Ndizni motorin e kërkimit dhe shfaqni ndeshjet me kërkesën tuaj.
6. Shfaq adresat e faqeve me fjalët që futni.
7. Vetë faqet shfaqen me fjalë kërkimi të theksuara.

E gjithë kjo u bë në faqen tonë të internetit. Ju mund të shihni punën e programit të kërkimit, domethënë jo vetë programin e kërkimit, por vetëm pjesën e fundit të tij. 5,6,7.

"Roboti i kërkimit" - "Robot777", i krijuar pa baza të të dhënave, i projektuar për faqe deri në 30,000 faqe. 1000 faqe tërheq një bazë të dhënash skedari prej 1,1 MB.

E bëra kështu që këtu, në përgjithësi, nuk keni nevojë të dini ndonjë gjuhë programimi, thjesht kopjuat të gjithë skedarët në server dhe Motori i Kërkimit - "Robot777" filloi të funksionojë.
Punon si manualisht ashtu edhe automatikisht: shkarkon gjithçka. Për më tepër, ju mund të shkarkoni çdo faqe, të gjitha lidhjet në faqe ndryshojnë për t'u përshtatur me lidhjet e saj.
Kishte një problem me kodimin, përpara se të instaloja "Robot777" tonë, e testova në 50 sajte të ndryshme. Ndonjëherë "krakozyabry" ngjiten, domethënë, kodimi është i ndryshëm. Shikoni kodimin koi:

BvchzdeetsyklmnoprtufkhzhigyuyeyashshASbvchzdee
abvgdeezhziyklmnoprstufkhtsshshshjyeyeyayABvgdeezhzyyklmnoprstufkhtschshshshshshyeyeyyuya

Në fund ka tekst normal, të zakonshëm, dhe në krye tregon se si ndryshon në kodimin koi, domethënë e gjithë faqja html është shkruar saktësisht me këtë tekst. Shfletuesi përkthen automatikisht kodime të ndryshme, por programi duhet të tregohet për këtë, pasi nuk përdor shfletuesin. Shtova shtatë kodime në "Robot777".

Shkarkoni arkivin më të fundit, skripti është optimizuar atje.

Duke kërkuar për një freelancer për të shkruar një bot motor kërkimi
Ejani në Pv4x.Ru - do të jetë argëtuese!!!
Faleminderit për skenarin e mrekullueshëm
Nëse mund t'ju ndihmoj me shkrimin e një roboti, njohuri të php mysql javascript c++ java
Faleminderit për skriptin, por nevojiten disa përmirësime: leximi i robots.txt, kontrollimi i faqes për viruse, një faqe regjistrimi i faqes dhe natyrisht, automatizimi i skenarit =)
Mendoj se kjo do të ndodhë së shpejti?

Përgjigje: për momentin askush nuk do të bëjë gjëra shtesë, pasi puna falas është ndalur, programuesit kërkojnë të paktën 30 mijë rubla. në muaj, dhe faqja mund të japë jo më shumë se 3 mijë rubla. Pra, përdorni atë që keni.

A është e mundur të porosisni modifikime ose krijimin e një skripti të ri roboti kërkimi?

Më duhet për të zgjedhur dhe punuar me bazën e të dhënave MSQL
mori emrin e domenit nga baza e të dhënave (e futur nga përdoruesi)
Epo, atëherë gjeta lidhje dhe përshkrime për ta
të gjitha rezultatet u ruajtën në bazën e të dhënave

më shumë detaje kur porosisni një skenar

Përgjigje: Jo, kjo nuk është ende e mundur

Unë do të doja të bëj një pyetje. Kur ekzekutoja robot.php mora tre paralajmërime si ky:

Paralajmërim: vendos_kohë_kufizim() është çaktivizuar për arsye sigurie në /var/My site/robot777b/robot777/robot.php në linjën 2

Paralajmërim: Nuk mund të modifikohet kokë informacion - titujt e dërguar tashmë nga (dalja filloi në /var/My site/robot777b/robot777/robot.php: 2) në /var/ Faqja ime /robot777b/robot777/robot.php në rreshtin 8

Ju lutem mund të komentoni këto paralajmërime?

Faleminderit paraprakisht

Përgjigje: E mira nuk mjafton

gabimi i parë me cakto_kohën_kufizimin() - ishte Va ajo që u ndalua të përdorte këtë funksion. Zakonisht faqja ka kufizime në KOHA për ekzekutimin e skripteve (zakonisht 30 sekonda); nëse tejkalohet, skripti thjesht ndalon. Gjatë kërkimit, koha e ekzekutimit të skriptit shpesh mund të arrijë 5 ose 10 minuta kur vendosim në fillim të skenarit cakto_kohën_kufizimin(0); atëherë themi se nuk mund të ketë kufizime kohore. Por ju u shkëput nga kjo mundësi.

@set_time_limit(0); - bëje kështu, domethënë shto @

çdo gjë tjetër do të zhduket vetvetiu

Nëse ai do të indeksonte më shumë se një çmim domeni, ai nuk do të kishte

Përgjigje:

Ende mbështetet?
Nëse po, atëherë pyesni.
A është e mundur të zgjerohet baza?
Përshëndetje, Sergei

Përgjigje: Sergej, nuk është e qartë se çfarë mbështetet. Nëse po flisni për faqet, atëherë ato janë të mbështetura, ne nuk kemi ndryshuar asgjë në skenar. Nëse po flisni për ribërjen e skenarit për kërkim në sites.rf, atëherë kjo nuk është interesante për ne, por siç mund ta shihni, vetëm ajo që është interesante për ne është postuar këtu. Kjo është arsyeja pse është falas.

pershendetje,

Faqja: 1