Počnimo odmah s glavnim kodom skripte:
#!/usr/bin/perl
# which-forum.pl skripta
# (c) 2010 Aleksandr A Aleksejev, http://website/
koristiti strict;
# komentarisani red - za strogost
# ako je zadatak prikupiti statistiku motora, ostavite je kako jeste
# ako napravite listu foruma - dekomentirajte
moji $data ;
$data .= $_ dok (<>
)
;
# provjerite koliko ih je Powered by phpBB bez linka u podnožju Ovu i druge skripte navedene u postu možete pronaći u ovoj arhivi. Skripta which-forum.pl ispituje kod html-stranice prisustvo potpisa mehanizma foruma u njemu. Koristili smo sličnu tehniku kada smo definirali WordPress i Joomla, ali postoji nekoliko razlika. Prvo, sama skripta ne učitava kod stranice, već ga čita iz stdin-a ili datoteke proslijeđene kao argument. Ovo nam omogućava da jednom preuzmemo stranicu, na primjer, koristeći wget, a zatim je pokrenemo kroz nekoliko parsera, ako ih imamo više. Drugo, u ovoj skripti, prisustvo potpisa je 100% znak motora. Prošli put je prisustvo potpisa samo dalo težinu odgovarajućem motoru i „osvojilo“ motor sa najvećom težinom. Odlučio sam da bi u ovom slučaju takav pristup samo nepotrebno zakomplikovao kod. Da bih testirao skriptu, malo sam istražio. Sastavio sam listu od nekoliko hiljada foruma i svaki od njih prošao kroz svoju skriptu, određujući na taj način procenat aktivacija programa i popularnost raznih mašina. Da dobijem listu foruma, koristio sam svoj Google parser. Pretraživaču su poslani upiti poput site:forum.*.ru i tako dalje. Kompletan kod generatora upita možete pronaći u datoteci gen-forumsearch-urls.pl. Osim .ru zone, korišteni su i .su .ua .kz i .by. Prošli put je bilo teško provesti ovakvu studiju, budući da WordPress i Joomla sajtovi nemaju takve potpise u URL-u. Katalozi poput cmsmagazine.ru/catalogue/ ne pružaju dovoljnu veličinu uzorka. Šta je 600 stranica na Drupalu? Moram priznati da su me rezultati eksperimenta razočarali. Od 12.590 proučavanih lokacija, uspješno su identificirana samo 7.083 motora, odnosno samo u 56% slučajeva. Možda nisam uzeo u obzir neki motor? Da li je Bitrix stajao na pola foruma? Ili sam trebao potrošiti više vremena tražeći potpise? Općenito, ovdje je potrebno više istraživanja. Među 56% uspješno identifikovanih mehanizama, IPB (31%), phpBB (26,6%) i vBulletin (26,5%) su, očekivano, bili najpopularniji. Iza njih slijede SMF (5,8%) i DLEForum (5,3%). Moj omiljeni punBB bio je tek na 6. mjestu (1,64%). Ne bih savjetovao snažno vjerovati ovim brojkama (kažu da svaki treći forum u Runetu radi na IPB-u), ali određeni zaključci se, naravno, mogu izvući. Na primjer, ako namjeravate napraviti stranicu na forumskom motoru i planirate modificirati forum, recimo platiti korisnicima 0,01$ za svaku poruku sa automatskim povlačenjem sredstava jednom sedmično, onda bi trebalo da odaberete jedan od tri najpopularnija motora . Što je forum popularniji, veća je vjerovatnoća da ćete naći programera koji je dobro upućen u njega. Ako se ne očekuju značajne promjene u motoru, onda bi moglo imati smisla odabrati manje popularan motor, kao što je SMF ili punBB. Time ćete smanjiti broj hakerskih napada na vaš forum i količinu neželjene pošte koja se automatski šalje na njega. Skripte za pronalaženje/definisanje foruma takođe mogu naći više od jedne praktične upotrebe. Prva stvar koja mi je lično pala na pamet je da sortiram identifikovane forume po TCI-ju i postavim postove sa linkovima na jednu od njihovih stranica u prvih sto. Međutim, stotinjak dofollow linkova na forumu ni na koji način nije uticalo na TIC (2 ažuriranja su prošla), pa je bolje da ne gubite vrijeme ovdje osim ako vas ne zanimaju tranzicije. Jasno je da je imenovana upotreba skripti daleko od jedine. Mislim da možete lako shvatiti kako ih još možete koristiti. U organizaciji Botmaster Labs, nije planirano. Nema vremena, video je potreban za takmičenje, kao novi trend, iako je lakše sve objasniti dobrim screenshotovima (moj IMHO), a ja baš i ne želim ništa da snimam. Ostalo je jako malo profitabilnih tema, glupi spam vise ne vlada uopste, ovdje treba razmisliti i niko nece pucati na temu, samo da se zastarjeli potrude da je ubaci u lijepi omot i malo pudera. :) Ali ovo nije o nama. Generalno, ova 3 "ne", mislim, u osnovi su za većinu potencijalnih učesnika postala barijera za učešće u takmičenju. To je kao sa popravkom automobila od tri: jeftino, kvalitetno, brzo - u servisu mogu ispuniti samo 2 uslova istovremeno. sedi i biraj šta ti je bliže. :) Tako je i sa konkurencijom: imam vremena, mogu da napravim video, ali nema teme, ili mogu da napravim video, imam temu, ali nemam vremena, ili postoji slobodno vrijeme i mala je tema, ali video plaši. Ali dobro je ako su istovremeno ispunjena 2 uslova. Ok, ostavimo stihove. Nastaviću sebi. Nisam planirao, pa ću učestvovati na konkursu, čak sam birao za koji članak ću glasati. Reci šta hoćeš, ali Doz jako dobro poznaje softver i zna kako da ga koristi vrlo razumno. Ali danas sam saznao da se intriga pojavila na takmičenju. Ispostavilo se da neću moći glasati, ali to mogu učiniti samo početnici koji su kupili softver 2011. godine i konkurs je za njih osmišljen. Bio sam malo iznenađen, ali vlasnik je džentlmen. Konkurs je reklamna kampanja i Aleksandar bolje zna kako da je sprovede. Generalno, tada sam odlučio da objavim članak, nešto je lakše napisati kada je jasno za koga je to, zapravo, nemoguće učiniti za čitav kolektiv. Pokreće php-Fusion U Chrumer verziji 7.07, program je obučen sa nekoliko novih motora: forumi.biz, forumb.biz, 1forum.biz, 7forum.biz, itd. phpBB-fr.com, Solaris phpBB tema A proces učenja novih stvari se nastavlja kontinuirano. Pokreće SMF 1.1.2 Pokreće SMF 1.1.3 Pokreće SMF 1.1 RC2 Pokreće SMF 1.1.4 Pokreće SMF 1.1.8 Pokreće SMF 1.1.7 "2006-2008, Simple Machines LLC" I to nije sve. Kada prikupljamo verzije motora, nalazimo previs "2001-2006, Lewis Media" u podnožju na nekim SMF forumima. Provjeravamo ovaj zahtjev, on nas također u potpunosti zadovoljava. Nalazimo sličan upit: "2001-2005, Lewis Media". Provodeći dalje podnožja nalazimo sljedeći zahtjev: "SMFone dizajn od A.M.A, portiran na SMF 1.1". Pogledajte - odlično. I tako dalje. Pola sata rada i imate divnu bazu upita na motoru, a za ove upite Google će banovati mnogo rjeđe nego ako u njima koristite operatere. A u isto vrijeme, vaša baza podataka će biti mnogo čistija nego ako koristite upite poput "index.php?topic=", jer će ovdje Google dati ne samo forume koji su nam potrebni, već i puno preostalih resursa gdje je to bilo moguće ostavite link do teme foruma. Možete se svađati, kažu, šta je loše u tome? Drugi su ostavili link, pa možemo. Ali! Linkove može ostaviti ne samo Hrumer, već i drugi programi. štaviše, mogu se posebno izoštriti za ostavljanje komentara u određenom resursu, takozvani visokospecijalizovani softver, plus takvi linkovi se mogu ostaviti ručno. Opet, ponavljam, nije nam bitna količina smeća, već kvalitet, ionako ćemo prikupiti bazu sa pravim zahtjevima. Prednost ove metode je što praktički nećete morati da konfigurišete sito-filter
伟哥 - viagra 吉他 - gitara 其他 - odmor 保险公司 - osiguranje Stavite ove kodove u Words datoteku da ih zamijenite: %E4%BC%9F%E5%93%A5 %E5%90%89%E4%BB%96 %E5%85%B6%E4%BB%96 %E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8 Ako promovirate stranicu za osiguranje, onda postavljanjem veze u svoj profil na tematski (!) čak i kineski forum koji se nalazi na zahtjev " forum SMF" 保险公司 biće veoma dobro.
print "phpbb \n"
ako ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?phpbb\.com\/?"[^>]*>phpBB/i ili
# $data =~ /viewforum\.php\?[^""]*f=\d+/i ili
$data =~ /phpBB\-SEO/i ili
$data =~ /)
;
print "ipb \n"
ako ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?invision(?:board|power)\.com\/?[^"]*"[^>]*> [^<]*IP\.Board/i
ili
$data =~ /]+href="[^"]*http:\/\/(?:www\.)?invisionboard\.com\/?"[^>]*>Invision Power Board/i ili
$data =~ /
$data =~ /index\.php\?[^""]*showforum=\d+/i)
;
print "vbulletin \n"
ako ($data =~ /Pokreće:?[^<]+vBulletin[^<]+(?:Version)?/i
ili
$data =~ /)
;
print "smf \n"
ako ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?simplemachines\.org\/?"[^>]*>Pokreće SMF/i ili
$data =~ /index\.php\?[^""]*board=\d+\.0/i)
;
print "punbb \n"
ako ($data =~ /]+href="[^"]*http:\/\/(?:(?:www\.)?punbb\.org|punbb\.informer\.com)\/?"[^>]*> PunBB/i) ; #or
# $data =~ /viewforum\.php\?[^""]*id=\d+/i);
print "fluxbb \n"
# if($data =~ /viewtopic\.php\?id=\d+/i ili
if ( $data =~ /]+href="http:\/\/(?:www\.)fluxbb\.org\/?"[^>]*>FluxBB/i)
;
print "exbb \n"
ako ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?exbb\.org\/?"[^>]*>ExBB/i) ; # ili
# $data =~ /forums\.php\?[^""]*forum=\d+/i);
print "yabb \n"
ako ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?yabbforum\.com\/?"[^>]*>YaBB/i ili
$data =~ /YaBB\.pl\?[^""]*num=\d+/i ) ;
print "dleforum \n"
ako ($data =~ /\(Powered by DLE Forum\)<\/title>/i ili
$data =~ /]+href="[^"]+(?:http:\/\/(?:www\.)?dle\-files\.ru|act=copyright)[^"]*">DLE Forum<\/a>/i)
;
print "iconboard \n"
ako ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?ikonboard\.com\/?[^"]*"[^>]*>Ikonboard/i ili
$data =~ /\n"
ako ($data =~ /\n"
# if($data =~ /forums\.php\?fid=\d+/i ili
# $data =~ /topic\.php\?fid=\d+/i ili
ako ($data =~ /]+href="http:\/\/(?:www\.)?flashbb\.net\/?"[^>]*>FlashBB/i)
;
print "stokesit \n"
# if($data =~ /forum\.php\?f=\d+/i ili
ako ($data =~ /]+href="http:\/\/(?:www\.)?stokesit\.com\.au\/?"[^>]*>[^\/]*Stokes IT/i)
;
štampa "podijum \n"
# if($data =~ /topic\.php\?t=\d+/i ili
ako ($data =~ /]+href=[""]?http:\/\/(?:www\.)?sopebox\.com\/?[""]?[^>]*>Podium/i)
;
print "usebb \n"
# if($data =~ /forum\.php\?id=\d+/i ili
ako ($data =~ /]+href="http:\/\/(?:www\.)?usebb\.net\/?"[^>]*>UseBB/i)
;
print "wrforum \n"
# if($data =~ /index\.php\?fid=\d+/i ili
ako ($data =~ /]+href="http:\/\/(?:www\.)?wr\-script\.ru\/?"[^>]*>WR\-Forum/i)
;
print "yetanotherforumnet \n"
if ($data =~ /Još jedan forum\.net/i ili
$data =~ /default\.aspx\?g=posts&t=\d+/i)
;
site:talk.*.ru
site:board.*.ru
site:smf.*.ru
site:phpbb.*.ru
....
Dugi uvod je završen, sada na stvar.
Šta je potrebno početniku kada je nabavio takav super-kombajn, a to je kompleks Xrumer + Hrefer? Tako je, naučite kako da radite na tome i odbacite iluziju da možete zaraditi novac ako počnete da šaljete neželjenu poštu. Ako tako mislite, odmah donirajte svoj novac u dobrotvorne svrhe. Morate naučiti kako koristiti alate kompleksa, po mogućnosti izoštravajući ga za sebe. Vrijeme "uzmi više - baci više" je prošlo. Količina ustupa mjesto kvaliteti. Dakle, mi ćemo prikupiti bazu za sebe, nemojte naučiti kako to učiniti - zaostat ćete za vozom. Naravno, Khrefer će nam pomoći u tome. Ako planirate promovirati svoje resurse na Google-u, onda moramo tražiti i donatorske stranice putem Google-a. Mislim da je ovo razumljivo i logično. Ali Gugl, kao gospodarica bakarne planine, svoje bogatstvo ne poklanja svima. Potreban je pristup. Odmah bih rekao da se nemojte nadati da ćete prema znakovima koje nađete u javnosti uspjeti nešto prikupiti. Zato su dostupni javnosti jer su bezvrijedni. Neću dalje razvijati temu. Bolje je da vam kažem kako ga pravilno sastaviti tako da vidite rezultat, ostalo ćete sami finalizirati, glavno je razumjeti princip. Potrebno je prikupljati prema ispravnom prema znakovima konkretnih motora koji su nam potrebni, a ne prema znakovima foruma općenito. Ovo je glavna greška početnika - da se ne koncentrišu na određenu stvar, već da pokušavaju da pokriju sve u celini. Pa ipak, ako želite da raščlanite manje-više normalnu bazu, odbijte da koristite operatore u upitima. Nema "inurl:", "site:", "title" itd. Google će trenutno zabraniti pretraživače poput vas. Stoga pažljivo proučavamo motore s kojima Chrumer trenutno radi:
Općenito, moramo pripremiti ispravne upite za raščlanjivanje od strane Khrefera. Uzmimo forum dizhok kao primjer. SMF Forumi. I počet ćemo ga rastavljati na dijelove za raščlanjivanje. U tome će nam pomoći naš voljeni Google. Unošenje Google upita SMF Forumi- puno đubreta u broju, premotaj na neku 13. stranicu i izaberi bilo koji link. Naišao sam na ovo: http://www.volcanohost.com/forum/index.php?topic=11.0 . Hajde da ga otvorimo i istražimo. Moramo pronaći nešto karakteristično na stranici što se može primijeniti na pretragu drugih stranica na ovom motoru. U podnožju primjećujemo sljedeći natpis Pokreće SMF 1.1.14, citiramo ga i unesemo u Google, pokazuje nam da za ovaj zahtjev zna oko 59 miliona opcija. Prelazimo preko linkova, dodamo još nekoliko opcija ovoj ključnoj riječi, na primjer, "Powered by SMF 1.1.14" topola ili Pokreće SMF 1.1.14 viagra. Uvjereni smo da je zahtjev šik, u izdavanju samo foruma i gotovo bez smeća za vas.
Osim toga, ne zanima nas kvantitet, već kvalitet, kao što sam rekao gore. Nastavi. Sa istog foruma preuzimamo još jednu frazu iz podnožja: , također ga citirajte i proslijedite Googleu. Kao odgovor, otkriva da zna više od 13 miliona rezultata. Opet, prelazimo kroz izlaz, dodajemo dodatne riječi i provjeravamo izlaz s njima. Vodimo računa o tome da zahtjev bude odličan, a smeća skoro da i nema. Generalno, već postoje 2 zahtjeva za željezo. Predlažem da se prvi forum za sada ostavi na miru i nastavi sa prikupljanjem zahtjeva sa drugih foruma. Srećom, Google je otvoren na zahtjev 2006-2008 Simple Machines LLC. Iz broja preuzimamo, na primjer, ove forume: http://www.snowlinks.ru/forum/index.php?topic=1062.0 i http://litputnik.ru/forum/index.php?action=printpage; topic=380.0 u podnožjima od njih preuzimamo sljedeće zahtjeve: "Powered by SMF 1.1.7" i "Powered by SMF 1.1.10" (Uvijek savjetujem da zahtjeve za Khrefer stavljate pod navodnike, jer nam je potreban kvalitet prije svega sve). Mislim da je jasno šta radimo, na kraju ćemo imati određenu bazu upita za pretraživanje foruma na SMF engine-u (izabran je kao primjer, sa ostalim motorima je slično).
To će izgledati otprilike ovako:
Mislim da je vrlo važno naučiti kako pravilno koristiti Chrefer u početnoj fazi, jer nakon što ste to naučili, uvijek možete pronaći upotrebu Chrumera, bez obzira na to kako se situacija mijenja. Zaštite se usložnjavaju, a ako je zaštita pojačana na nekim tipovima motora i Khrumer se trenutno ne može nositi s tim, onda nema smisla trošiti resurse na prikupljanje ovih linkova, a zatim na rad na njima s Khrumerom, bolje je fokusirati se na ono što daje rezultat. A u isto vrijeme, ako je tim Botmaster Labsa naučio Chrumera nečemu novom, možete brzo secirati novog pacijenta i pripremiti Chrumerovu bazu dok je pacijent još topao. Vrijeme je novac, resurs možda više nije relevantan kada kupite bazu. neko prikupio. Osim toga, ispravna kolekcija baza za sebe uvelike proširuje "bijelu" upotrebu Khrumera. I upravo tu se sve kreće, htjeli mi to ili ne, ali proces izbjeljivanja ili sijedenja je u toku. Crne plahte za sve što možete otići u prošlost.
Svi ostali, već tehnički aspekti rada sa Hreferom se mogu vidjeti u pomoći i nema smisla zadržavati se na njima, svi ciljevi-poeni-sekunde se postavljaju empirijski za svaki automobil pojedinačno.
Kao bonus, postaviću ovde šablon za raščlanjivanje kineskog pretraživača Baidu, neki dan su me pitali za to, pa sam to uradio između vremena, izvinite na igri reči. :)
Hostname=http://www.baidu.com
Query=s?wd=
LinksMask=
Ukupno stranica=100
NextPage=
NextPage2=
CaptchaURL=
CaptchaImage=
CaptchaField=
Pokušao sam da ih testiram raščlanim, nije bilo zabrane, Khrefer je brzo prikupljao resurse, svi zahtjevi za raščlanjivanje su bili slični Googleovim, ali bilo je puno kineskih resursa, i sa visokim PR-om, a osim toga, bilo je mnogo mjesta gde Evropljani nisu kročili. Bolje je analizirati sa kineskim zahtjevima. Google Translate će vam pomoći u tome, otkucajte listu ključnih riječi na ruskom i prevedite je na kineski. Istina u riječi“Chreferove riječi se ne mogu spojiti na kineskom, moraju se prekodirati.
Umjesto kineskog:
U zaključku, želio bih reći da nikad nisam razumio ljude koji su se žalili da su Khrefers loši ili ne raščlanjuju, uvijek sam želio ovo reći, samo ne znate kako ih skuhati. Nijedan parser nije bolji od referera, samo mora biti ispravan. Hrefer je auto: dobar, solidan, napravljen na nemackom, ali ga covek kontrolise i sve zavisi od toga koliko se inteligentno vozi, ne mozes naterati auto da ide desno i levo u isto vreme.
Posebna tema je čišćenje baza, ja sam jednom prije 3 godine za prethodni konkurs. Od daljeg dalje, sve je i dalje relevantno, ali sada možete odbiti provjeru za 200 OK, stvarno mi se nije sviđao ovaj proces, greške su bile jako velike, dosta suvišnog je filtrirano. Sada se to može uraditi gotovo automatski tokom Chrumerovog rada, iako ovaj proces nije potpuni analog provjere za "200 OK". Općenito, do točke: ne tako davno, u Khrumeru se pojavila divna prilika - otimati informacije iz resursa u vrijeme pokretanja projekta. To izgleda ovako. Ubacujete šablon koji će biti obrađen tokom rada, a podaci prikupljeni prema šablonu će biti uneti u xgrabbed.txt fajl u folderu Dnevnici. Ovu funkciju možete koristiti za bilo šta, polet mašte je ogroman. Ovu funkciju koristim jednom sedmično da uklonim veze iz "istekle" radne baze podataka. Nije tajna da se forumi gase svaki dan kako bi očistili bazu od takvih resursa, a alat "Autograbbing" će nam pomoći u ovom slučaju.
Uostalom, morate priznati, često kucajući, na primjer, http://www.laptopace.com/index.php, vidimo da je ovaj domen već, na primjer, goudyadya, ali tamo nema foruma. Dakle, da bismo izbacili ovu šljaku iz baze, pljačkaćemo. :) Otvaramo izvorni kod stranice i tamo vidimo ovaj unos:
Sada će nam svi "mrtvi" iz Goudaddija biti poznati po imenu.
Evo malog izbora za alat "Autograbbing", ako želite da očistite bazu podataka iz različitih "isteklih" domena: