Il caso del motore di ricerca. Motore di ricerca su Internet - Yahoo

02.07.2019 Consiglio

L'architettura di un motore di ricerca include in genere:

YouTube enciclopedico

1 / 5

✪ Lezione 3: Come funziona un motore di ricerca. Introduzione alla SEO

✪ Motore di ricerca dall'interno

✪ Shodan - Google nero

✪ Il motore di ricerca Cheburashka sostituirà Google e Yandex in Russia

✪ Lezione 1 - Come funziona un motore di ricerca

Sottotitoli

Storia

Cronologia
Anno	Sistema	Evento
1993	W3Catalog?!	lanciare
	Aliweb	lanciare
	Stazione di salto	lanciare
1994	web crawler	lanciare
	ricerca di informazioni	lanciare
	Lico	lanciare
1995	AltaVista	lanciare
	Daum	Base
	testo aperto indice web	lanciare
	Magellano	lanciare
	Eccitare	lanciare
	SAPO	lanciare
	Yahoo!	lanciare
1996	canile	lanciare
	Inktomi	Base
	Rambler	Base
	hotbot	Base
	Chiedi Jeeves	Base
1997	Luce del Nord	lanciare
1997	Yandex	lanciare
1998	Google	lanciare
1999	Tutto il Web	lanciare
	GenieSa	Base
	Naver	lanciare
	Teoma	Base
	Vivisimo	Base
2000	Baidu	Base
2000	Esalta	Base
2003	info.com	lanciare
2004	Yahoo! Ricerca	Lancio finale
	A9.com	lanciare
	sogo	lanciare
2005	MSN Cerca	Lancio finale
	Ask.com	lanciare
	Nigma	lanciare
	buona ricerca	lanciare
Cercami	Base
2006	wikiseek	Base
	Quaero	Base
	Ricerca diretta	lanciare
	Chacha	Lancio (beta)
	Guruji.com	Lancio (beta)
2007	wikiseek	lanciare
	Sproose	lanciare
	Wikia Cerca	lanciare
	blackle.com	lanciare
2008	DuckDuckGo	lanciare
	Troppo	lanciare
	Picollatore	lanciare
	Viewzi	lanciare
	Cuil	lanciare
	Boogami	lanciare
	Salto Pesce	Lancio (beta)
	Forestale	lanciare
	VADLO	lanciare
	powerset	lanciare
2009	bing	lanciare
	KAZ.KZ	lanciare
	Yebol	Lancio (beta)
	Mugurdia	chiusura
	Scout	lanciare
2010	Cuil	chiusura
	Blekko	Lancio (beta)
	Viewzi	chiusura
2012	WAZZUB	lanciare
2014	Satellitare	Lancio (beta)

In una fase iniziale dello sviluppo di Internet, Tim Berners-Lee ha mantenuto un elenco di server Web pubblicato sul sito Web del CERN. C'erano sempre più siti e mantenere manualmente un elenco del genere diventava sempre più difficile. Il sito web dell'NCSA aveva una sezione dedicata "Novità!". (eng. What's New!), dove hanno pubblicato link a nuovi siti.

Il primo programma per computer a cercare in Internet è stato Archie(Archie inglese - archivio senza la lettera "c"). È stato creato nel 1990 da Alan Emtage, Bill Heelan e J. Peter Deutsch, studenti di informatica alla McGill University di Montreal. Il programma ha scaricato gli elenchi di tutti i file da tutti i server FTP anonimi disponibili e ha creato un database in cui è possibile cercare in base ai nomi dei file. Tuttavia, il programma di Archie non ha indicizzato il contenuto di questi file, poiché la quantità di dati era così piccola che tutto poteva essere facilmente trovato a mano.

Lo sviluppo e la diffusione del protocollo di rete Gopher, coniato nel 1991 da Mark McCahill presso l'Università del Minnesota, ha portato alla creazione di due nuovi programmi di ricerca, Veronica e Jughead. Come Archie, hanno cercato nomi di file e intestazioni archiviati nei sistemi di indicizzazione di Gopher. Veronica (inglese) Indice a livello di rete molto facile orientato ai roditori per archivi computerizzati) consentiva la ricerca di parole chiave per la maggior parte delle intestazioni di menu Gopher in tutti gli elenchi Gopher. Il programma Jughead Scavo e visualizzazione della gerarchia universale di Gopher di Jonzy) ha recuperato le informazioni sul menu da alcuni server Gopher. Sebbene il nome del motore di ricerca di Archie non fosse correlato alla serie di fumetti "Archie", tuttavia Veronica e Jughead sono personaggi in questi fumetti.

Nell'estate del 1993 non esisteva ancora un unico sistema per la ricerca sul web, sebbene numerose directory specializzate fossero mantenute manualmente. Oscar Nierstraz dell'Università di Ginevra ha scritto una serie di script Perl che periodicamente copiavano queste pagine e le riscrivevano in un formato standard. Questa è diventata la base per W3Catalog?!, il primo motore di ricerca web primitivo, lanciato il 2 settembre 1993.

Probabilmente il primo motore di ricerca scritto in Perl è stato "World Wide Web Wanderer", un bot di Matthew Gray del giugno 1993. Questo robot ha creato l'indice di ricerca "Wandex". Lo scopo del robot Wanderer era misurare le dimensioni del World Wide Web e trovare tutte le pagine Web contenenti le parole della query. Nel 1993 è apparso il secondo motore di ricerca Aliweb. Aliweb non ha utilizzato un crawler, ma ha invece atteso le notifiche degli amministratori del sito Web sulla presenza di un file di indice in un determinato formato sui propri siti.

Stazione di salto, creato nel dicembre 1993 da Jonathan Fletcher, ricercava e indicizzava pagine Web utilizzando un crawler e utilizzava un modulo Web come interfaccia per formulare query di ricerca. È stato il primo strumento di ricerca su Internet a combinare le tre funzioni essenziali di un motore di ricerca (verifica, indicizzazione e ricerca effettiva). A causa delle limitate risorse informatiche dell'epoca, l'indicizzazione, e quindi la ricerca, era limitata ai soli titoli e titoli delle pagine web trovate dal crawler.

I motori di ricerca hanno partecipato alla Dot-com Bubble della fine degli anni '90. Diverse aziende sono entrate nel mercato in modo spettacolare, generando profitti record durante le loro IPO. Alcuni hanno abbandonato il mercato dei motori di ricerca pubblici e lavorano solo con il settore aziendale, come Luce del Nord.

Google ha preso l'idea di vendere parole chiave nel 1998, quando era una piccola azienda che gestiva un motore di ricerca su goto.com. La mossa ha segnato un passaggio per i motori di ricerca da competere tra loro a diventare una delle iniziative imprenditoriali più redditizie su Internet. I motori di ricerca hanno iniziato a vendere i primi posti nei risultati di ricerca alle singole aziende.

Il motore di ricerca Google occupa una posizione di rilievo sin dai primi anni 2000. L'azienda ha raggiunto una posizione elevata grazie ai buoni risultati di ricerca utilizzando l'algoritmo PageRank. L'algoritmo è stato presentato al pubblico nell'articolo "The Anatomy of Search Engine" scritto da Sergey Brin e Larry Page, fondatori di Google. Questo algoritmo iterativo classifica le pagine Web in base a una stima del numero di collegamenti ipertestuali a una pagina Web, supponendo che le pagine "buone" e "importanti" ricevano più collegamenti di altre. L'interfaccia di Google è progettata in uno stile spartano, dove non c'è nulla di superfluo, a differenza di molti dei suoi concorrenti che hanno integrato il motore di ricerca nel portale web. Il motore di ricerca di Google è diventato così popolare che ne sono comparsi imitatori, ad esempio, Cercatore di misteri(motore di ricerca segreto).

Cerca informazioni in russo

Nel 1996 è stata implementata una ricerca tenendo conto della morfologia russa sul motore di ricerca Altavista e sono stati lanciati i motori di ricerca russi originali Rambler e Aport. Il 23 settembre 1997 è stato aperto il motore di ricerca Yandex. Il 22 maggio 2014 è stato aperto da Rostelecom il motore di ricerca nazionale Sputnik, che al momento del 2015 è in fase di beta testing. Il 22 aprile 2015 è stato lanciato un nuovo servizio Sputnik. Bambini appositamente per i bambini con maggiore sicurezza.

I metodi di analisi dei cluster e ricerca di metadati hanno guadagnato grande popolarità. Tra le macchine internazionali di questo tipo, la più famosa era "Clustio" aziende Vivisimo. Nel 2005, con il supporto dell'Università statale di Mosca, è stato lanciato in Russia il motore di ricerca Nigma, che supporta il clustering automatico. Nel 2006 è stata aperta la metamacchina russa Quintura, che offre raggruppamenti visivi sotto forma di tag cloud. Nigma ha anche sperimentato il raggruppamento visivo.

Come funziona il motore di ricerca

I componenti principali di un motore di ricerca: robot di ricerca, indicizzatore, motore di ricerca.

Di norma, i sistemi funzionano in più fasi. Innanzitutto, il crawler ottiene il contenuto, quindi l'indicizzatore genera un indice ricercabile e, infine, il crawler fornisce la funzionalità per cercare i dati indicizzati. Per aggiornare il motore di ricerca, questo ciclo di indicizzazione viene ripetuto.

I motori di ricerca funzionano memorizzando informazioni su molte pagine Web che ottengono dalle pagine HTML. Robot di ricerca o "crawler" (eng. Crawler) - un programma che segue automaticamente tutti i collegamenti trovati nella pagina e li evidenzia. Il crawler, in base a collegamenti o in base a un elenco predefinito di indirizzi, ricerca nuovi documenti non ancora noti al motore di ricerca. Il proprietario del sito può escludere determinate pagine utilizzando robots.txt , che può essere utilizzato per impedire l'indicizzazione di file, pagine o directory del sito.

Il motore di ricerca analizza il contenuto di ogni pagina per un'ulteriore indicizzazione. Le parole possono essere estratte da titoli, testo di pagina o campi speciali - meta tag. Un indicizzatore è un modulo che analizza una pagina, dopo averla suddivisa in parti, utilizzando i propri algoritmi lessicali e morfologici. Tutti gli elementi di una pagina web vengono isolati e analizzati separatamente. I dati delle pagine Web vengono archiviati in un database di indice per l'utilizzo nelle richieste successive. L'indice consente di trovare rapidamente informazioni sulla richiesta dell'utente. Numerosi motori di ricerca, come Google, memorizzano tutta o parte della pagina originale, la cosiddetta cache, nonché varie informazioni sulla pagina web. Altri sistemi, come AltaVista, memorizzano ogni parola di ogni pagina trovata. L'utilizzo della cache aiuta a velocizzare l'estrazione di informazioni dalle pagine già visitate. Le pagine memorizzate nella cache contengono sempre il testo specificato dall'utente nella query di ricerca. Questo può essere utile quando la pagina web è stata aggiornata, cioè non contiene più il testo della richiesta dell'utente e la pagina nella cache è ancora vecchia. Questa situazione è legata alla perdita di collegamenti (Ing. linkrot) e l'approccio intuitivo (usabilità) di Google. Ciò comporta l'emissione di brevi porzioni di testo dalla cache contenente il testo della query. Si applica il principio della minima sorpresa, l'utente di solito si aspetta di vedere le parole di ricerca nei testi delle pagine ricevute ( aspettative degli utenti). Oltre a velocizzare le ricerche utilizzando le pagine memorizzate nella cache, le pagine memorizzate nella cache possono contenere informazioni che non sono più disponibili altrove.

Il motore di ricerca funziona con i file di output ricevuti dall'indicizzatore. Il motore di ricerca accetta le richieste degli utenti, le elabora utilizzando un indice e restituisce i risultati della ricerca.

Quando un utente inserisce una query in un motore di ricerca (di solito utilizzando parole chiave), il sistema ne controlla l'indice e restituisce un elenco delle pagine web più rilevanti (ordinate per qualche criterio), solitamente con una breve annotazione contenente il titolo del documento e a volte parti del testo. L'indice di ricerca è costruito secondo una tecnica speciale basata sulle informazioni estratte dalle pagine web. Dal 2007 il motore di ricerca Google ti consente di effettuare ricerche in base al tempo, creare i documenti che stai cercando (chiama il menu "Strumenti di ricerca" e specifica l'intervallo di tempo). La maggior parte dei motori di ricerca supporta l'uso degli operatori booleani AND, OR, NOT nelle query, che consentono di perfezionare o espandere l'elenco delle parole chiave cercate. In questo caso, il sistema cercherà parole o frasi esattamente come immesse. Alcuni motori di ricerca lo consentono ricerca approssimativa, in questo caso, gli utenti espandono l'area di ricerca specificando la distanza dalle parole chiave. Ci sono anche ricerca concettuale, che utilizza un'analisi statistica dell'uso delle parole e delle frasi di ricerca nei testi delle pagine web. Questi sistemi consentono di comporre query in linguaggio naturale. Un esempio di tale motore di ricerca è il sito web ask com.

L'utilità di un motore di ricerca dipende dalla rilevanza delle pagine che trova. Sebbene milioni di pagine Web possano includere una parola o una frase, alcune potrebbero essere più pertinenti, popolari o autorevoli di altre. La maggior parte dei motori di ricerca utilizza metodi di ranking per portare i risultati "migliori" in cima alla lista. I motori di ricerca decidono quali pagine sono più rilevanti e in quale ordine i risultati devono essere mostrati in modi diversi. I metodi di ricerca, come Internet stesso, cambiano nel tempo. Così, sono apparsi due tipi principali di motori di ricerca: sistemi di parole chiave predefinite e ordinate gerarchicamente e sistemi in cui viene generato un indice invertito basato sull'analisi del testo.

La maggior parte dei motori di ricerca sono imprese commerciali che traggono profitto dalla pubblicità, in alcuni motori di ricerca puoi acquistare le prime posizioni nei risultati di ricerca per determinate parole chiave a pagamento. Quei motori di ricerca che non prendono soldi per l'ordine dei risultati, guadagnano sulla pubblicità contestuale, mentre i messaggi pubblicitari corrispondono alla richiesta dell'utente. Tali annunci vengono visualizzati sulla pagina con un elenco di risultati di ricerca e i motori di ricerca guadagnano ogni volta che un utente fa clic su messaggi pubblicitari.

Tipi di motori di ricerca

Esistono quattro tipi di motori di ricerca: robotici, guidati dall'uomo, ibridi e meta-sistemi.

sistemi che utilizzano robot di ricerca

Sono costituiti da tre parti: un crawler ("bot", "robot" o "spider"), un indice e un software del motore di ricerca. Il crawler è necessario per bypassare la rete e creare elenchi di pagine web. Un indice è un grande archivio di copie di pagine web. Lo scopo del software è valutare i risultati della ricerca. A causa del fatto che il crawler in questo meccanismo esplora costantemente la rete, le informazioni sono più aggiornate. La maggior parte dei motori di ricerca moderni sono sistemi di questo tipo.

sistemi controllati dall'uomo (cataloghi delle risorse)

Questi motori di ricerca ottengono elenchi di pagine web. La directory contiene l'indirizzo, il titolo e una breve descrizione del sito. Il catalogo delle risorse cerca i risultati solo dalle descrizioni delle pagine inviate dai webmaster. Il vantaggio delle directory è che tutte le risorse vengono controllate manualmente, quindi la qualità del contenuto sarà migliore rispetto ai risultati ottenuti automaticamente dal sistema di primo tipo. Ma c'è anche uno svantaggio: l'aggiornamento di queste directory viene eseguito manualmente e può ritardare notevolmente rispetto allo stato reale delle cose. Le classifiche delle pagine non possono cambiare istantaneamente. Esempi di tali sistemi sono Directory di Yahoo, dmoz e Galaxy.

sistemi ibridi

I motori di ricerca come Yahoo, Google, MSN combinano le funzioni dei sistemi che utilizzano robot di ricerca e sistemi controllati dall'uomo.

meta-sistemi

I motori di ricerca combinano e classificano i risultati di più motori di ricerca contemporaneamente. Questi motori di ricerca erano utili quando ogni motore di ricerca aveva un indice univoco e i motori di ricerca erano meno "intelligenti". Dal momento che la ricerca è migliorata così tanto ora, la loro necessità è diminuita. Esempi: Meta Crawler e Ricerca MSN.

Mercato dei motori di ricerca

Google è il motore di ricerca più popolare al mondo con una quota di mercato del 68,69%. Bing occupa la seconda posizione, la sua quota è del 12,26%.

I motori di ricerca più popolari al mondo:

Sistema di ricerca	Quota di mercato nel luglio 2014	Quota di mercato a ottobre 2014	Quota di mercato a settembre 2015
Google	68,69 %	58.01 %	69.24%
Baidu	17,17 %	29.06 %	6,48%
bing	6.22 %	8.01 %	12,26%
Yahoo!	6.74 %	4.01 %	9,19%
AOL	0,13 %	0.21 %	1,11%
Eccitare	0.22 %	0,00 %	0.00%
Chiedere	0,13 %	0,10 %	0,24%

Asia

Nei paesi dell'Asia orientale e in Russia, Google non è il motore di ricerca più popolare. In Cina, ad esempio, più popolare Motore di ricerca così.

In Corea del Sud, il portale di ricerca proprietario di Naver è utilizzato da circa il 70% di Yahoo! Giappone e Yahoo! Taiwan sono i motori di ricerca più popolari rispettivamente in Giappone e Taiwan.

Russia e motori di ricerca in lingua russa

Secondo i dati di LiveInternet nel giugno 2015 sulla copertura delle query di ricerca in lingua russa:

Tutto linguistico:
- Yahoo! (0,1%) e motori di ricerca di proprietà di questa società: Inktomi, AltaVista , Tutto il web
di lingua inglese e internazionale:
- Chiedi a Jeeves(Meccanismo Teoma)
Di lingua russa - la maggior parte dei motori di ricerca "di lingua russa" indicizza e cerca testi in molte lingue: ucraino, bielorusso, inglese, tartaro e altri. Si differenziano dai sistemi "tutto linguistici" che indicizzano tutti i documenti di seguito, in quanto indicizzano principalmente risorse situate in zone di dominio in cui domina la lingua russa, o in altro modo limitano i loro robot a siti in lingua russa.

Alcuni dei motori di ricerca utilizzano algoritmi di ricerca esterni.

Dati quantitativi del motore di ricerca di Google

Il numero di utenti Internet e motori di ricerca e le esigenze degli utenti per questi sistemi sono in costante crescita. Per aumentare la velocità di ricerca delle informazioni necessarie, i grandi motori di ricerca contengono un gran numero di server. I server sono generalmente raggruppati in centri server (centri dati). I motori di ricerca popolari hanno centri server sparsi in tutto il mondo.

Nell'ottobre 2012 Google ha lanciato il progetto Where the Internet Lives, in cui gli utenti hanno l'opportunità di conoscere i data center dell'azienda.

Il motore di ricerca Google conosce quanto segue sul lavoro dei data center:

La capacità totale di tutti i data center di Google nel 2011 è stata stimata in 220 MW.
Quando Google ha pianificato di aprire un nuovo complesso di tre edifici in Oregon nel 2008 con un'area totale di 6,5 milioni di metri quadrati, Harper's Magazine ha calcolato che un complesso così grande consuma oltre 100 MW di elettricità, che è paragonabile al consumo di energia di una città di 300.000 Umani.
Il numero stimato di server di Google nel 2012 è 1.000.000.
La spesa di Google per i data center è stata di 1,9 miliardi di dollari nel 2006 e di 2,4 miliardi di dollari nel 2007.

La dimensione del World Wide Web indicizzato da Google a dicembre 2014 è di circa 4,36 miliardi di pagine.

Motori di ricerca che tengono conto dei divieti religiosi

La diffusione globale di Internet e la crescente popolarità dei dispositivi elettronici nel mondo arabo e musulmano, in particolare nei paesi del Medio Oriente e del subcontinente indiano, hanno contribuito allo sviluppo di motori di ricerca locali che tengano conto delle tradizioni islamiche. Tali motori di ricerca contengono filtri speciali che aiutano gli utenti a evitare di accedere a siti vietati, come i siti con materiale pornografico, e consentono loro di utilizzare solo quei siti il cui contenuto non è contrario alla fede islamica. Poco prima del mese musulmano del Ramadan, nel luglio 2013, è stato introdotto il mondo Google Halal- un sistema che fornisce agli utenti solo collegamenti halal "corretti" filtrando i risultati di ricerca ricevuti da altri motori di ricerca come Google e Bing. Due anni prima, nel settembre 2011, è stato lanciato il motore di ricerca I'mHalal per servire gli utenti in Medio Oriente. Tuttavia, questo servizio di ricerca ha dovuto essere chiuso a breve, secondo il proprietario, per mancanza di fondi.

La mancanza di investimenti e il lento ritmo di diffusione della tecnologia nel mondo musulmano ha ostacolato il progresso e ostacolato il successo di un serio motore di ricerca islamico. Il fallimento di enormi investimenti in progetti web sullo stile di vita musulmano, uno dei quali è stato Muxlim. Ha ricevuto milioni di dollari da investitori come Rite Internet Ventures e ora - secondo l'ultimo post di I'mHalal prima che chiudesse - gli viene la dubbia idea che "il prossimo Facebook o Google potrebbe essere solo in Medio Oriente . se sostieni la nostra brillante giovinezza." Tuttavia, gli esperti di Internet islamici sono stati impegnati per anni nel definire cosa è o non è conforme alla Sharia e classificare i siti web come "halal" o "haram". Tutti i motori di ricerca islamici precedenti e attuali sono solo un insieme di dati appositamente indicizzato, oppure sono i principali motori di ricerca come Google, Yahoo e Bing con una sorta di sistema di filtraggio utilizzato per impedire agli utenti di accedere a siti haram come siti di nudità, LGBT, gioco d'azzardo e qualsiasi altra cosa considerata anti-islamica.

Tra gli altri motori di ricerca orientati alla religione, sono comuni Jewogle, la versione ebraica di Google, e SeekFind.org, un sito cristiano che include filtri per tenere gli utenti lontani da contenuti che potrebbero minare o indebolire la loro fede.

Risultati personali e bolle di filtro

Molti motori di ricerca, come Google e Bing, utilizzano algoritmi per indovinare selettivamente quali informazioni un utente vorrebbe vedere in base alle attività passate sul sistema. Di conseguenza, i siti Web mostrano solo informazioni coerenti con gli interessi passati dell'utente. Questo effetto è chiamato "bolla del filtro".

Tutto ciò porta al fatto che gli utenti ricevono molte meno informazioni che contraddicono il loro punto di vista e si isolano intellettualmente nella propria "bolla informativa". Pertanto, l'"effetto bolla" può avere conseguenze negative per la formazione dell'opinione civica.

Distorsioni dei motori di ricerca

Sebbene i motori di ricerca siano programmati per classificare i siti Web in base a una combinazione di popolarità e pertinenza, la realtà è che la ricerca sperimentale indica che vari fattori politici, economici e sociali influenzano le SERP.

Questo pregiudizio può essere un risultato diretto di processi economici e commerciali: le aziende che fanno pubblicità su un motore di ricerca possono diventare più popolari nei risultati di ricerca organici su quel motore di ricerca. La rimozione dei risultati di ricerca che non rispettano le leggi locali è un esempio dell'influenza dei processi politici. Ad esempio, Google non mostrerà alcuni siti web neonazisti in Francia e Germania, dove la negazione dell'Olocausto è illegale.

La distorsione può anche essere una conseguenza dei processi sociali, poiché gli algoritmi dei motori di ricerca sono spesso progettati per escludere punti di vista non formattati a favore di risultati più "popolari". Gli algoritmi di indicizzazione dei principali motori di ricerca danno la priorità ai siti americani.

La bomba di ricerca è un esempio di un tentativo di manipolare i risultati di ricerca per motivi politici, sociali o commerciali.

Guarda anche

Qwika
Elenchi librerie elettroniche biblioteche e sistemi di ricerca
Barra degli strumenti per sviluppatori Web

Appunti

Letteratura

Ashmanov I. S., Ivanov A.A. Promozione del sito sui motori di ricerca. - M.: Williams, 2007. - 304 pag. - ISBN 978-5-8459-1155-1.
Baikov V.D. Internet. Cerca per informazioni. Promozione del sito web. - San Pietroburgo. : BHV-Pietroburgo, 2000. - 288 pag. - ISBN 5-8206-0095-9.
Kolisnichenko D. N. Motori di ricerca e promozione di siti web su Internet. - M.: Dialettica, 2007. - 272 p. - ISBN 978-5-8459-1269-5.

Lande D.V. Cerca la conoscenza su Internet. - M.: Dialettica, 2005. - 272 p. - ISBN 5-8459-0764-0.

Lande D.V., Snarsky A. A., Bezsudnov I.V. Internet: Navigazione in reti complesse: modelli e algoritmi. - M.: Librokom (Redazione URSS), 2009. - 264 p. - ISBN 978-5-397-00497-8.

Chu H., Rosenthal M. Motori di ricerca per il Web World Wide: una metodologia di studio comparativa e valutazione (inglese) // ATTI DEL MEETING ANNUALE-SOCIETÀ AMERICANA PER LA SCIENZA DELL'INFORMAZIONE: journal. - 1996. - Vol. 33. - P. 127-135.

Gandal, Neil. La dinamica della concorrenza nel mercato dei motori di ricerca su Internet. - 2001. - Vol. 19. - P. 1103–1117. -

La ricerca professionale su Internet richiede software specializzato, nonché motori di ricerca e servizi di ricerca specializzati.

PROGRAMMI

http://dr-watson.wix.com/home - un programma progettato per studiare array di informazioni testuali al fine di identificare entità e relazioni tra di loro. Il risultato del lavoro è una relazione sull'oggetto in studio.

http://www.fmsasg.com/ - Sentinel Vizualizer è uno dei migliori software di connessione e visualizzazione delle relazioni al mondo. L'azienda ha completamente russificato i suoi prodotti e ha collegato una hotline in russo.

http://www.newprosoft.com/ - "Web Content Extractor" è il software di estrazione dati di siti Web più potente e facile da usare. Ha anche un efficiente ragno Visual Web.

SitoSputnik – un pacchetto software che non ha analoghi al mondo, che consente di ricercare ed elaborare i suoi risultati in Internet Visibile e Invisibile, utilizzando tutti i motori di ricerca necessari all'utente.

WebSite-Watcher: consente di monitorare le pagine Web, comprese quelle protette da password, monitorare forum, feed RSS, newsgroup, file locali. Ha un potente sistema di filtri. Il monitoraggio è automatico e fornito in modo intuitivo. Il programma con funzionalità avanzate costa 50 euro. Costantemente aggiornato.

http://www.scribd.com/ è la piattaforma più popolare al mondo e sempre più utilizzata in Russia per ospitare vari tipi di documenti, libri, ecc. per l'accesso gratuito con un comodissimo motore di ricerca per nomi, argomenti, ecc.

http://www.atlasti.com/ - è lo strumento più potente ed efficace disponibile per i singoli utenti, le piccole e anche le medie imprese per l'analisi qualitativa delle informazioni. Il programma è multifunzionale e quindi utile. Combina le possibilità di creare un unico ambiente informativo per lavorare con vari file di testo, fogli di calcolo, audio e video nel loro insieme, nonché strumenti per l'analisi e la visualizzazione qualitative.

Ashampoo ClipFinder HD - Una percentuale crescente del flusso di informazioni è costituita da video. Di conseguenza, gli scout competitivi hanno bisogno di strumenti per lavorare con questo formato. Uno di questi prodotti è l'utilità gratuita presentata. Ti consente di cercare video in base a criteri specificati su archivi di file video come YouTube. Il programma è facile da usare, mostra tutti i risultati della ricerca su una pagina con informazioni dettagliate, titoli, durata, ora in cui il video è stato caricato nella memoria, ecc. C'è un'interfaccia russa.

http://www.advego.ru/plagiatus/ - il programma è realizzato da ottimizzatori SEO, ma è abbastanza adatto come strumento di intelligence su Internet. Il plagio mostra il grado di unicità del testo, le fonti del testo, la percentuale di corrispondenza del testo. Il programma controlla anche l'unicità dell'URL specificato. Il programma è gratuito.

http://neiron.ru/toolbar/ - include un componente aggiuntivo per combinare le ricerche di Google e Yandex e consente inoltre di eseguire analisi competitive basate sulla valutazione dell'efficacia dei siti e della pubblicità contestuale. Implementato come plugin per FF e GC.

http://web-data-extractor.net/ è una soluzione universale per ottenere qualsiasi dato disponibile su Internet. L'impostazione dei dati di taglio da qualsiasi pagina viene eseguita in pochi clic del mouse. Devi solo selezionare l'area dati che vuoi salvare e Datacol selezionerà la formula per tagliare questo blocco.

CaptureSaver è uno strumento professionale di ricerca su Internet. Solo un indispensabile programma di lavoro che permette di acquisire, archiviare ed esportare qualsiasi informazione su Internet, comprese non solo pagine web, blog, ma anche notizie RSS, e-mail, immagini e molto altro. Ha le funzionalità più ampie, un'interfaccia intuitiva e un prezzo ridicolo.

http://www.orbiscope.net/en/software.html - sistema di monitoraggio web a prezzi più che convenienti.

http://www.kbcrawl.co.uk/ - software per il lavoro, incluso in "Internet invisibile".

http://www.copernic.com/en/products/agent/index.html - il programma consente di effettuare ricerche utilizzando più di 90 motori di ricerca, più di 10 parametri. Consente di unire i risultati, eliminare i duplicati, bloccare i collegamenti interrotti, mostrare i risultati più rilevanti. Disponibile in versioni gratuite, personali e professionali. Utilizzato da oltre 20 milioni di utenti.

Maltego è un software fondamentalmente nuovo che permette di stabilire la relazione di soggetti, eventi e oggetti nella vita reale e su Internet.

SERVIZI

nuovo https://hunter.io/ è un efficiente servizio di rilevamento e convalida della posta elettronica.

https://www.whatruns.com/ è uno scanner facile da usare ma efficace per scoprire cosa funziona e cosa non funziona su un sito Web e quali sono le falle di sicurezza. Implementato anche come plugin per Chrom.

https://www.crayon.co/ è un mercato americano a basso costo e una piattaforma di intelligence competitiva su Internet.

http://www.cs.cornell.edu/~bwong/octant/ - localizzatore host.

https://iplogger.ru/ - un servizio semplice e conveniente per determinare l'IP di qualcun altro.

http://linkurio.us/ è un nuovo potente prodotto per gli addetti alla sicurezza economica e gli investigatori sulla corruzione. Elabora e visualizza una vasta gamma di informazioni non strutturate provenienti da fonti finanziarie.

http://www.intelsuite.com/en è una piattaforma online in lingua inglese per l'intelligence competitiva e il monitoraggio.

http://yewno.com/about/ è il primo sistema operativo per tradurre le informazioni in conoscenza e visualizzare informazioni non strutturate. Attualmente supporta inglese, francese, tedesco, spagnolo e portoghese.

https://start.avalancheonline.ru/landing/?next=%2F - servizi di previsione e analisi di Andrey Masalovich.

https://www.outwit.com/products/hub/ - un set completo di programmi autonomi per il lavoro professionale sul web 1.

https://github.com/search?q=user%3Acmlh+maltego - estensioni per Maltego.

http://www.whoishostingthis.com/ - motore di ricerca per hosting, indirizzi IP, ecc.

http://appfollow.ru/ - analisi delle applicazioni basate su recensioni, ottimizzazione ASO, posizioni in cima e risultati di ricerca per App Store, Google Play e Windows Phone Store.

http://spiraldb.com/ è un servizio implementato come plugin per Chrom che ti permette di ottenere molte informazioni preziose su qualsiasi risorsa elettronica.

https://millie.northernlight.com/dashboard.php?id=93 - un servizio gratuito che raccoglie e struttura le informazioni chiave su industrie e aziende. È possibile utilizzare pannelli informativi basati sull'analisi del testo.

http://byratino.info/ - raccolta di dati fattuali da fonti pubblicamente disponibili su Internet.

http://www.datafox.co/ - Piattaforma CI che raccoglie e analizza informazioni sulle aziende di interesse per i clienti. C'è una demo.

https://unwiredlabs.com/home - un'applicazione specializzata con un'API per la ricerca per geolocalizzazione di qualsiasi dispositivo connesso a Internet.

http://visualping.io/ è un servizio per il monitoraggio dei siti e, prima di tutto, delle foto e delle immagini su di essi. Anche se la foto è apparsa per un secondo, sarà nell'e-mail dell'abbonato. Ha un plug-in per Google Chrome.

http://spyonweb.com/ è uno strumento di ricerca che consente di effettuare un'analisi approfondita di qualsiasi risorsa Internet.

http://bigvisor.ru/ - il servizio consente di monitorare le campagne pubblicitarie per determinati segmenti di beni e servizi o per organizzazioni specifiche.

http://www.itsec.pro/2013/09/microsoft-word.html - Istruzioni di Artem Ageev sull'utilizzo dei programmi Windows per le esigenze di intelligenza competitiva.

http://granoproject.org/ è uno strumento open source per ricercatori che tracciano reti di connessioni tra persone e organizzazioni in politica, economia, criminalità e altro. Consente di connettere, analizzare e visualizzare informazioni ottenute da varie fonti, oltre a mostrare relazioni significative.

http://imgops.com/ è un servizio per estrarre metadati da file grafici e lavorare con essi.

http://sergeybelove.ru/tools/one-button-scan/ - un piccolo scanner online per controllare le falle di sicurezza nei siti Web e in altre risorse.

http://isce-library.net/epi.aspx - servizio di ricerca di fonti primarie tramite un frammento di testo in inglese

https://www.rivaliq.com/ è uno strumento efficace per condurre intelligence competitiva nei mercati occidentali, principalmente europei e americani di beni e servizi.

http://watchthatpage.com/ è un servizio che consente di raccogliere automaticamente nuove informazioni da risorse monitorate su Internet. I servizi di servizio sono gratuiti.

http://falcon.io/ è una sorta di Rapportive per il Web. Non sostituisce Rapportive, ma fornisce strumenti aggiuntivi. A differenza di Rapportive, fornisce un profilo generale di una persona, come se fosse incollato insieme dai dati dei social network e menzionato in web.http://watchthatpage.com/ - un servizio che consente di raccogliere automaticamente nuove informazioni da risorse monitorate sul Internet. I servizi di servizio sono gratuiti.

https://addons.mozilla.org/en/firefox/addon/update-scanner/ è un componente aggiuntivo per Firefox. Tiene traccia degli aggiornamenti della pagina web. Utile per i siti web che non hanno feed di notizie (Atom o RSS).

http://agregator.pro/ è un aggregatore di portali di notizie e media. Utilizzato da marketer, analisti, ecc. per analizzare i flussi di notizie su determinati argomenti.

http://price.apishops.com/ è un servizio web automatizzato per il monitoraggio dei prezzi per gruppi di prodotti selezionati, negozi online specifici e altri parametri.

http://www.la0.ru/ è un servizio conveniente e pertinente per l'analisi di collegamenti e backlink a una risorsa Internet.

www.recordedfuture.com è un potente strumento di analisi e visualizzazione dei dati implementato come servizio online basato sul cloud computing.

http://advse.ru/ è un servizio con lo slogan "Impara tutto sui tuoi concorrenti". Ti consente di ottenere i siti Web della concorrenza in base alle query di ricerca, analizzare le campagne pubblicitarie della concorrenza su Google e Yandex.

http://spyonweb.com/ – il servizio consente di identificare i siti con le stesse caratteristiche, inclusi quelli che utilizzano gli stessi identificatori del servizio di statistiche di Google Analytics, indirizzi IP, ecc.

http://www.connotate.com/solutions - una linea di prodotti per l'intelligence competitiva, la gestione del flusso di informazioni e la trasformazione delle informazioni in asset informativi. Include sia piattaforme complesse che semplici servizi economici che ti consentono di monitorare efficacemente insieme alla compressione delle informazioni e ottenere solo i risultati di cui hai bisogno.

http://www.clearci.com/ è una piattaforma di intelligence competitiva per aziende di tutte le dimensioni, dalle startup e piccole aziende alle aziende Fortune 500. Progettato come saas.

http://startingpage.com/ è un componente aggiuntivo di Google che ti consente di eseguire ricerche su Google senza correggere il tuo indirizzo IP. Supporta pienamente tutte le funzioni di ricerca di Google, incluso il russo.

http://newspapermap.com/ è un servizio unico che è molto utile per un ufficiale di intelligence competitiva. Collega la geolocalizzazione con un motore di ricerca multimediale online. Quelli. scegli la regione o anche la città o la lingua che ti interessa, vedi il luogo e l'elenco delle versioni online di giornali e riviste sulla mappa, clicca sull'apposito pulsante e leggi. Supporta la lingua russa, interfaccia molto intuitiva.

http://infostream.com.ua/ è un sistema di monitoraggio delle notizie Infostream molto conveniente, caratterizzato da una selezione di prima classe, abbastanza conveniente per qualsiasi portafoglio, da uno dei classici della ricerca su Internet D.V. Lande.

http://www.instapaper.com/ è uno strumento molto semplice ed efficace per salvare le pagine web necessarie. Può essere utilizzato su computer, iPhone, iPad, ecc.

http://screen-scraper.com/ - consente di estrarre automaticamente tutte le informazioni dalle pagine Web, scaricare la stragrande maggioranza dei formati di file, inserire automaticamente i dati in vari moduli. I file e le pagine scaricati vengono archiviati in database e svolgono molte altre funzioni estremamente utili. Funziona su tutte le principali piattaforme, ha una versione professionale completamente funzionale gratuita e molto potente.

http://www.mozenda.com/ - dotato di diversi piani tariffari e accessibile anche per le piccole imprese, un servizio web per il monitoraggio web multifunzionale e la consegna delle informazioni necessarie all'utente da siti selezionati.

http://www.recipdonor.com/ - il servizio consente di monitorare automaticamente tutto ciò che accade sui siti dei concorrenti.

http://www.spyfu.com/ - e questo è se hai concorrenti stranieri.

www.webground.su è un servizio per il monitoraggio di Runet, creato da professionisti della ricerca su Internet, che include tutti i principali fornitori di informazioni, notizie, ecc., ed è in grado di monitorare le impostazioni individuali per le esigenze dell'utente.

MOTORI DI RICERCA

https://www .idmarch .org/ è il miglior motore di ricerca per l'archivio mondiale dei documenti pdf in termini di qualità. Attualmente sono stati indicizzati più di 18 milioni di documenti pdf, dai libri ai rapporti classificati.

http://www.marketvisual.com/ è un motore di ricerca unico che consente di cercare i proprietari e il top management per nome completo, nome dell'azienda, posizione o una combinazione di essi. I risultati della ricerca contengono non solo gli oggetti desiderati, ma anche le loro relazioni. Progettato principalmente per i paesi di lingua inglese.

http://worldc.am/ è un motore di ricerca di foto ad accesso libero con riferimento alla geolocalizzazione.

https://app.echosec.net/ è un motore di ricerca di pubblico dominio che si descrive come lo strumento di analisi più avanzato per le forze dell'ordine, i professionisti della sicurezza e dell'intelligence. Consente di ricercare le foto pubblicate su vari siti, piattaforme social e social network in relazione a specifiche coordinate di geolocalizzazione. Attualmente sono collegate sette origini dati. Entro la fine dell'anno, il loro numero sarà più di 450. Grazie a Dementy per il suggerimento.

http://www.quandl.com/ è un motore di ricerca per sette milioni di banche dati finanziarie, economiche e sociali.

http://bitzakaz.ru/ - motore di ricerca per gare d'appalto e ordini governativi con funzionalità aggiuntive a pagamento

Website-Finder - consente di trovare siti che sono scarsamente indicizzati da Google. L'unico limite è che cerca solo 30 siti web per ogni parola chiave. Il programma è facile da usare.

http://www.dtsearch.com/ è il motore di ricerca più potente che consente di elaborare terabyte di testo. Funziona su desktop, web e intranet. Supporta dati statici e dinamici. Consente di cercare in tutti i programmi MS Office. La ricerca è condotta da frasi, parole, tag, indici e molto altro. L'unico motore di ricerca federato disponibile. Ha versioni sia a pagamento che gratuite.

http://www.strategator.com/ - ricerca, filtra e aggrega le informazioni aziendali da decine di migliaia di fonti web. Cerca gli USA, la Gran Bretagna, i principali paesi della CEE. È molto rilevante, facile da usare, ha opzioni gratuite ea pagamento ($ 14 al mese).

http://www.shodanhq.com/ è un insolito motore di ricerca. Subito dopo l'apparizione, ha ricevuto il soprannome di "Google per hacker". Non cerca le pagine, ma determina indirizzi IP, tipologie di router, computer, server e workstation ubicati ad un determinato indirizzo, traccia catene di server DNS e permette di implementare molte altre interessanti funzioni per la competitive intelligence.

http://search.usa.gov/ è un motore di ricerca per siti Web e database aperti di tutte le agenzie governative statunitensi. I database contengono molte informazioni utili e pratiche, anche per l'uso nel nostro paese.

http://visual.ly/ – La visualizzazione viene sempre più utilizzata per presentare i dati. È il primo motore di ricerca di infografica sul web. Insieme al motore di ricerca, il portale dispone di potenti strumenti di visualizzazione dei dati che non richiedono competenze di programmazione.

http://go.mail.ru/realtime - cerca discussioni su argomenti, eventi, oggetti, argomenti in tempo reale o personalizzato. La ricerca precedentemente molto criticata in Mail.ru funziona in modo molto efficiente e fornisce risultati interessanti e pertinenti.

Zanran è il primo e unico motore di ricerca di dati appena avviato ma già funzionante, estraendo dati da file PDF, fogli di calcolo EXCEL, dati su pagine HTML.

http://www.ciradar.com/Competitive-Analysis.aspx è uno dei migliori motori di ricerca al mondo per l'intelligenza competitiva nel deep web. Estrae quasi tutti i tipi di file in tutti i formati sull'argomento di interesse. Implementato come servizio web. I prezzi sono più che ragionevoli.

http://public.ru/ - Ricerca efficace e analisi professionale delle informazioni, archivio multimediale dal 1990. La mediateca online offre un'ampia gamma di servizi di informazione: dall'accesso agli archivi elettronici delle pubblicazioni dei media in lingua russa e alle rassegne stampa tematiche già pronte al monitoraggio individuale e agli studi analitici esclusivi basati sui materiali di stampa.

Cluuz è un giovane motore di ricerca con ampie opportunità di intelligenza competitiva, soprattutto su Internet in lingua inglese. Consente non solo di trovare, ma anche di visualizzare, stabilire collegamenti tra persone, aziende, domini, e-mail, indirizzi, ecc.

www.wolframalpha.com è il motore di ricerca di domani. Per una query di ricerca, fornisce informazioni statistiche e fattuali disponibili sull'oggetto della richiesta, comprese le informazioni visualizzate.

www.ist-budget.ru - ricerca universale nei database di appalti pubblici, gare d'appalto, aste, ecc.

Un motore di ricerca è un database di informazioni specifiche su Internet. Molti utenti credono che non appena inseriscono una query in un motore di ricerca, l'intera Internet venga immediatamente scansionata, ma non è affatto così. La scansione di Internet avviene costantemente, molti programmi, dati sui siti vengono inseriti in un database, dove, secondo determinati criteri, tutti i siti e tutte le loro pagine sono distribuiti in vari elenchi e database. Cioè, è una specie di file di dati e la ricerca non avviene su Internet, ma su questo file.

Motori di ricerca popolari

Yandex è il più grande motore di ricerca in Runet.

Oltre al motore di ricerca, Yandex offre 77 servizi aggiuntivi, i più popolari dei quali sono il servizio di posta Yandex, il browser Yandex, il disco Yandex, le informazioni sul traffico e sul meteo, il denaro Yandex e molto altro. Il motore di ricerca considera la tua posizione quando fornisce i risultati di ricerca. Inoltre, il programma di ricerca viene costantemente aggiornato per fornire risultati più corretti, progettati per il massimo contenuto informativo per l'utente.

Google è il motore di ricerca più popolare al mondo.

Oltre al motore di ricerca, Google offre molti servizi aggiuntivi, software e hardware, tra cui il servizio di posta, il browser Google Chrome, la più grande videoteca di YouTube e molti altri progetti. Google sta acquistando con sicurezza molti progetti che portano grandi profitti. La maggior parte dei servizi non sono rivolti a un utente diretto, ma a fare soldi su Internet e sono integrati con un focus sugli interessi degli utenti europei e americani.

Mail è un motore di ricerca popolare principalmente a causa del servizio di posta.

Ci sono molti servizi aggiuntivi, la cui chiave è la posta Mail, al momento Mail possiede il social network Odnoklassniki, la propria rete My World, il servizio Money-mail, molti giochi online, tre browser quasi identici con nomi diversi. Tutte le applicazioni e i servizi hanno molti contenuti pubblicitari. Il social network "VKonatkte" blocca le transizioni dirette ai servizi di posta, sostenendo un gran numero di virus.

Wikipedia.

Wikipedia è un sistema di riferimento ricercabile.

Un motore di ricerca no-profit che esiste sulle donazioni private, quindi non riempie le pagine di pubblicità. Un progetto multilingue il cui obiettivo è creare un'enciclopedia di riferimento completa in tutte le lingue del mondo. Non ha autori specifici, è compilato e gestito da volontari provenienti da tutto il mondo. Ogni utente può sia scrivere che modificare un articolo.

La pagina ufficiale è www.wikipedia.org.

Youtube è la più grande libreria di video.

Hosting video con elementi di un social network, in cui ogni utente può aggiungere un video. Dal momento in cui sono stati acquisiti da Google Ink, non è richiesta una registrazione separata per YouTube, è sufficiente registrarsi al servizio di posta di Google.

La pagina ufficiale è youtube.com.

Yahoo! è il secondo motore di ricerca più importante al mondo.

Ci sono servizi aggiuntivi, il più famoso dei quali è Yahoo mail. Nell'ambito del miglioramento della qualità del motore di ricerca, Yahoo trasmette i dati sugli utenti e le loro query a Microsoft. Da questi dati si forma un'idea degli interessi degli utenti, nonché un mercato per i contenuti pubblicitari. Il motore di ricerca Yahoo, così come, è impegnato nell'assorbimento di altre società, ad esempio Yahoo possiede il servizio di ricerca Altavista e il sito di e-commerce Alibaba.

La pagina ufficiale è www.yahoo.com.

WDL è una biblioteca digitale.

La biblioteca raccoglie libri di valore culturale in forma digitale. L'obiettivo principale è aumentare il livello di contenuto culturale di Internet. L'accesso alla biblioteca è gratuito.

La pagina ufficiale è www.wdl.org/ru/.

Bing è un motore di ricerca di Microsoft.

Il sito ufficiale è www.baidu.com.

Motori di ricerca in Russia

Rambler è un motore di ricerca "filo-americano".

È stato originariamente creato come portale Internet multimediale. Come molti altri motori di ricerca, dispone di servizi di ricerca di immagini, file video, mappe, previsioni del tempo, sezione notizie e molto altro. Gli editori offrono anche un browser gratuito Rambler-Nichrome.

La pagina ufficiale è www.rambler.ru.

Nigma è un motore di ricerca intelligente.

Un motore di ricerca più conveniente grazie alla presenza di molti filtri e impostazioni. L'interfaccia consente di includere o escludere valori simili suggeriti nella ricerca per ottenere risultati migliori. Inoltre, quando si riceve un risultato di ricerca, consente di utilizzare le informazioni provenienti da altri principali motori di ricerca.

La pagina ufficiale è www.nigma.ru.

Aport - catalogo merci online.

In passato, il motore di ricerca, ma dopo che gli sviluppi e le innovazioni sono stati sospesi, ha perso rapidamente terreno e . Al momento, Aport è una piattaforma di trading, in cui vengono presentate merci di oltre 1500 aziende.

La pagina ufficiale è www.aport.ru.

Sputnik è un motore di ricerca nazionale e un portale Internet.

Creato da Rostelecom. Attualmente è in fase di test.

Il sito ufficiale è www.sputnik.ru.

Metabot è un motore di ricerca in via di sviluppo.

Compito di Metabot è creare un motore di ricerca per tutti gli altri motori di ricerca, creando posizioni per l'emissione dei risultati, tenendo conto dei dati dell'intero elenco dei motori di ricerca. Cioè, è un motore di ricerca per i motori di ricerca.

La pagina ufficiale è www.metabot.ru.

Il motore di ricerca è stato sospeso.

La pagina ufficiale è www.turtle.ru.

KM - multiportale.

Inizialmente il sito era un multiportale con la successiva introduzione di un motore di ricerca. La ricerca può essere effettuata sia all'interno del sito che su tutti i siti Runet tracciati.

La pagina ufficiale è www.km.ru.

Gogo: non funziona, reindirizza a un motore di ricerca.

La pagina ufficiale è www.gogo.ru.

Il multiportale russo, che non è molto popolare, ha bisogno di essere migliorato. Il motore di ricerca include notizie, TV, giochi, mappa.

La pagina ufficiale è www.zoneru.org.

Il motore di ricerca non funziona, gli sviluppatori suggeriscono di utilizzare il motore di ricerca.

La pagina ufficiale è www.au.ru.

I motori di ricerca (PS) sono da tempo una parte indispensabile di Internet. Oggi sono meccanismi enormi e complessi che non sono solo uno strumento per trovare tutte le informazioni necessarie, ma anche aree piuttosto interessanti per gli affari.

Molti utenti di ricerca non hanno mai pensato ai principi del loro lavoro, a come vengono elaborate le richieste degli utenti, a come questi sistemi sono costruiti e funzionano. Questo materiale aiuterà le persone impegnate nell'ottimizzazione e a comprendere il dispositivo e le principali funzioni dei motori di ricerca.

Funzioni e concetto di PS

Sistema di ricerca- si tratta di un complesso hardware-software progettato per implementare la funzione di ricerca su Internet, e rispondere ad una richiesta dell'utente, che solitamente viene impostata sotto forma di frase di testo (o meglio di query di ricerca), emettendo un collegamento elenco delle fonti di informazione, effettuato per rilevanza. I motori di ricerca più comuni e più grandi: Google, Bing, Yahoo, Baidu. In Runet - Yandex, Mail.Ru, Rambler.

Diamo un'occhiata più da vicino al significato della query di ricerca stessa, prendendo come esempio il sistema Yandex.

La richiesta deve essere formulata dall'utente nel pieno rispetto dell'oggetto della sua ricerca, nel modo più semplice e conciso possibile. Ad esempio, vogliamo trovare informazioni in questo motore di ricerca: "come scegliere un'auto per te". Per fare ciò, apri la pagina principale e inserisci una query per cercare "come scegliere un'auto". Quindi le nostre funzioni si riducono a seguire i collegamenti forniti alle fonti di informazione sulla rete.

Ma anche agendo in questo modo, potremmo non ottenere le informazioni di cui abbiamo bisogno. Se otteniamo un risultato così negativo, dobbiamo solo riformulare la nostra query, o non ci sono davvero informazioni utili su questo tipo di query nella base di ricerca (questo è del tutto possibile con i parametri di query "stretti" forniti, come, per esempio, "come scegliere un'auto ad Anadyr").

Il compito più basilare di ogni motore di ricerca è fornire esattamente il tipo di informazioni di cui le persone hanno bisogno. E abituare gli utenti a creare il tipo "corretto" di query sui motori di ricerca, ovvero frasi che corrisponderanno ai loro principi di lavoro, è praticamente impossibile.

Questo è il motivo per cui gli sviluppatori di motori di ricerca realizzano tali principi e algoritmi del loro lavoro che consentirebbero agli utenti di trovare le informazioni a cui sono interessati. Ciò significa che il sistema deve "pensare" nello stesso modo in cui pensa una persona quando cerca le informazioni necessarie su Internet.

Quando inserisce la sua query in un motore di ricerca, vuole trovare ciò che vuole il più facilmente e rapidamente possibile. Dopo aver ricevuto il risultato, l'utente effettua la sua valutazione del sistema, guidato da diversi criteri. È riuscito a trovare le informazioni di cui aveva bisogno? In caso negativo, quante volte ha dovuto riformattare il testo della query per trovarla? Quanto sono state aggiornate le informazioni ricevute? Quanto velocemente il motore di ricerca ha elaborato la sua richiesta? Quanto sono stati convenienti i risultati di ricerca forniti? Il risultato desiderato era il primo o era al 30° posto? Quanta "spazzatura" (informazioni non necessarie) è stata trovata insieme a informazioni utili? Ci saranno informazioni rilevanti per lui, quando utilizzerà il PS, tra una settimana o un mese?

Per ottenere le risposte giuste a tali domande, gli sviluppatori di ricerca migliorano costantemente i principi del ranking e dei suoi algoritmi, aggiungendo loro nuove caratteristiche e funzioni e cercando in ogni modo di far funzionare il sistema più velocemente.

Principali caratteristiche dei motori di ricerca

Indichiamo le caratteristiche principali della ricerca:

Completezza.

La completezza è una delle caratteristiche più importanti della ricerca, è il rapporto tra il numero di documenti informativi trovati dalla richiesta e il loro numero totale su Internet relativo a questa richiesta. Ad esempio, ci sono 100 pagine nella rete con la frase "come scegliere un'auto" e solo 60 del totale sono state selezionate per la stessa query, quindi in questo caso il richiamo della ricerca sarà 0,6. È chiaro che più completa è la ricerca stessa, più è probabile che l'utente trovi esattamente il documento di cui ha bisogno, ovviamente, se esiste.

Precisione.

Un'altra funzione principale di un motore di ricerca è la precisione. Determina il grado di conformità alla richiesta dell'utente delle pagine trovate sul Web. Ad esempio, se ci sono centinaia di documenti per la frase chiave "come scegliere un'auto", metà di essi contiene questa frase e il resto ha semplicemente tali parole (come scegliere correttamente un'autoradio e installarla in un'auto" ), la precisione della ricerca è pari a 50/100 = 0,5.

Più accurata è la ricerca, prima l'utente troverà le informazioni di cui ha bisogno, meno vari "spazzatura" saranno trovati tra i risultati, meno documenti trovati non corrisponderanno al significato della richiesta.

Rilevanza.

Si tratta di una componente significativa della ricerca, caratterizzata dal tempo trascorso dal momento in cui le informazioni vengono pubblicate su Internet fino al loro inserimento nel database dell'indice del motore di ricerca.

Ad esempio, il giorno dopo il rilascio del nuovo iPad, molti utenti si sono rivolti alla ricerca con i tipi di query corrispondenti. Nella maggior parte dei casi, le informazioni su questa notizia sono già disponibili nella ricerca, sebbene sia trascorso pochissimo tempo dalla sua comparsa. Ciò è dovuto ai grandi motori di ricerca che dispongono di un "database veloce" che viene aggiornato più volte al giorno.

Velocità di ricerca.

Una funzione come la velocità di ricerca è strettamente correlata alla cosiddetta "tolleranza di carico". Ogni secondo, un numero enorme di persone si rivolge alla ricerca, tale carico di lavoro richiede una significativa riduzione del tempo per elaborare una richiesta. Qui gli interessi sia del motore di ricerca che dell'utente coincidono completamente: il visitatore vuole ottenere risultati il più rapidamente possibile e il motore di ricerca deve elaborare la sua richiesta il più rapidamente possibile per non rallentare l'elaborazione delle richieste successive.

visibilità.

La presentazione visiva dei risultati è un elemento essenziale della comodità di ricerca. Per molte query, il motore di ricerca trova migliaia e in alcuni casi milioni di documenti diversi. A causa della vaghezza della compilazione delle frasi chiave per la ricerca o della sua imprecisione, anche i primissimi risultati della query non sempre hanno solo le informazioni necessarie.

Ciò significa che una persona spesso deve effettuare la propria ricerca tra i risultati forniti. Una varietà di componenti delle pagine di emissione di PS ti aiuta a navigare nei risultati della ricerca.

Storia dei motori di ricerca

Quando Internet ha iniziato a svilupparsi, il numero dei suoi utenti regolari era piccolo e la quantità di informazioni a cui accedere era relativamente piccola. Fondamentalmente, solo gli specialisti nei campi di ricerca avevano accesso a questa rete. A quel tempo, il compito di reperire informazioni non era così rilevante come lo è adesso.

Uno dei primi metodi per organizzare un ampio accesso alle risorse informative è stata la creazione di cataloghi di siti e i collegamenti ad essi hanno iniziato a essere raggruppati per argomento. La risorsa Yahoo.com, aperta nella primavera del 1994, è diventata un tale primo progetto. Successivamente, quando il numero di siti nella directory di Yahoo è aumentato notevolmente, è stata aggiunta l'opzione per cercare le informazioni necessarie nella directory. Non era ancora un motore di ricerca a tutti gli effetti, poiché lo scopo di tale ricerca era limitato solo ai siti inclusi in questa directory e non a tutte le risorse su Internet. Le directory di collegamento erano molto utilizzate in passato, ma al momento attuale hanno quasi completamente perso la loro popolarità.

Dopotutto, anche gli enormi cataloghi di oggi contengono informazioni su una piccola parte dei siti su Internet. La directory più famosa e più grande del mondo contiene informazioni su cinque milioni di siti, mentre il database di Google contiene informazioni su oltre 25 miliardi di pagine.

Il primo vero motore di ricerca è stato WebCrawler, apparso nel 1994.

AltaVista e Lycos apparvero l'anno successivo. Inoltre, il primo è stato per molto tempo il leader nella ricerca di informazioni.

Nel 1997, Sergey Brin ha creato il motore di ricerca Google con Larry Page come progetto di ricerca presso la Stanford University. Oggi è Google, il motore di ricerca più popolare e popolare al mondo.

Nel settembre 1997 è stato annunciato (ufficialmente) Yandex PS, che è attualmente il motore di ricerca più popolare su Runet.

Secondo settembre 2015, le quote dei motori di ricerca nel mondo sono così distribuite:

Google - 69,24%;
Bing - 12,26%;
Yahoo! - 9,19%;
Baidu - 6,48%;
AOL - 1,11%;
Chiedi - 0,23%;
Eccita - 0,00%

Secondo dicembre 2016, condivisioni dei motori di ricerca in Runet:

Yandex - 48,40%
Google - 45,10%
Search.Mail.ru - 5,70%
Rambler - 0,40%
Bing - 0,30%
Yahoo - 0,10%

Principi dei motori di ricerca

In Russia, il motore di ricerca principale è Yandex, poi Google e poi [email protected]. Tutti i grandi motori di ricerca hanno una propria struttura, che è abbastanza diversa dagli altri. Tuttavia, è possibile individuare gli elementi principali comuni a tutti i motori di ricerca.

Modulo di indicizzazione.

Questo componente è composto da tre robot:

Ragno(in inglese spider) - un programma progettato per scaricare pagine Web. Il "ragno" scarica una pagina specifica, estraendo da essa tutti i collegamenti contemporaneamente. Il codice html viene scaricato da quasi tutte le pagine. Per fare ciò, i robot utilizzano i protocolli HTTP.

"Spider" funziona come segue. Il robot invia una richiesta al server "get/path/document" e altri comandi di richiesta HTTP. In risposta, il programma del robot riceve un flusso di testo che contiene informazioni su un tipo di servizio e, naturalmente, il documento stesso.

URL della pagina scaricata;
la data in cui è stata scaricata la pagina;
intestazione di risposta http del server;
codice html, "corpo" della pagina.

cingolato(ragno "viaggiatore"). Questo programma va automaticamente a tutti i collegamenti che si trovano nella pagina e li evidenzia anche. Il suo compito è determinare dove dovrebbe andare lo spider in futuro, in base a questi collegamenti o in base a un determinato elenco di indirizzi.

indicizzatore(Indexing bot) è un programma che analizza le pagine scaricate dagli spider.

L'indicizzatore smonta completamente la pagina nei suoi elementi costitutivi e li analizza utilizzando i propri tipi di algoritmi morfologici e lessicali.

L'analisi viene effettuata su varie parti della pagina, come intestazioni, testi, link, stile e caratteristiche strutturali, tag html, ecc.

Pertanto, il modulo di indicizzazione consente di seguire i collegamenti di un determinato numero di risorse, scaricare pagine, estrarre la massa di collegamenti a nuove pagine dai documenti ricevuti e di farne un'analisi dettagliata.

Banca dati

Banca dati(o indice del motore di ricerca) - un complesso di archiviazione dati, un array di informazioni in cui i parametri di ciascuno elaborato dal modulo di indicizzazione e il documento scaricato sono archiviati in un certo modo.

server di ricerca

Questo è l'elemento più importante dell'intero sistema, perché la velocità e, ovviamente, la qualità della ricerca dipendono direttamente dagli algoritmi alla base della sua funzionalità.

Il server di ricerca funziona in questo modo:

La richiesta che arriva dall'utente è sottoposta ad analisi morfologica. Viene generato l'ambiente informativo di qualsiasi documento disponibile nel database (verrà ulteriormente visualizzato come snippet, ovvero un campo informativo del testo corrispondente a questa richiesta).
I dati ricevuti vengono passati come parametri di input a un modulo di classificazione specializzato. Vengono elaborati per tutti i documenti e, di conseguenza, per ciascuno di tali documenti viene calcolata la propria valutazione, che caratterizza la pertinenza di tale documento rispetto alla richiesta dell'utente e altri componenti.
A seconda delle condizioni impostate dall'utente, questa valutazione potrebbe essere modificata da altre.
Quindi viene generato lo snippet stesso, ad es. per ogni documento trovato, dalla tabella corrispondente vengono estratti il titolo, l'annotazione che meglio soddisfa la richiesta e un collegamento a questo documento, mentre vengono evidenziate le forme e le parole delle parole trovate.
I risultati della ricerca ricevuta vengono trasmessi alla persona che l'ha eseguita sotto forma di pagina su cui vengono emessi i risultati della ricerca (SERP).

Tutti questi elementi sono strettamente interconnessi e funzionano, interagendo, formando un meccanismo distinto, ma piuttosto complicato per il funzionamento del PS, che richiede ingenti dispendio di risorse.

Abbiamo pubblicato un nuovo libro, "Social Media Content Marketing: come entrare nella testa degli abbonati e farli innamorare del tuo marchio".

Se capisci davvero qualcosa, allora a fondo. E se sei iscritto al nostro blog, probabilmente vorrai diventare uno specialista interessante o vuoi saperne di più sulla ricerca web. Per ottenere ciò che vuoi, chip e trucchi non bastano. Devi allargare i tuoi orizzonti.

Un motore di ricerca è un programma ampio e complesso progettato per cercare informazioni su Internet.

Vi siete mai chiesti come appariva ciò che usiamo ogni giorno, cosa esiste su Internet e perché tutti gli studi funzionano solo con e? Non mettere queste domande nel dimenticatoio. Solo 10 minuti ed ecco un altro argomento di conversazione che puoi facilmente supportare.

Come sono nati i motori di ricerca

Tanto tempo fa, quando Internet era giovane e verde...

Gli utenti, che, va detto, erano pochissimi, ne avevano abbastanza dei propri segnalibri. Ma questo non è durato a lungo: presto è diventato difficile per una persona navigare nella varietà apparsa sulla rete in breve tempo.

E per snellire in qualche modo il caos, sono state inventate Yahoo, DMOZ e altre directory (alcune esistono ancora), in cui gli autori hanno aggiunto e ordinato i siti emergenti in categorie. Per un po' la vita è diventata più facile.

Ma Internet ha continuato a espandersi e presto le dimensioni dei cataloghi si sono trasformate in qualcosa di incredibilmente gigantesco. Quindi gli sviluppatori hanno pensato prima a cercare all'interno delle directory e solo successivamente a creare un sistema automatizzato per indicizzare tutto ciò che è su Internet in modo da semplificare il lavoro di tutti gli utenti.

Ecco come sono apparsi i primi robot di ricerca.

Qual è stato il primo motore di ricerca

Il primo motore di ricerca è Wandex (beh, da confondere con Yandex!).Questo e altri primi servizi, ovviamente, erano tutt'altro che perfetti. Per una query di ricerca, hanno fornito qualcosa di completamente diverso da quello che siamo abituati a vedere ora, ad es. non il massimo pertinente pagine, e tutto di seguito, ignorando la classifica. Il 1 gennaio 2012, Wandex è stato rilanciato.

Così il primo PS iniziò il suo lavoro.Quali sono i motori di ricercasu internet moderno? Allego una lista.

Quali sono i motori di ricerca: i re della pista da ballo

Sorprendentemente, c'è chi discutequal è il miglior motore di ricerca. Non lo farei, semplicemente perché sono diversi e in generale tutto dipende dall'obiettivo e che tipo di utente sei.

Yandex

È il motore di ricerca più popolare nel nostro paese. LiveInternet lo afferma Yandex Il 50,9% lo utilizza, mentre Google rappresenta il 40,6% (dati di giugno 2015).

Esiste un tale mito che ci siano molte più richieste commerciali in Yandex rispetto al concorrente più vicino. Mi sono imbattuto un paio di volte nel pensiero che a causa della regionalità affinata nel corso degli anni, il tipo di pubblico o il suo numero potrebbero differire: questo è il motivo della superiorità di Yandex nelle query commerciali. Quindi non crederci. Menzogna.

Google

Il motore di ricerca di Google è il più popolare ovunque tranne che in Russia :) Ha molte possibilità per direzioni diverse. In generale, il leader mondiale indiscusso tra i robot di ricerca.

Google stesso è apparso all'incirca insieme a Yandex ed è arrivato in Russia solo nel 2004, quando Yandex ha rafforzato la sua posizione.

Il processo di ricerca su Google è diventato un nome familiare per molti terrestri. Ma quando dico a mia madre "Google", continua a cercare le informazioni di cui ha bisogno in Yandex :) Non lo sa affattoquali motori di ricerca esistono su Internet.

Cosa sono i motori di ricerca: un elenco di PS poco conosciuti

La maggior parte degli utenti di Internet non è nemmeno consapevolequali sono i motori di ricerca diversi da Yandexe Google. Quindi eccoli qui;) Incontra!

La quota di ricerca di questo motore di ricerca difficilmente può essere definita grande, ma le cifre stanno lentamente crescendo. Anche se non dovresti perdere il fatto che questi numeri dipendono direttamente da Odnoklassniki, Mail.ru mail e altre cose da Mail Corporation.

Questa è una vera vecchia scuola. Immagina: quando è apparso questo motore di ricerca, alcuni SEO stavano semplicemente imparando a camminare. In generale, Rambler ha avuto la possibilità di dominare la palla, ma ciò non è accaduto per una serie di motivi. Attualmente, questo non è più un vero motore di ricerca, ma una sorta di insieme di servizi che utilizzano il motore Yandex come motore di ricerca, ad esempio ce n'è uno. La partecipazione, tra l'altro, è abbastanza discreta: poco più di un milione di utenti visita la pagina principale di Rambler al giorno.

Inoltre, Rambler ha una versione Rambler Lite (tutto è uguale, solo senza meteo, notizie, pubblicità, ecc.) e XRambler , che combina 15 motori di ricerca contemporaneamente.

Quanti nomi ha cambiato questo motore di ricerca! Per 8 anni è riuscito a diffamare il nome MSN Search, poi Windows Live Search, quindi ha abbreviato il nome precedente in Live Search e ora è arrivato al nome Bing. Molti sostengono che la qualità della ricerca sia vicina allo standard stabilito da Google.

Ora è difficile chiamare Yahoo un motore di ricerca, poiché secondo il contratto tutti i siti di proprietà di Yahoo utilizzano il motore di ricerca Bing. Le ultime notizie sull'accordo sono disponibili all'indirizzo motori di ricerca.

Webalta

Sicuramente questo cosiddetto motore di ricerca ti è familiare. Dovevi selezionarlo come un segno di spunta dal tuo browser?Tutti sono da tempo consapevoli delle azioni oscure di questo motore di ricerca. Ahimè, nessuno è interessato a questo PS. Gli utenti cercano solo articoli su come rimuovere questa spazzatura dal proprio computer.

Nigma

Questo motore di ricerca è molto diverso dagli altri. E se non sorprenderai nessuno con la base di indici di altri motori di ricerca, allora la capacità di risolvere problemi in chimica e matematica distingue Nigma dagli altri PS. Nigma offre anche una ricerca di musica, libri, giochi e torrent.

Il motore di ricerca, creato per ordine del governo russo, è considerato il primo motore di ricerca statale al mondo. Offre una ricerca medica separata (ricerca di farmacie, medicinali e articoli sulle malattie). Un argomento molto conveniente con "Paese conveniente", in cui tutte le raccomandazioni che aiutano un cittadino sono raccolte in un unico posto. Ecco, ad esempio, la sezione "Documenti".

Questo PS è molto diverso da quellocosa sono i motori di ricerca su internet. DuckDuckGo - motore di ricerca open source con un'interessante politica di non utilizzare la "bolla del filtro". Per chi non lo sapesse: “filter bubble” è quando un motore di ricerca mostra nei risultati di ricerca solo quei risultati di ricerca che (questo PS) ritiene necessari per un determinato utente. Allo stesso tempo, l'opinione dell'utente stesso non interessa a nessuno. DuckDuckGo si assicura che l'utilizzo del loro motore di ricerca ti assicuri di ottenere tutte le informazioni che il motore di ricerca ha.

"DuckDuckGo" sta guadagnando slancio. Già quest'estate (2015), il creatore del PS ha segnalato tre miliardi di richieste in termini annuali.

Mentre scrivevo questo articolo, avevo alcune domande. In questi casi, non mi affido all'estradizione, sì, e perché, se c'è una persona seduta accanto a me che sa tutto di Internet? Mini-intervista a Igor Ivanov.

Igor Ivanov

Responsabile dello studio SEMANTICA

Se il mio sito è in Google e Yandex, il mio sito sarà in cima ai risultati di ricerca in altri motori di ricerca più piccoli?

C'è una probabilità molto alta che ciò accada. Yandex e Google stanno sviluppando i loro algoritmi nella giusta direzione e altri motori di ricerca stanno seguendo il loro esempio. C'è stato un caso in cui Google ha notato che il motore di ricerca Bing non solo copia i loro algoritmi, ma i risultati di ricerca.

Perché probabilità e non certezza assoluta? Perché altri motori di ricerca non avranno il tempo di adattare i loro algoritmi di ranking allo standard stabilito dai loro concorrenti di maggior successo.

Vale la pena avanzare su Sputnik, Mile e altri “nostri” motori di ricerca? Quale motore di ricerca è migliore?