Come funzionano i motori di ricerca
Per poter avere del traffico significativo verso il proprio sito, occorre che il sito appaia nelle prime posizioni della SERP (pagina dei risultati del motore di ricerca), come abbiamo visto nel precedente post.
Ad esempio, se digitiamo “casa vacanze” e premiamo il tasto “Invio”, dopo pochi istanti Google ci offre un elenco di risultati. Secondo i riscontri di vari studi, eseguiti negli ultimi anni, i primi tre risultati avranno tra il 60% e l’80% dei click.
La domanda, a questo punto è: “Cosa bisogna fare per cercare di essere in queste primissime posizioni?”.
Per rispondere a questa domanda, dobbiamo cercare di capire come Google ha costruito questa classifica e, più in particolare, quali sono i motivi per cui Google ha posizionato alcuni siti ai primi posti (figura seguente).
Quindi, dobbiamo capire come funzionano i motori di ricerca.
Come funzionano i motori di ricerca
Quando interroghiamo un motore di ricerca, i risultati appaiono rapidamente nel giro di uno o due secondi. A prima vista, sembrerebbe che il motore di ricerca esamini tutte le pagine web e ne estragga i risultati in quella piccola frazione di tempo.
Però, se un motore di ricerca dovesse esaminare in modo sequenziale ogni parola nei milioni di documenti presenti nel web, per trovare traccia delle parole che sono state digitate, ci vorrebbero parecchie ore. In realtà, le cose sono molto diverse: quasi tutto il lavoro svolto dai motori di ricerca avviene prima che qualcuno digiti la query (l’interrogazione fatta ai motori di ricerca e che corrisponde alle parole chiave digitate nel box di ricerca: nel nostro esempio, la query è “casa vacanze”).
I motori di ricerca archiviano una copia delle pagine presenti nel web all’interno di un enorme database – diviso a sua volta in tanti database più piccoli – chiamato comunemente Search Index (Indice di Ricerca). Tutto il Search Index è contenuto in una miriade di server: Google, ad esempio, possiede oltre 600 mila server, sparsi su più di 70 data center.
Per costruire questo enorme database, e tenerlo costantemente aggiornato, i motori di ricerca si servono di due strumenti:
- gli indirizzi dei siti web forniti dal webmaster o dal titolare quando si crea un nuovo sito (figura seguente);
- particolari programmi, chiamati crawler, spider o robot, che esaminano in maniera automatizzata e metodica tutta la rete.
Il motore di ricerca indica al crawler di visionare i siti che gli sono stati sottoposti; il crawler arriva sul sito indicato, esamina la pagina che gli è stata indicata e ne fa una copia, che viene archiviata nel database del motore di ricerca. Perché il crawler trovi le altre pagine del sito, occorre che siano collegate da link diretti: infatti, questi programmi si spostano sulla rete seguendo i link.
Di conseguenza, se esistono delle pagine del sito che non sono collegate da link, vengono ignorate dal crawler e non saranno indicizzate.
Nell’esempio riportato nella figura seguente, Google ha indicato al suo crawler di andare all’indirizzo web corrispondente alla Pagina A (home page del sito); dopo averla visionata, copiata e inviata al database di Google, il crawler si sposta alle pagine B ed E seguendo i link, le copia e le invia al database; non può però esaminare le pagine C e D perché, non essendo collegate da link alle pagine che ha visto, il crawler non le “vede” e, quindi, per lui e di conseguenza anche per Google, queste pagine non esistono.
Se nelle pagine che ha potuto vedere ci sono dei link esterni, cioè dei link che rimandano ad altri siti, il crawler li registra e, in un secondo tempo, segue questi link ed esamina le pagine. In questo modo, seguendo gli indirizzi forniti dal motore di ricerca e i link esterni, i crawler esaminano tutta la rete e archiviano la maggior parte delle pagine web presenti.
I crawler rivisitano periodicamente i siti già archiviati. La frequenza dipende dai tempi di modifica delle pagine e dal PageRank (nel caso di Google). I siti che hanno pagine modificate a distanza di poco tempo, e che hanno un alto PageRank, vengono visti più spesso di siti che non modificano mai le loro pagine ed hanno un basso PageRank.
Le pagine copiate dal crawler, come abbiamo detto, sono archiviate nel Search Index.
Possiamo immaginare che questo database sia composto da vari archivi, uno per ogni parola chiave (o frase chiave), e che questi archivi siano classificati in ordine alfabetico. Ad ogni parola e ad ogni fase chiave è associato un elenco di tutte le pagine web trovate dal crawler e contenenti quel termine. Ogni pagina web viene archiviata attribuendole un numero specifico.
Come vengono classificate le pagine per ciascuna parola chiave?
Risposta: utilizzando un algoritmo, cioè qualcosa di simile ad un’equazione matematica e che esprime un insieme di “regole” ben definite: considera questo e quello, aggiungi quest’altro, moltiplica ….
Questo particolare algoritmo viene chiamato ranking algorithm, cioè algoritmo di classificazione. Ogni motore di ricerca ha il proprio algoritmo, composto da specifiche regole (o fattori) e, spesso, anche quando considerano uno stesso fattore, i motori di ricerca possono dargli un diverso “peso”. Questo spiega perché i motori di ricerca mostrano spesso differenti risultati per una stessa query.
Quali fattori considerano i motori di ricerca e, in particolare, Google?
(Rispondendo a questa domanda faremo un passo decisivo per capire come vengono classificati i risultati nella SERP).
Naturalmente, le formule degli algoritmi usati dai motori di ricerca non sono pubbliche. Però, attraverso esperimenti, test, analisi dei brevetti depositati dai principali motori di ricerca e dichiarazioni rese da alcuni loro rappresentanti, la comunity degli esperti ha imparato a conoscere molte delle componenti utilizzate per costruire l’algoritmo di classificazione dei principali motori di ricerca.
Non si è arrivati a conoscere esattamente i singoli fattori utilizzati, che d’altra parte sono molto numerosi (l’algoritmo di Google, ad esempio, contiene più di 200 fattori). Si è però riusciti a comprendere le principali componenti, quelle che influenzano maggiormente i motori di ricerca.
Su queste basi, si può ragionevolmente affermare che l’algoritmo di Google, così come quello dei principali motori di ricerca, è costruito in modo da classificare le pagine web in base al loro grado di importanza.
L’importanza è valutata secondo due principali categorie:
- l’autorità del sito;
- la pertinenza del contenuto presente nella pagina web.
Di conseguenza, Google:
- ordina le pagine web tenendo conto della loro pertinenza (dalla più pertinente alla meno pertinente);
- sceglie, tra quelle più pertinenti, le pagine web che presentano una maggiore autorità, e le posiziona ai primi posti della SERP.
Per valutare l’autorevolezza di un sito, Google si basa sul numero e sulla qualità dei link che da siti esterni sono collegati al sito. Come abbiamo visto in un precedente post, questi fattori sono riassunti nel Pagerank, che è una misura dell’autorevolezza e della popolarità di un sito.
Per valutare la “pertinenza”, Google prende in considerazione la presenza delle parole chiave nelle pagine web. Così, nel nostro esempio, Google ha indicizzato una buona parte delle pagine presenti sul web contenenti le parole chiave “casa vacanze”.
Di conseguenza, se vogliamo avere qualche possibilità che la nostra pagina web compaia tra i risultati di ricerca, quando un utente cerca “casa vacanze”, dobbiamo fare in modo che queste due parole compaiano nel contenuto della nostra pagina.
Questa è una condizione necessaria ma non sufficiente.
Infatti, per classificare le pagine web, Google valuta, oltre alla presenza delle specifiche parole chiave, anche dove e quanto sono presenti all’interno della pagina.
Continuerò questo discorso nel prossimo post.
Per il momento, vorrei concludere riassumendo il percorso seguito dai motori di ricerca quando si formula una query.
Conclusioni
Ritorniamo al nostro esempio.
Google ha nel suo database le parole chiave “casa vacanze” e ad esse sono associate le pagine web in cui è presente questo termine.
Se qualcuno digita “casa vacanze” e preme il tasto “Invio”, in una frazione di secondo il motore di ricerca:
- analizza le parole digitate (ordine delle parole, ortografia, segni di punteggatura, uso di lettere maiuscole, ecc.) e decide quali cercare: ad esempio, singolare e/o plurale (“oltre “casa vacanze”, può scegliere “case vacanze”, “casa vacanza”, “case vacanza”, ecc.); ed anche, può decidere se cercare le parole nello stesso ordine o anche in ordine invertito (“vacanze casa”, “vacanza casa”, “vacanze case”); ecc.;
- passa in rassegna il suo database, ricercando le parole chiave che ha selezionato;
- estrae le pagine web associate alle parole chiave selezionate, ordinate in base alla loro importanza;
- visualizza i risultati sullo schermo di chi ha effettuato l’interrogazione.
In sintesi, si può dire che i motori di ricerca svolgono quattro principali funzioni:
- scansione del web;
- costruzione dell’indice;
- calcolo dell’importanza e classificazione dei risultati delle ricerche;
- presentazione dei risultati della ricerca.