Google PageRank

Google PageRank

Il PageRank è un valore calcolato da Google per ogni documento presente nel suo database. Tale valore rappresenta la qualità del documento e a parità di altri fattori, ne influenza il posizionamento.

Negli ultimi anni Google è diventato indiscutibilmente il motore di ricerca più utilizzato del mondo come riportano tutte le statistiche eseguite negli ultimi anni dagli istituti di ricerca più diversi.

La popolarità di cui gode Google è in parte dovuta alla semplicità di utilizzo della sua interfaccia, che è spartana e non affollata dalle miriadi di lucette e finestrelle che riempiono le pagine di molti altri motori di ricerca. Un altro fattore che però ha sicuramente influito nell’accrescere la preferenza degli utenti verso Google è stata la qualità dei risultati ottenuti dalle ricerche, che sono sempre stati molto più rilevanti rispetto a quelli degli altri motori.

La qualità dei risultati di Google è dovuta principalmente all’utilizzo del PageRank, un metodo per assegnare alle pagine web un punteggio di qualità indipendente dal contenuto e dalla ricerche, messo a punto dai due fondatori di Google: Sergey Brin e Lawrence Page, appunto.

Quando il PageRank fu concepito i motori di ricerca utilizzavano già la link-popularity come parametro di correzione dell’ordinamento nei loro algoritmi ed anche i webmaster avevano iniziato a capire come aumentarla artificialmente, creando centinaia o anche migliaia pagine web che contenessero link ai siti da “spingere”.

Il concetto migliorativo della link-popularity e che sta alla base del PageRank originale è il seguente:

A ogni documento presente nel database di Google viene assegnato un punteggio (PageRank ) basato sul numero di link che riceve dagli altri documenti, ma non tutti i link che il documento riceve hanno la stessa forza, infatti quelli ricevuti da documenti importanti, cioè da documenti che a loro volta ricevano molti link, contano di più.

Quindi il PageRank di un documento dipende dal PageRank dei documenti che lo linkano, ma anche il PageRank di questi ultimi dipende da quello dei siti che linkano loro e così via. Risulta quindi abbastanza chiaro che il calcolo del PageRank è un calcolo ricorsivo, che deve essere ripetuto un certo numero di volte per avere un risultato che possa essere considerato stabile.

Alla fine dei calcoli ogni documento indicizzato da Google avrà il suo valore di PageRank che servirà come fattore correttivo nella fase di ordinamento dei risultati delle ricerche degli utenti, per cui a parità di altri fattori il documento con PageRank più alto avrà un posizionamento migliore.

Sono ormai passati molti anni dalla prima formulazione del concetto di PageRank messa a punto da Sergey Brin e Lawrence Page alla Stanford University ed è probabile che la formula originale, basata esclusivamente sul computo dei link che le pagine web si scambiano fra loro, sia stata implementata con altri fattori di diversa natura adatti a correggere le distorsioni dovute a nuovi tipi di approcci dei webmaster che, ormai da tempo maneggiano vendite e scambi di link ad alto PR con troppa disinvoltura per non aver dato nell’occhio.

Sicuramente gli ingegneri di Google stanno cercando nuovi sistemi per calcolare il valore di PageRank di un documento e su questi possiamo fare solo ipotesi, anche se, come vedremo, alcune di esse sono molto fondate.

La formula originale del PageRank

Analizzare la formula originale per il calcolo del PageRank vi darà la possibilità di verificare il funzionamento di un meccanismo di valutazione dei documenti web attraverso parametri esterni.

Questa è la formula pubblicata da Sergey Brin e Larry Page nel documento The Anatomy of a Large-Scale Hypertextual Web Search Engine risalente al 1998.PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

– PR(A) è il PageRank della pagina A
– n è il numero delle pagine che linkano la pagina A
– PR(T1) – PR(Tn) sono i valori di PageRank delle n pagine T1 – Tn che linkano la pagina A
– C(T1) – C(Tn) sono il numero di link in uscita presenti nelle pagine T1 – Tn
– d è un fattore correttivo di attenuazione che può assumere valori fra 0 e 1.

Dalla formula si capisce chiaramente che il PageRank di ogni pagina nel database di Google è influenzato da quello delle pagine che contengono un link ad essa.

Inoltre dall’espressione PR(Tn)/C(Tn)) si evince che il PR di una pagina T(n) che contiene un link alla pagina A non fa aumentare il PR di questa di una quantità direttamente proporzionale al PageRank della pagina Tn, infatti tale valore viene diviso per il numero dei link in uscita presenti in quest’ultima.

Questo significa che se la pagina Tn ha molti link in uscita aumenterà di una quantità minore il PR della Pagina A ( e ovviamente di tutte le altre pagine a cui puntano i suoi link in uscita ).

Una conseguenza di questa formula è che una pagina web può avere un alto PR se molte pagine, anche a basso PR, contengono un link ad essa; ma può averlo anche se riceve un solo link da una pagina ad alto PR, cioè da un documento a “importante” perché a sua volta molto citato e magari con pochi link uscenti.

Proprio qui il Pagerank si dimostra migliorativo rispetto alla link-popularity nel quantificare l’importanza dei documenti web:

Se una pagina riceve molti link è sicuramente una pagina importante, ma proprio per questo un link ricevuto da quella pagina deve essere considerato più importante di un altro. Questo, secondo Page e Brin, avvicina il valore di PageRank al significato comune che gli esseri umani danno al termine di “importanza” di un documento, rispetto al semplice conteggio dei link che puntano ad esso.

L’algoritmo del PageRank, così come riportato nella formula originale è un algoritmo ricorsivo, ovvero deve essere eseguito un determinato numero di volte prima che possa restituire un risultato stabile. Inizialmente a tutte le pagine viene assegnato un valore di PR uguale ad 1, dopodichè per ognuna di esse viene effettuato il calcolo del PR.

Ovviamente, quando avremo finito di calcolare il valore di PR per l’ultima pagina i valori iniziali su cui abbiamo basato il calcolo di tutte le altre saranno cambiati. Quindi il calcolo del PR verrà ripetuto per tutte le pagine con i nuovi valori un numero di volte sufficiente ad ottenere un risultato stabile.

Un’altra interpretazione intuitiva della formula, proposta dagli inventori, è la seguente: Brin e Page immaginano un utente “random” del web, che partendo da una pagina casuale segua i link che trova in essa senza poter mai tornare indietro con il pulsante “back” del browser. Questo utente però può decidere aleatoriamente di smettere di seguire i link e andare su una nuova pagina casuale per poi ricominciare a seguirli.

La probabilità che un visitatore visiti una pagina corrisponde al valore di PageRank di quella pagina.

Il valore “d” è il cosiddetto “damping factor” un fattore correttivo ( attenuante ) che può essere interpretato come la probabilità che in una pagina il visitatore “si annoi” e invece di seguire i link vada su un altro indirizzo casuale.

Come loro stessi dichiarano nel documento del 1998 “…questo fattore correttivo può essere aggiunto a una sola pagina o a un gruppo di pagine. Questo permette personalizzazioni e può rendere virtualmente impossibile ingannare deliberatamente il sistema allo scopo di ottenere punteggi alti”.

Concludo questa pagina con una considerazione: l’analisi della struttura dei link del web fa sicuramente ancora parte del calcolo del PageRank, ma è possibile, anzi probabile, che adesso ne sia per l’appunto solo una parte.

Quando Page e Brin hanno ideato questo meccanismo di valutazione erano due studenti universitari e il prototipo di Google che era da poco funzionante su dei server della Stanford University aveva indicizzato circa 24 milioni di pagine. Adesso Google esiste, preleva e memorizza dati da più di sette anni per un totale che supera gli otto miliardi di documenti indicizzati. Inoltre da più di tre anni è considerato unanimemente il motore di ricerca più utilizzato nel mondo. Attraverso l’analisi dei dati trasmessi dalla toolbar di Google, il monitoraggio del comportamento degli utenti sulle proprie pagine dei risultati, ed altri servizi quali Google News o per esempio il nuovissimo Google web accelerator , Google adesso ha sicuramente a disposizione altri parametri che offrono importanti indizi sull’importanza che gli utenti attribuiscono ai documenti presenti nel web.

Articolo originale di Stefano Becheroni