Google, brevetto sui dati storici

Information retrieval based on historical data

Dati Storici rappresentano tutti quei dati relativi ad analisi di tipo storico che i motori di ricerca possono analizzare per attribuire al sito la posizione più indicata tra i risultati delle ricerche: dall’anzianità del dominio alla variabilità nel trend degli aggiornamenti.

Questo “sistema di valorizzazione” consiste nell’ esaminare diversi aspetti nell’ archiviazione di dati di tipo “storico“, relativi cioè ai cambiamenti e gli aggiornamenti nel tempo di un documento.

L’ invenzione che vi andremo a descrivere si riferisce generalmente ai sistemi di reperimento delle informazioni e, più in particolare, ai sistemi e ai metodi usati per generare i risultati di una ricerca basati, almeno in parte, sui dati storici associati a documenti rilevanti.

Idealmente, un motore di ricerca , in risposta a una data ricerca di un utente, fornirà i risultati più attinenti e più relativi ai termini ricercati.

Per raggiungere lo scopo esso può monitorare e archiviare informazioni reperite da un documento di diverso tipo e in diversi modi Una categoria di motori di ricerca identifica i documenti rilevanti per una certa ricerca basandosi sulla comparsa nel documento dei termini associati alla ricerca.

Un’ altra identifica i documenti rilevanti per una certa ricerca usando altri fattori oltre, o in addizione, alla presenza dei termini ricercati nei documenti: uno di questi fattori, per esempio, usa le informazioni associate ai link uscenti o entranti di un documento per determinarne l’ importanza ai fini della ricerca.

L’ importanza di questo documento, la grande quantità di informazioni in esso contenute e la difficoltà di comprensione e di correlazione di tutti gli algoritmi proposti, testimonia come raggiungere un buon posizionamento sui motori di ricerca risulti un’ operazione delicata, con tempi di risposta molto lunghi, in cui le variabili da analizzare e a cui attribuire significati sono tante e complesse e i cui legami molteplici.

Tutte le ipotesi e le teorie sviluppate fino ad ora nel campo del Search Engine Optimization da SEO professionisti e non, potrebbero trovare in questo documento, quindi, una fonte ufficiale di informazioni. Infatti il 31 Marzo 2005 Google ha registrato un brevetto dal titolo Information retrieval based on historical data Reperimento di informazioni basato su dati storici ) presso la US Patent & Trademark Office, in cui nella sezione principale del documento intitolata Exemplary history data , ci sono 99 paragrafi, suddivisi in 14 sub-categorie, in cui vengono descritti molteplici algoritmi eventualmente usati per l’ archiviazione e la restituzione di dati e informazioni.

Brevettati ufficialmente il 31 Marzo 2005 come si può leggere all’ inizio del documento, il brevetto sui dati storici risale al 31 Dicembre 2003 e potrebbe essere, quindi, già parte integrante degli algoritmi di funzionamento di Google e spiegare così alcune teorie in campo SEO, come quella relativa all’ ” effetto sandbox ” o sulla nascita del nuovo TrustRank.

La data iniziale dei documenti

La Data Iniziale può essere vista come il “primo contatto” tra il motore di ricerca e il documento. E’ uno dei parametri fondamentali sul quale si basano molte implementazioni diverse dell’algoritmo: il motore di ricerca, infatti, per poter eseguire le diverse analisi necessarie al reperimento dei dati storici e comparare i dati relativi a periodi diversi, deve attribuire al documento una “data di nascita” dalla quale cominciare a rilevare cambiamenti e aggiornamenti.

Nel brevetto, Google, ci indica l’utilizzo di diversi modi usati dal suo motore di ricerca per reperire la Data Iniziale di un documento:

– attraverso l’esplorazione, cioè con il primo passaggio dello spider nel documento
– attraverso la segnalazione del documento al motore di ricerca da fonti esterne, come ad esempio il modulo di segnalazione Add URL dello stesso Google
– attraverso una combinazione delle prime due tecniche
– attraverso l’esplorazione del web, quando lo spider del motore di ricerca trova per la prima volta un link al documento.

In altre implementazioni dell’algoritmo poi, ci sono anche altri modi di reperire la Data Iniziale: alcuni esempi li possiamo leggere nel Brevetto, ma ci sono anche altre tecniche non specificatamente menzionate, o combinazioni di esse, che possono essere usate per determinare la data iniziale del documento. Alla luce di questo, soffermiamoci sul significato e sulle possibili applicazioni del concetto di Data Iniziale.

La Data Iniziale di un documento è necessaria al motore di ricerca per stabilire quanto sia “vecchio” o “giovane” un documento: per misurare l’ “anzianità” di un documento in un determinato momento, Google nel suo brevetto fa riferimento alla Data Iniziale dello stesso. A seconda, poi, dell’anzianità del documento, e anche in base al settore di competenza dello stesso, ma lo vedremo più avanti, può essere implementato un sistema di valorizzazione che consideri più importante un documento più anziano a dispetto di uno più giovane.

In un esempio del Brevetto, Google indica la corrispondenza del concetto di Data Iniziale con i backlink di un documento: infatti, partendo dall’assunto che un documento con una Data Iniziale abbastanza recente non riceva un numero significante di link da altri documenti rispetto ad un documento più vecchio a cui puntano molti più link, possiamo facilmente intuire che il documento più anziano sia considerato più importante e di conseguenza venga maggiormente valorizzato.

D’altro canto, introducendo il concetto di “ritmo di crescita” dei backlink, cioè quanti backlink riceve un documento in un determinato periodo di tempo a partire dalla Data Iniziale, quanto appena detto sopra potrebbe non essere più vero, ed un documento più giovane con un ritmo di crescita maggiore potrebbe avere più valore di un documento più anziano con più link ma con un ritmo di crescita minore. Questo a testimoniare il fatto che un documento “anziano” ha maggiori probabilità di contenere informazioni “obsolete” rispetto ad un documento più giovane.

In questo modo, il ritmo di crescita dei backlink di un documento può essere monitorato dal motore di ricerca ed usato anche come fattore di determinazione di probabile spam al motore stesso e il concetto di ritmo di crescita diventa quindi un concetto molto importante al fine di “pesare” i backlink di un documento.

Il concetto “ritmo di crescita“, appena descritto per i backlink, assume, quindi, un valore molto importante: ritroveremo in altre sezioni il “ritmo di crescita” di qualcosa, cioè quanto un determinato fattore viene implementato o aggiornato in un determinato periodo di tempo, e vedremo quanto questo concetto sia importante per la corretta lettura di tutto il Brevetto.

L’aggiornamento dei contenuti

L’aggiornamento, o il cambiamento, dei contenuti di un documento o di un sito web possono essere dei fattori determinanti per il posizionamento sui motori di ricerca.

Il motore di ricerca, grazie allo spider che analizza il web nella sua continua ricerca di informazioni, riesce a monitorare gli aggiornamenti, e l’entità di essi, effettuati sul documento o su parti di esso, a partire dalla sua data iniziale o in un determinato lasso di tempo: lo spider archivia, poi, i dati analizzati in una memoria temporanea (la versione cache di Google) in modo da controllare più facilmente se al documento sono apportate modifiche e aggiornamenti.

Nel Brevetto sul reperimento di Dati Storici, Google ci indica anche in che modo potrebbe rilevare e dar peso agli aggiornamenti effettuati: una funzione, che potrebbe essere una somma o una somma pesata, in cui vengono messi in relazione due fattori: uno legato alla frequenza degli aggiornamenti, che indica al motore di ricerca “quanto spesso” viene aggiornato un documento, e uno legato alla quantità degli aggiornamenti effettuati.

La frequenza con cui un documento viene tenuto aggiornato nel tempo può essere determinata dal motore di ricerca facendo uso di “copie” del documento che vengono archiviate nel database del motore e possono essere usate per effettuare analisi comparative in un determinato periodo.

Per determinare, poi, la quantità degli aggiornamenti effettuati, Google nel suo brevetto ci indica diversi fattori che possono essere esaminati per assegnare un punteggio legato alla quantità degli aggiornamenti: dal numero delle nuove pagine in un lasso di tempo, al rapporto di queste ultime con il totale delle pagine contenute dal documento a partire dalla sua Data Iniziale…ma non solo!!

Dal numero dei fattori riportati dal Brevetto possiamo facilmente renderci conto della necessità di aggiornare un documento con contenuti nuovi e validi; infatti la quantità degli aggiornamenti può essere a sua volta una funzione di diversi fattori pesati in maniera differente.

Google può determinare il “tipo” di agggiornamento effettuato e attribuirgli un peso diverso a seconda che il tipo di aggiornamento effettuato sia considerato “importante” o no. Per esempio i cambiamenti di contenuti come commenti, pubblicità, script ed elementi di navigazione possono avere un peso relativamente piccolo od essere addirittura ignorati da Google nella determinazione della quantità degli aggiornamenti.

Dopo aver descritto la frequenza e la quantità degli aggiornamenti, passiamo ad analizzare i vari modi di utilizzo di questi due parametri. Ritroviamo il concetto di “ritmo di crescita” (già visto nella Data Iniziale per il numero di link entranti in un certo documento) applicato agli aggiornamenti o cambiamenti dei contenuti di un documento o di un sito. Il ritmo di crescita degli aggiornamenti in un dato periodo può essere rilevato, esaminato e messo a confronto col ritmo di crescita riferito ad un altro periodo (precedente) per determinare eventuali accelerazioni o decelerazioni negli aggiornamenti dei contenuti: per esempio, a quei documenti in cui viene rilevato un incremento nel ritmo di crescita e nei quali l’entità degli aggiornamenti supera un certo valore, potrebbe essere attribuito un punteggio maggiore rispetto ad altri documenti che non vengono aggiornati, e rimangono statici nel tempo, o che subiscono leggeri aggiornamenti.

Per determinare tutti questi fattori e tenere sotto controllo il ritmo di crescita degli aggiornamenti e la loro entità, il motore di ricerca deve usare fisicamente e materialmente molte risorse: dallo spazio fisico per la memorizzazione dei dati, alle risorse di banda per l’analisi e il rilevamento dei questi ultimi.

Finchè queste risorse sono a disposizione può essere analizzato e archiviato l’intero documento, al fine di rilevarne gli aggiornamenti, ma, in alcune situazioni, queste risorse possono essere momentaneamente insufficienti per una corretta analisi e archiviazione dei dati: in questo caso il motore di ricerca usa archiviare delle “copie” o “rappresentazioni” del documento, invece del documento stesso, e monitorare queste ultime per determinarne gli aggiornamenti. Queste rappresentazioni possono essere delle “signature” (letteralmente firme) di un documento, o un “vettore di dati” in cui sono memorizzati i termini ritenuti più importanti o più frequentemente ricorrenti nel documento.

Con lo stesso tipo di analisi effettuate per determinare l’aggiornamento dei contenuti di un documento, il motore di ricerca può generare, sempre sulla base dei contenuti di un documento, un certo “codice” di somiglianza, in cui memorizzerà una serie di termini o una copia intera del documento, e monitorare questo codice per rilevare gli aggiornamenti effettuati. Lo stesso “codice di somiglianza” può essere usato, poi, dal motore di ricerca, per rilevare eventuali duplicazioni e simili di un documento. A tal proposito, nel brevetto sui dati storici, è indicato che per documenti molto grandi, che includono per esempio parti di documento o documenti interi appartententi a più individui, il punteggio che il motore di ricerca genera può essere assegnato a ciascuno dei sub-documenti, che è aggiornato dal singolo individuo ma che fa parte a tutti gli effetti del “macro” documento.

Alla luce di quanto visto, la frequenza e la quantità degli aggiornamentideicontenuti di un documento, o di un sito internet, possono essere due parametri fondamentali elaborati dal motore per il corretto posizionamento del sito sui motori di ricerca; aggiornare spesso i contenuti di un sito, o di un documento, è sicuramente un fattore da non sottovalutare per ottenere un corretto posizionamento. Il motore, infatti, in generale preferisce siti che aggiornano spesso, e in grande quantità, i propri contenuti, tranne in alcuni casi in cui, per alcune ricerche, possono essere favoriti documenti che non sono stati recentemente aggiornati rispetto al altri aggiornati più di recente.

Le analisi delle ricerche

Le ricerche effettuate dagli utenti nel motore di ricerca e le loro scelte nella pagina dei risultati, possono essere analizzate ed esaminate dal motore e considerate ai fini del posizionamento del documento e del sito.

Una delle intuizioni nel settore del posizionamento sui motori di ricerca, quando non c’era ancora una fonte ufficiale come il Brevetto presentato da Google sul reperimento dei Dati Storici, era quella di pensare che il motore di ricerca considerasse le preferenze degli utenti nella serp associata ad una data ricerca.

Come possiamo ora verificare l’intuizione era valida …ma non assolutamente esaustiva: alcuni esasperarono questo concetto e si generò così una sorta di leggenda metropolitana tale da far cercare e clikkare il sito da posizionare tra le pagine dei risultati forniti dal motore per spingerlo in alto nei risultati. Questa pratica, smentita dalla considerazione del motore degli “accessi unici” ad un documento e associati poi al cambiamento della versione Cache del documento, trova oggi una definizione ufficiale.

Come descritto dal Brevetto di Google, infatti, l’analisi delle ricerche diventa uno dei parametri fondamentali nel reperimento di dati di tipo storico; uno dei primi fattori da analizzare riguarda proprio la quantità di volte nella quale un documento è selezionato nel tempo nei risultati di una ricerca.

Oltre ad associare la preferenza dell’utenza nei risultati di una ricerca, nei confronti di un documento piuttosto che un altro, il motore potrebbe capire, analizzando le ricerche effettuate in un determinato periodo e valutando un particolare insieme di termini, se i termini e il documento sono collegati ad un particolare evento molto popolare od ad un argomento particolarmente “caldo” che catalizza l’attenzione di molti per un certo periodo, e attribuire un valore maggiore ai documenti associati a tali termini. Uno dei modi che Google utilizza per capire se un determinato argomento sia “caldo” è quello di analizzare eventuali cambiamenti nel numero dei risultati associati ad alcune ricerche: un significativo incremento può indicare, infatti, che l’evento associato ad un particolare set di termini (parole chiave), sia “sulla bocca di tutti” e, di riflesso, incrementare il valore dei documenti associati a quelle ricerche.

Altro fattore, da tenere in considerazione sull’analisi delle ricerche, è legato a quelle ricerche che non subiscono variazioni nel tempo, ma che portano, invece, a risultati variabili. L’esempio, sul brevetto di Google, è quello relativo a una ricerca legata a risultati sportivi: in un determinato periodo di tempo è molto probabile che i documenti relativi ad una particolare squadra risultino più “caldi” e più clikkati; in questo caso il motore può monitorare ed analizzare le ricerche effettuate dagli utenti e valorizzare di conseguenza i documenti associati.

Focalizziamo ora l’attenzione ai riferimenti legati ad analisi temporali: ritroviamo, come ritroveremo ovunque sul brevetto, dei riferimenti “impliciti” (nel tempo, in un determinato periodo di tempo) alla Data Iniziale o altri tipi di date indispensabili al motore di ricerca per effettuare le sue analisi sui Dati Storici; di fondamentale importanza è l’introduzione, in relazione ad una analisi storica, del concetto di “staleness” di un documento: un parametro che il motore associa ai documenti che compaiono nei risultati di una ricerca e che indica quanto il documento è considerato “stantio”, superato, obsoleto, per quella data ricerca.

La staleness risulta essere, quindi, un altro parametro da considerare nel posizionamento sui motori di ricerca. Per rilevare la staleness di un documento, Google può basarsi, oltre ai fattori considerati fin qui sulle analisi delle ricerche, su altri fattori come:

  • la Data Iniziale e le rilevazioni temporali ad essa collegate;
  • l’aggiornamento dei contenuti e il loro ritmo di crescita;
  • la crescita del numero di backlink, forward link e anchor.

Per alcune ricerche particolari, i documenti più recenti sono più favoriti: basti pensare a “Last minute”: un utente preferirebbe sicuramente trovare la versione più recente o l’ultima proposta, piuttosto che un documento con informazioni vecchie. In base alle preferenze degli utenti su determinate ricerche e ai documenti da loro selezionati, quindi, il motore di ricerca può imparare per quali ricerche sono più importanti i documenti più recenti e per quali ricerche sono più importanti i documenti più stantii, e aggiustare di conseguenza il loro valore basato sull’analisi delle ricerche.

I link

Prima di rilasciare il Brevetto sul reperimento di informazioni basato sui Dati Storici , infatti, Google usava già da tempo il Page Rank (PR), un algoritmo che attribuisce un valore al documento basandosi soprattutto sui fattori esterni al sito stesso come la Link Popularity (LP): quest’ultima risulta così essere uno dei parametri fondamentali che determinano il posizionamento sui motori di ricerca. La Link Popularity descrive la popolarità del documento, quanti link, e di che tipo, riceve un documento o un sito.

La logica è quella per cui un documento acquisisce importanza in base a quanti link riceve da altri documenti: ovviamente un documento linkato da molti altri documenti viene considerato più importante di uno poco linkato o addirittura isolato.

Ultimamente, Google, ha rilasciato il Trust Rank (TR), un nuovo Brevetto che attribuisce ancora più importanza alla LP, pesando ogni link a partire da un certo numero di grossi siti (hub) che certificano la qualità di un documento ( DMOZ , Yahoo Directory ). Il TR nasce, come altri brevetti, per garantire la buona qualità delle serp e combattere la produzione di massa di link artificiali, con link farm (link factory), e combattere quindi lo SPAM.

La produzione di massa di link, al solo fine di posizionare un documento nei risultati del motore di ricerca, è considerata da Google una tecnica illecita, causa di dubbia qualità delle serp, e quindi combattuta col Trust Rank (Trust = fidato).

Nel Brevetto sui Dati Storici di Google esistono molti criteri basati sui link , da considerare ai fini di un più preciso calcolo della LP e forse anche del TR: infatti, uno dei fattori determinanti, tra i vari criteri adottati sui link, è l’introduzione di un tipo di analisi che dipenda dai pesi assegnati ai link: ogni link può essere valutato, pesato, attraverso l’utilizzo di diversi fattori.

Un link può essere pesato:

  • in base ad una funzione che determini la freschezza del link;
  • ad una funzione che sia a sua volta una “somma di pesiâ€? attribuiti
    al documento valutando diversi fattori;
  • in base alla legittimità e all’autorità del
    sito che contiene i link;
  • in base a diverse combinazioni di quanto detto finora.

La data di apparizione di un link

Il primo fattore da considerare per l’analisi dei Dati Storici basati sui link è relativo alla date di apparizione di nuovi link ai documenti e alle date in cui un link esistente scompare.

In questa parte del Brevetto, come già visto nell’ Aggiornamento dei Contenuti per la misura di parametri che si basano sulla Data Iniziale dei documenti , saranno molto importanti, per la corretta interpretazione del brevetto, i fattori relativi al tempo o al ritmo con cui cresce (o decresce) un determinato fattore.

La data di apparizione di un link, come la data iniziale o la data in cui si effettua un aggiornamento, diventa indispensabile per le analisi effettuate dal motore per valutare i dati storici dei link.

La data di apparizione di un link può essere la data in cui il motore trova il link per la prima volta, oppure potrebbe corrispondere con la data iniziale del documento o una delle date di aggiornamento in cui è comparso il link stesso.

La comparsa e la scomparsa di un link a un documento possono essere viste dal motore di ricerca come fattori che testimoniano rispettivamente la freschezza o la staleness di un documento.

In relazione poi, all’apparizione o alla scomparsa di un link, Google può analizzare la variazione nel tempo dei link che puntano a un documento e in questo rilevare quale sia la tendenza del documento: con che frequenza un documento acquista backlink. Un ritmo crescente nel numero e nella velocità di apparizione di nuovi link in un periodo di tempo, può segnalare al motore di ricerca che il documento sia nuovo, fresco, o comunque mantenuto aggiornato, ed essere meritevole, quindi, di maggior valorizzazione.

La variazione può essere monitorata comparando il numero di nuovi link negli ultimi n giorni col numero di link a partire dalla Data Iniziale del documento, o a partire da una delle date in cui si è aggiornato significativamente il documento dando vita così a una funzione di distribuzione delle età associate alla comparsa di un link che punta a un documento.

Questa funzione assumerà valori differenti a seconda se il documento venga o no aggiornato frequentemente e il motore di ricerca può analizzarla come ulteriore fattore per determinare la freschezza o la stalenessdi un documento.

Alla luce di quanto visto, la frequenza e la quantità del numero di nuovi link a un documento o a un sito internet, possono essere due parametri fondamentali elaborati dal motore per il corretto posizionamento del sito sui motori di ricerca; aumentare in modo legittimo e con costanza il numero dei backlink è sicuramente un fattore da non sottovalutare per ottenere un buon posizionamento.

I testi dei link

Tutti gli operatori che lavorano nel posizionamento sui motori di ricerca hanno capito quanto risultano essere importanti i link per i motori di ricerca, soprattutto per un motore di ricerca come Google che considera molto di più i fattori cosiddetti “esterni” di un sito, come per esempio la link popularity e il peso di un backlink, piuttosto che i fattori di ottimizzazione “interna” relativi alla struttura adottata per il sito, ai tag HTML usati per la formattazione dei testi e alle parole chiave utilizzate.

Detto questo, possiamo ancora imparare molto sull’uso che il motore di ricerca fa dei link:

– una volta rilevati e analizzati i backlink, pesati e rilevata la loro “freschezza”, scopriamo altre novità sempre derivanti dall’analisi dei Dati Storici.

La novità che Google introduce con il suo brevetto sui Dati Storici relativamente ai testi delle ancore riguarda, come ci si sarebbe potuto aspettare dall’interpretazione della sezione relativa ai Criteri basati sui link, il modo in cui i testi delle ancore cambiano nel tempo.

Nello stesso modo in cui vengono analizzati e pesati i link a un documento, possono essere rilevati anche i cambiamenti nel tempo del testo di un link.

Questo anche perchè il testo dell’ancora di un link, e più in generale un link, è spesso considerato come parte integrante del documento a cui punta e di qui l’ovvia conseguenza che il testo contenuto nell’ancora debba essere rilevante per il dominio a cui punta, e non apparire per risultati di ricerche “fuori tema”.

Un esempio classico di questa tecnica è il monitoraggio di un dominio, dei testi delle ancore contenute nei link, per rilevare se il dominio che ospita il documento ha cambiato proprietario, e di conseguenza ha cambiato i suoi contenuti.

In questo caso Google nel suo brevetto sui Dati Storici ci indica che tutti i backlink precedenti, che risultano quindi essere non “in tema” potrebbero essere poco considerati o addirittura ignorati.Tutto questo sempre nell’ottica perseguita da Google di restituire sempre risultati di qualità in tema con le parole chiave ricercate.

Come rilevato dall’analisi dei Criteri sui link, la freschezza di un link risulta essere un parametro utile al motore per effettuare aggiornamenti sul valore di un documento o di un sito. Nello stesso modo, la freschezza del testo di un’ancora può essere determinata e usata dal motore di ricerca per rilevare se c’è stato un aggiornamento, o un cambiamento di argomento, del documento a cui punta il link e di conseguenza aggiornare il valore del documento per il posizionamento sul motore di ricerca.

Il Traffico

Un altro fattore usato dal motore di ricerca, nella sua analisi e valutazione dei dati storici, risulta essere il Traffico associato ad un documento in un determinato periodo di tempo.

In questo momento storico, in cui alcuni algoritmi dei motori di ricerca stanno diventando così complessi da usare funzioni come i filtri bayesiani o l’intelligenza artificiale per l’auto-apprendimento, come potevamo NON pensare che anche il Traffico che riceve un documento o un sito potesse essere un fattore correttivo per il posizionamento sui motori di ricerca?

In termini di qualità, come abbiamo visto nella sezione riguardante l’aggiornamento dei contenuti, un documento costantemente aggiornato può essere considerato più meritevole rispetto ad un documento stantio e quindi risultare meglio posizionato nei risultati delle ricerche.

Questi fattori possono essere rilevati anche attraverso le analisi del traffico associato al documento, attraverso la determinazione delle caratteristiche delle variazioni del traffico : per esempio una grande riduzione di traffico nel tempo può significare che il documento sia da considerare stantio, obsoleto.

Tra l’altro, il Brevetto sul reperimento di Dati Storici nasce come strumento per la lotta allo SPAM per rilevare e combattere tutti quei spammer che cercano di ingannare il motore di ricerca per ottenere migliori posizionamenti nei risultati delle ricerche: una delle strategie adottate da questi riguarda proprio il reindirizzamento del traffico proveniente dal motore di ricerca verso un documento o un sito da “spingere”.

Il Traffico a cui è soggetto un documento può essere monitorato dal motore per rilevare variazioni dello stesso: Google ci indica come il motore di ricerca possa identificare ed esaminare degli Schemi di Traffico , comparando, per esempio, il Traffico medio mensile di un documento al traffico medio durante il mese in cui il documento ha ricevuto il maggior traffico, oppure con il traffico annuale.

In questo modo il motore di ricerca può rilevare periodi in cui un documento è più o meno popolare (genera più o meno traffico), come durante l’estate o i fine settimana, identificare degli schemi di traffico ripetitivi e correggere il valore del documento in relazione al periodo considerato.

Un altro modo usato dal motore di ricerca nell’analisi del traffico di un documento, riguarda il monitoraggio delle caratteristiche della variazione nel tempo per il ” traffico pubblicitario “, traffico derivante cioè da circuiti pubblicitari in cui vengono esaminati diversi fattori: dal numero di inserzioni e il ritmo di aggiornamento nel tempo, alla qualità degli inserzionisti (collecandoci al fattore “peso” attribuito ad un link nell’analisi dei criteri basati sui link) e al grado di traffico da questi generato verso il documento a cui fanno riferimento.

Mentre per il “traffico pubblicitario” appare abbastanza chiaro che i dati e le informazioni possano essere recuperati dal circuito pubblicitario AdSense e AdWords, per la rilevazione del traffico e degli schemi di traffico dovrà esistere un modo in cui Google riesca a monitorare le preferenze di un utente: collegandoci alle Analisi delle Ricerche, sappiamo, per esempio, che Google può monitorare il numero delle volte in cui un documento è selezionato in una pagina di risultati della ricerca e/o il tempo che un utente impiega per arrivare a quel documento.

Ma non è tutto. Cito Jill Whalen di HighRankings.com da un suo articolo riportato su masternewmedia.org:

“Potreste chiedervi come fa Google ad ottenere informazioni sul traffico del vostro sito, dato che voi non avete mai fornito questo tipo di informazioni. Ebbene, Google ha alcuni partner che spiano e che sono installati in migliaia di browser, sotto il nome di “Google Toolbar”. Per usare certe funzioni della toolbar, gli utenti devono acconsentire al trasferimento di dati verso Google, dati che includono quali siti sono stati visitati e per quanto tempo.”

Oltre alla Google Toolbar, se pensiamo che funzioni simili di aggregazione di dati possono essere usate anche da applicazioni come MyGoogleSearch,(anche gli altri più grandi motori di ricerca come MSN e Yahoo hanno sviluppato simili applicazioni) o dal traffico proveniente, per esempio, dalla G-Mail o da GoogleTalk, ed utilizzate dal motore per correggere l’ordinamento dei risultati di una ricerca, si potrebbe pensare ad una nuova era per i motori di ricerca: Motori Intelligenti che ordinano i risultati di una ricerca personalizzandoli a seconda dell’utenza e della ricerca effettuata; una nuova era in cui il posizionamento sui motori di ricerca assumerà connotazioni, caratteristiche e modi di sviluppo sostanzialmente diversi, in cui non ci sarà più un posizionamento “assoluto” nei risultati delle ricerche ma ogni documento verrà posizionato in base alle preferenze dell’utente.

In conclusione anche il traffico associato ad un documento può essere un fattore importante da considerare al fine di migliorare il posizionamento tra i risultati delle ricerche.

Il comportamento degli utenti

Il comportamento degli utenti risulta essere un fattore storico utile alla correzione del punteggio del documento per il posizionamento tra i risultati delle ricerche.

Riepilogo correlazioni

Come abbiamo visto nelle analisi delle ricerche e nella traduzione della parte del brevetto di Google riguardante il traffico dei documenti, non solo le ricerche effettuate dagli utenti nel motore di ricerca e le loro scelte nella pagina dei risultati possono essere analizzate ed esaminate dal motore e considerate ai fini del posizionamento del documento, ma anche il traffico verso un documento o un sito web può essere monitorato e valutato per correggere il punteggio che determina il posizionamento sui motori di ricerca.

Introduzione

Il comportamento degli utenti nei confronti di un documento può essere utile a Google per valutare altri parametri, diversi da quelli descritti nei passati articoli, ma sempre relativi alle preferenze e all’atteggiamento dell’utente.

Mentre, con le analisi delle ricerche, Google valuta le preferenze dell’utente nella scelta di un documento piuttosto di un altro tra i risultati forniti per una certa ricerca, con l’analisi del traffico rileva dati storici e ritmi di diminuzione o accrescimento dei volumi di traffico, con l’analisi del comportamento individuale o di massa degli utenti riesce a valutare l’accessibilità del documento e i tempi di permanenza sullo stesso.

Fattori chiave da analizzare

Come possiamo leggere nella traduzione del paragrafo sul comportamento degli utenti nel Brevetto di Google sui Dati Storici, “il motore di ricerca può monitorare il numero delle volte che un documento è selezionato da un insieme di risultati di una ricerca e/o la quantità di tempo che uno o più utenti spendono accedendo al documento” ; con questo tipo di analisi, applicando i criteri visti finora per l’aggiornamento dei contenuti e i fattori relativi alla freschezza o alla “staleness ” di un documento, Google riesce ad effettuare delle valutazioni che riguardano l’accessibilità dei documenti: quanto tempo, cioè, gli utenti spendono accedendo ad un documento.

Con l’analisi di questi dati in un determinato periodo di tempo, Google potrebbe usare l’accessibilità e la permanenza su un documento come fattori di valutazione che gli permettano di attribuire documento un punteggio legato alla “ freschezza ” del documento: cioè, se prima spendevo 30 secondi per accedere ad un documento, ed ora, ogni volta che seleziono lo stesso documento, spendo 5 secondi per accedervi, il motore di ricerca potrebbe interpretare questo mio comportamento e valutare che il documento sia ormai datato, obsoleto, e non contenga più informazioni fresche e utili.

Il recupero e le analisi dei dati storici

Ma come fa Google a recuperare questi tipi di dati?

Abbiamo già visto nella sezione relativa al traffico come Google abbia molti partner associati nello sviluppo di applicazioni di Information Retrieval; ne parla Jill Whalen di HighRankings, ne parlano Danny Sullivan e Chris Shermansu SearchEngineWatch .

Per effettuare certe analisi specifiche sulle attitudini e il comportamento degli utenti, il motore di ricerca, necessita di reperire dati: lo potrebbe fare attraverso la Google Toolbar , Google Desktop, Gmail o anche semplicemente acquistando i dati necessari da circuiti di analisi approfondite circa le tendenze,i comportamenti e le preferenze dell’utente come Alexa.

Per effettuare delle valutazioni di questo tipo che risultino rispondenti alla realtà dei fatti, il motore di ricerca necessita di un’enorme mole di dati: le informazioni che possono essere reperite rappresentano comunque una piccola percentuale rispetto alla totalità, ma possono già essere utili per tracciare dei profili- tipo per diverse utenze e associare, con metodi statistici, il comportamento generale degli utenti a questi profili.

Google: un po di storia

I primi passi del gigante risalgono al 1995 e all’incontro tra Brin e Page all’Università di Stanford: infatti Google nasce in ambito accademico e non avendo a disposizione capitali ingenti si sviluppa dapprima negli ambienti universitari. In breve tempo una forte eco si comincia a diffondere sul progetto di Brin e Page, un motore di ricerca denominato inizialmente BackRub e basato sull’analisi dei link che puntano ad un determinato sito web (back link).

I fondi erano pochi, così, come la storia ci racconta, Brin e Page si aggiravano tra i vari laboratori dei dipartimenti di informatica alla ricerca di “pezzi” di computer da poter riutilizzare.

1998 – il progetto Google

Il primo passo verso il successo avviene nel 1998 quando Brin e Page acquistano una serie di hard disk assemblandoli in quello che passerà alla storia come il primo server Google, con un case, la leggenda racconta, costruito con i mattoncini Lego nella camera di Larry e formato da comuni personal computer e non sulla tecnologia server, costosissima all’epoca.

Nel web esistevano già motori di ricerca, alcuni dei quali molto popolari come Altavista, e per una gran parte, la navigazione nel web si svolgeva grazie alle directory ( come Yahoo ) e ai portali.

Ma Brin e Page avevano già capito la forza intrinseca della loro tecnologia: ben presto Internet sarebbe cambiata e la ricerca delle informazioni sarebbe stata sempre più complicata e determinante.

Così, mentre Larry rivoluzionava il concetto di server, Sergey si doperava
alla ricerca di partner e finanziatori.

Il primo che Sergey contattò fu l’amico David Filo, fondatore di Yahoo!: Filo incoraggiò i due a sviluppare un propria tecnologia ma sostanzialmente non li aiutò. Cosi come altri grossi portali non risultavano interessati alla tecnologia di ricerca di Brin e Page.

Non trovando sostenitori, decisero di provarci da soli: gli serviva un finanziamento e la prima visita la fecero al loro amico dell’università, Andy Bechtolsheim, uno dei fondatori della Sun Microsystems. Andy capì al volo le potenzialità del progetto ma volette riflettere.

Come racconta Sergey Brin:

“Ci incontrammo una mattina molto presto a Palo Alto sui gradini della casa di un membro della facoltà dell’Università di Stanford. Gli facemmo vedere una demo veloce. Era di fretta, aveva altri appuntamenti, e disse, ‘Invece di discutere tutti i dettagli, perché non vi faccio invece subito un assegno?’ Era intestato a Google Inc. ed era per $100.000.”

Ma Google Inc. ancora non esisteva: nacque nelle seguenti due settimane, in cui in una frenetica ricerca di soci tra amici e parenti, riuscirono a costituire la società e raggiungere un investimento iniziale di un milione di dollari.

Il 7 settembre 1998 Google Inc. inaugura la propri sede: un garage di un amico, in perfetto stile Silicon Valley. Il primo dipendente, Craig Silverstein, direttore della tecnologia, aveva a disposizione un posto macchina, una lavatrice, un asciugatore e un idromassaggio.

Insieme ai mattoncini Lego con cui era costruito il server, il brand di Google era già impostato.

In questo periodo Google.com, ancora in fase beta, elaborava già 10.000 ricerche giornaliere e in breve tempo la stampa di tutto il mondo comincia a parlare di questo nuovo motore di ricerca.

Alle soglie del 2000

1999 – Google Inc.

La crescita è esponenziale: a Febbraio 1999 la compagnia si trasferisce a Palo Alto, ha già 8 dipendenti e sul sito web vengono effettuate 500.000 interrogazioni giornaliere.

Uno dei primi accordi Google Inc lo stipula con Red Hat: da questo momento in poi Google utilizzerà sempre server Linux.

Il 7 Giugno, la compagnia annunciò che aveva ottenuto $25 milioni da due delle principali società di venture capital di Silicon Valley, la Sequoia Capital e la Kleiner Perkins Caufield & Byers .

In perfetto accordo con il brand scelto, le riunioni del consiglio di amministrazione di Google Inc. si svolgevano attorno al tavolo da ping-pong e la società cresceva.

Poco tempo dopo Google Inc. si trasferisce nel cosiddetto Googleplex, gli odierni uffici di Google a Mountain View, California

Il 21 Settembre 1999, fu tolta la scritta “beta” dal sito.

Google: il motore di ricerca più grande del mondo

L’avvento del nuovo millennio rappresenta per Google il momento dell’affermazione
mondiale.

Dopo aver vinto nel maggio sia i Webby Award che un People’s Voice Award, Google nel mese di giungno diventa ufficialmente il più grande motore di ricerca del mondo, offrendo ai suoi utenti la scelta tra un miliardo di documenti archiviati.

Il motore di ricerca di Google veniva usato e distribuito sempre in più siti: ma è con l’introduzione di un programma di keyword-advertising che la compagnia ebbe effettivamente nuovo slancio e cominciò a generare profitti: per estendere la forza del programma ai piccoli imprenditori venne creato e lanciato Google AdWords .

l 26 Giugno Google e Yahoo! annunciarono una partnership che non solo ne cementò la reputazione di provider tecnologico, ma la posizionò come serio business che rispondeva a 18 milioni di query giornaliere. Nei mesi a seguire anche i principali portali Cinesi (NetEase) e Gipponesi (BIGLOBE) siglarono accordi con Google.

Per la fine del 2000 Google rispondeva a 100 milioni di query al giorno e stava cercando nuovi

modi per dare accesso ai propri contenuti dove e quando lo volessero gli utenti. La Google Toolbar era stata appena lanciata e già scaricata e usata da milioni di persone.

2003: l’innovazione continua

Le innovazioni proposte da Google continuarono a ridisegnare non solo il mondo delle ricerca, ma anche quello della pubblicità su Internet.

Google acquista Pyra Labs e diviene la home per Blogger , il servizio leader che offre all’utente di poter condividere le proprie idee e pensieri con tutto il mondo attraverso i web-logs (blog).

Nel frattempo nasce anche il programma Google AdSense , un programma che offre ai siti web di qualsiasi dimensione un modo facile per generare entrate attraverso la pubblicazione di annunci pubblicitari altamente “targetizzati” e in tema con i contenuti del sito stesso, e quindi potenzialmente utili all’utente. La tecnologia di AdSense analizza i testi contenuti in ogni pagina e restituisce gli annunci che sono più attinenti e appropriati, incrementando così anche l’usabilità della pagina web stessa.

A primavera viene rilasciata la versione 2.0 della Google Toolbar con nuovi aggiornamenti che permettono il blocco dei fastidiosi pop-up e il riempimento automatico dei campi form.

In estate arriva Google Deskbar , un’applicazione che rende possibile la ricerca attraverso Google senza l’uso di un browser web.

2004: l’espansione degli orizzonti

Google continua a crescere: il suo indice conta più di 4 miliardi di pagine web archiviate.

Brandchannerl nomiga Google come “Brand of the Year” per l’anno 2003, e ABC News diede forza all’evento nominando Larry e Sergey come “persone della settimana”.

Il 17 febbraio Google annuncia che il suo indice ha raggiunto i 6 miliardi di “oggetti” archiviati, includendo 880 milionidi immagini e 845 milioni di messaggi di Usenet.

Altri servizi vengono poi proposti con la nascita di Google Local Search , un servizio che permette agli utenti di cercare facilmente beni e servizi in vendita nelle vicinanze della propria abitazione.

Poi vennero le ricerche personalizzate su Google Labs, abilitando gli utenti a specificare i propri interessi per aggiustare e personalizzare i risultati delle ricerche.

Il primo Aprile Google pubblica un piano per aprire un centro di ricerche sulla Luna e annuncia un nuovo servizio web per le e-mail: si chiama Gmail , una casella di posta elettronica con uno spazio di partenza di 1 Giga byte a disposizione degli utenti per l’archivio dei propri messaggi.

In quel periodo, in cui le caselle di posta gratuite non superavano i 50 Mega byte di spazio, il servizio offerto da Gmail gratuitamente sembrava una burla da pesce d’aprile come il centro ricerca sulla luna, ma ben presto fu chiaro a tutti che non era affatto così e Gmail si preparava ad essere la prima seria ri-esamina del servizio web di e-mail fino ad allora conosciuto.

In Gmail vengono incorporate potenti funzioni di ricerca e di categorizzazione e archiviazione dei messaggi, offrendo agli utenti, gratuitamente, coì tanto spazio web da archiviare i propri messaggi di posta elettronica per anni.

Il 13 luglio Google annuncia l’acquisto di Picasa, compagnia californiana di Pasadena per il management di foto digitali, creatrice tra l’altro di Hello, una piccola applicazione che permette di postare foto all’interno dei web-logs di Blogger e condividerle con gli amici usando una tecnologia chiamata “istant messenger”.

Il 19 agosto segna uno degli eventi storici della compagnia: l’entrata in borse di Google Inc.

Il 14 ottobre Google rilascia la prima versione di Google Desktop Search , una piccola applicazione per la ricerca tra i propri files, scaricabile e installabile sul proprio personal computer, che usa la tecnologia Google per i criteri di ricerca dei file ed estrazione dei risultati. Sempre in ottobre una nuova beta si affaccia su internet: Google SMS da la possibilità, alle persone che sono lontane dai propri pc, di avere informazioni dalla base dati di Google tramite il proprio cellulare con l’invio di un semplice messaggio di testo: si possono cercare informazioni come definizioni da dizionari, indirizzi di locali e servizi, prezzi prodotti tanto altro. Alla fine del mese Google annuncia l’andamento del primo quadrimestre come compagnia quotata in borse, con un record di entrate di circa 800 milioni di dollari.

Alla fine di ottobre, Google annuncia l’acquisizione di Keyhole Corp, una compagnia per la sviluppo di sistemi satellitari di mappatura cartografica. L’acquisizione diede a Google la possibilità di sviluppare un nuovissimo e potente strumento di ricerca con la visualizzazione di immagini in tre dimensioni, e mettere a disposizione degli utenti la possibilità di cercare attraverso un ricchissimo database di informazioni stradali, mappe cartografiche, esercizi commerciali e altri notevoli punti di interesse.

Espandere gli orizzonti per Google significa raggiungere e conquistare nuovi mercati sviluppando parternship strategiche sui mercati di interesse, come l’Europa e l’estremo oriente.

Nel frattempo, a novembre, l’indice di Google raggiunge gli 8 miliardi di pagine web archiviate.

In dicembre, la nascita dei nuovi Google Groups , una nuova versione del vecchio archivio Usenet in cui Google abilita gli utenti a creare e gestire i propri gruppi di discussione e gli utenti che ne fanno parte.

L’anno si chiude con il lancio di Google Print : un programma gestito da Google, in accordo con lemaggiori università americane, di scansionare e riportare in formato digitale i testi dei libri provenienti dalle loro biblioteche, cosicchè possano essere cercati dagli utenti di tutto il mondo.

TO BE CONTINUED…

Google Hilltop

Hilltop è un algoritmo di ordinamento che permette di assegnare ai documenti un punteggio di “autorevolezza” relativo a specifici argomenti, e migliorare in molti casi gli ordinamenti basati sull’analisi del contenuto e, per esempio, sul PageRank.

Quando gli utenti interrogano i motori di ricerca su argomenti molto popolari i motori restituiscono generalmente un grande numero di documenti. Ordinare questi documenti può essere un grosso problema per degli algoritmi che si limitano ad analizzarne il contenuto, perché, diversamente da quanto accade nel campo dell’information retrieval classica, dove si suppone che tutti i documenti provengano da fonti autorevoli, nel web esiste una grossa percentuale di SPAM, ovvero documenti che sono scritti appositamente per avere un buon posizionamento nei motori di ricerca ma che presentano un contenuto di bassa utilità per l’utente finale. Anche quando non c’è un tentativo deliberato di ingannare i motori di ricerca, i loro indici sono affollati da un grande numero di documenti di qualità estremamente variabile e difficili da ordinare.

Quello che ho appena scritto non è un opinione personale, ma il riassunto dell’introduzione di una pubblicazione del 2002 di Krishna Bharat, un ingegnere di Google, noto fra le altre cose per essere il creatore di Google News.

In response to a query, a search engine returns a ranked list of documents. If the query is about a popular topic (i.e., it matches many documents), then the returned list is usually too long to view fully. Studies show that users usually look at only the top 10 to 20 results. However, we can exploit the fact that the best targets for popular topics are usually linked to by enthusiasts in the same domain. In this paper, we propose a novel ranking scheme for popular topics that places the most authoritative pages on the query topic at the top of the ranking. Our algorithm operates on a special index of “expert documents.” These are a subset of the pages on the WWW identified as directories of links to non-affiliated sources on specific topics. Results are ranked based on the match between the query and relevant descriptive text for hyperlinks on expert pages pointing to a given result page. We present a prototype search engine that implements our ranking scheme and discuss its performance. With a relatively small (2.5 million page) expert index, our algorithm was able to perform comparably on popular queries with the best of the mainstream search engines.

Khrisna Barat aveva già pubblicato interessanti studi, per esempio riguardo alla distillazione del topic di un documento (Improved algorithms for topic distillation in a hyperlinked environment.) ed alla realizzazione di vettori di termini (The Term Vector Database: fast access to indexing terms for Web pages).

Nel 2002, insieme a George A. Mihaila (altro “geniaccio” di cui riparlerò) pubblica “When experts agree: using non-affiliated experts to rank popular topics”. Questa pubblicazione analizza il problema sopra indicato e tenta di trovare una soluzione efficiente.

Per prima cosa vengono analizzati gli approcci usati precedentemente per tentare di risolvere il problema, fra questi vi è un accenno specifico al PageRank, del quale individua un limite specifico nel “non poter distinguere fra pagine autorevoli in generale e pagine autorevoli relativamente all’argomento della ricerca. In particolare un sito autorevole in generale può contenere una pagina che soddisfa una certa query ma che non è autorevole rispetto all’argomento”.

In altre parole un sito che tratta, per esempio, di animali domestici può essere molto popolare ed avere un alto PR. Molto probabilmente questo PR proviene da link di altri siti che trattano lo stesso argomento e lo consigliano come approfondimento ai propri utenti, un consiglio valido e fondato quindi. Ma se in quello stesso sito ci fosse una sola pagina che trattasse di auto da corsa, non significherebbe che i siti che lo consigliano intendano raccomandare anche la lettura di quella pagina. Eppure in virtù del PR del sito, se ben inserita nella struttura dei link, questa pagina avrebbe buone possibilità di posizionarsi per ricerche riguardanti le auto da corsa.

L’approccio “Hilltop” si basa, come quello del PageRank, sull’assunto che la qualità e la quantità dei link che puntano ad un documento è un buon indice della qualità del documento, la differenza è che Hilltop considera solo i link provenienti da specifici documenti ritenuti “esperti” relativamente alla ricerca effettuata dall’utente, “documenti creati con lo specifico scopo di dirigere le persone verso le risorse”. Quando viene eseguita una query, l’algoritmo Hilltop per prima cosa individua una lista dei documenti “esperti” più rilevanti per l’argomento, poi all’interno di questi seleziona i link più rilevanti rispetto alla query e seguendo questi individua le pagine da posizionare. Queste pagine sono poi “ordinate secondo il numero e la rilevanza di esperti non affiliati che puntano ad esse. Così il punteggio di una pagina riflette l’opinione collettiva dei migliori esperti indipendenti dell’argomento della query”.

E’molto importante capire che questo tipo di algoritmo funziona solo in presenza di un numero sufficiente di “documenti esperti”, cosa che in generale capita per argomenti molto popolari, dove esistono molti siti web che compilano liste di risorse a tema. D’altra parte i webmaster dei siti, in generale, cercano di pubblicare liste di link aggiornate e complete per aumentare la loro popolarità e la loro influenza nella comunità web interessata ad un certo argomento.

Per interrogazioni che non permettano di individuare una lista di documenti esperti ritenuta sufficiente l’algoritmo Hilltop semplicemente non viene utilizzato, ma questo non è un grosso limite, perché viene specificato chiaramente che l’algoritmo serve a migliorare l’accuratezza delle query sulle quali viene applicato e non è assolutamente necessario che venga utilizzato per tutte quelle eseguite dagli utenti. D’altronde Hilltop ha maggiori possibilità di funzionare bene in presenza di un elevato numero di siti attinenti alla ricerca effettuata, proprio la situazione in cui l’analisi del contenuto si rivela insufficiente.

E’ molto probabile che questo algoritmo sia già utilizzato da Google fin dall’update Florida, del 2004, quello in cui ci fu un vero e proprio terremoto nelle serp (pagine dei risultati). Il fatto che venga applicato soltanto alle ricerche più “popolari” spiegherebbe anche un certo comportamento di Google, che per le ricerche con un basso numero di risultati sembra tendere a dare maggior peso all’analisi dei contenuti. Nei prossimi due articoli vedremo in dettaglio come Hilltop seleziona i documenti esperti e come assegna il punteggio di “Autorevolezza” ai documenti che restituisce come risultato.

Hilltop: la selezione dei documenti esperti

L’algotitmo Hilltop di Google ordina i risultati delle ricerche in base al numero ed alla qualità di link provenienti da documenti esperti. Vediamo come vengono selezionati questi documenti.

Il requisito fondamentale di un “documento esperto” è che esso deve contenere numerosi link che puntino a pagine correlate alla ricerca eseguita dall’utente e che non siano affiliate fra loro. Quindi per prima cosa l’algoritmo Hilltop deve saper distinguere quando due siti diversi appartengono alla stessa organizzazione. Hilltop giudica due siti affiliati fra loro quando si verifichi almeno una delle due seguenti circostanze:

– I due siti dividono gli ultimi tre ottetti di un indirizzo IP (stessa classe C)
– La sezione più a destra e non generica del nome del dominio è la stessa.

In generale le aziende, e specialmente le grandi aziende possiedono i server sui quali risiedono i loro siti. Quindi se esse posseggono più siti questi condivideranno lo stesso indirizzo, oppure avranno indirizzi vicini, dal momento che gli indirizzi vengono assegnati in tranche alle varie organizzazioni che ne fanno richiesta.

Le tranche in cui vengono assegnati gli indirizzi IP possono però essere anche molto più piccole di quelle considerate da Hilltop come soglia di affiliazione, infatti le ultime tre cifre contengono effettivamente 256 indirizzi IP, ma attraverso un artificio tecnico chiamato Subnet Mask, ad una organizzazione ne possono venire assegnati anche molti meno, per esempio 16, ed in questo caso Hilltop potrebbe considerare affiliate 16 organizzazioni che in realtà non lo sono.

Addirittura molti servizi di hosting economici usano lo stesso server ed un solo indirizzo IP per ospitare decine e decine di siti e domini diversi.

Di conseguenza, durante la selezione dei documenti esperti Hilltop potrebbe scartarne alcuni perché contengono link che puntano a pagine che vengono rilevate come affiliate. Tuttavia questo è ritenuto accettabile, perché se viene comunque individuato un numero sufficiente di documenti esperti ci sarà in questo caso la certezza o quasi che siano realmente imparziali e che contengano link a pagine ritenute sinceramente valide.

La condizione di affiliazione che riguarda il nome del dominio, invece, adotta la convenzione di considerare “sezioni” di questo le parti delimitate dai punti e di considerare come generiche, e quindi ignorare, le parti che si ripetono identiche in un grande numero di siti, come per esempio “.it”, “.co.uk”, “.com” ecc.

Per esempio comparando “www.ibm.com” e “www.ibm.co.mx” vengono ignorati i suffissi “.com” e “.co.mx”, per cui le sezioni più a destra, delimitate da un punto risulteranno essere “ibm” in entrambi i casi e i due siti saranno considerati affiliati.

La relazione di affiliazione è inoltre transitiva, per cui se i siti A e B sono rilevati come affiliati ed i siti B e C sono rilevati come affiliati, allora i siti A e C saranno considerati affiliati anche senza ulteriori “prove a carico” del fatto.

Prima ancora di selezionare i documenti esperti viene costruito uno specifico indice di affiliazioni fra i vari siti, dove a tutti quelli che vengono ritenuti affiliati, in base ai criteri già specificati, viene assegnato uno stesso codice identificativo. Questo indice viene usato per verificare velocemente l’affiliazione fra due siti: se hanno lo stesso codice sono affiliati, altrimenti non lo sono.

Dopo aver creato l’indice delle affiliazioni viene creato un nuovo indice, quello dei documenti esperti. Questo indice viene ricavato analizzando il database principale del motore ed estraendone i documenti che vengono considerati buone sorgenti di link tematizzati.

Per prima cosa vengono considerati i documenti che hanno un numero di link in uscita superiore ad una determinata soglia, diciamo, per esempio, 5 link in uscita. Dopodichè i link in uscita di tutti i documenti vengono confrontati con l’indice delle affiliazioni. Se risulta che i 5 link puntano a 5 siti non affiliati il documento è considerato un documento esperto. Anche un certo tipo di formattazione “regolare del documento”, stile directory per intenderci, può avere del peso nell’aiutare l’algoritmo a capire che il documento è una vera lista di risorse.

Infine se nell’indice di partenza del motore è memorizzata una classificazione di massima dell’argomento trattato dai documenti indicizzati (come per esempio arte, sport, scienza ecc.) può essere anche posta la condizione che la maggior parte o tutti i link in uscita del documento esperto debbano puntare a documenti che condividano la stessa classificazione di argomento.

Vedremo ora come vengono indicizzati i documenti esperti e come vengono assegnati i punteggi ai documenti restituiti agli utenti.

Hilltop: ordinamento dei risultati

Quando viene eseguita una ricerca, Hilltop estrae dal suo indice dei documenti esperti quelli rilevanti e li utilizza per individuare ed ordinare i documenti che restituisce all’utente finale.

Nella fase d’analisi dei documenti esperti, l’algoritmo Hilltop esamina solo alcune parti di essi, parti che nel gergo specifico di questo algoritmo sono chiamate “frasi chiave”. Le “frasi chiave” di Hilltop non hanno niente a che vedere con le parole o le frasi digitate dagli utenti per effettuare una ricerca. La definizione di “frase chiave” nell’ambito di Hilltop è “una parte di testo che qualifica uno o più link in uscita”.

I documenti esperti contengono, come abbiamo visto nel precedente articolo, numerosi link in uscita: Hilltop associa ad ognuno di essi alcune “frasi chiave” presenti in specifiche parti della struttura del documento.

I documenti esperti sono inseriti in uno speciale indice inverso organizzato per keyword, nel quale esiste un record per ogni associazione fra una keyword ed una “frase chiave” di un documento esperto. Per ognuno di questi record è memorizzato anche il tipo di “frase chiave” (tag title, intestazione, ecc.) e la prominenza della keyword all’interno della frase.

Quando l’utente esegue una ricerca, l’algoritmo seleziona una lista di documenti esperti rilevanti rispetto ad essa (nell’esperimento relativo alla pubblicazione in esame la lista era composta di 200 documenti esperti). Per essere considerato rilevante rispetto ad una ricerca, il documento esperto deve contenere almeno un link che abbia tutte le parole della ricerca nelle “frasi chiave” che lo qualificano.

Ai documenti esperti viene assegnato un punteggio basato sul numero e sul tipo di “frasi chiave” (tag title, intestazione, ecc.) contenenti le keywords della ricerca. Nell’assegnamento del punteggio sono considerate soltanto le “frasi chiave” che contengono quasi tutte le keyword e viene tenuto conto anche della percentuale di testo che le keyword rappresentano all’interno di ogni frase. I duecento documenti con punteggi più alti vengono scelti come documenti esperti per la ricerca in questione.

A questo punto l’algoritmo Hilltop esamina tutti i documenti a cui puntano i link contenuti negli esperti selezionati ed estrae tutti quelli che ricevono un link da almeno due esperti non affiliati fra loro (ed ovviamente neppure con il documento in esame). Questi documenti sono definiti “bersagli”, e sono quelli che saranno ordinati nei risultati che verranno forniti agli utenti.

Ogni associazione fra una “frase chiave” contenuta in un esperto e un documento “bersaglio” trasmette a quest’ultimo un punteggio proporzionale a quello del documento esperto ed al tipo di “frase chiave” (tag title, intestazione, ecc.). Se due documenti esperti affiliati puntano allo stesso “documento bersaglio” il punteggio di uno dei due, per la precisione di quello più basso, non viene conteggiato.

Ai “documenti bersaglio” viene assegnato un punteggio uguale alla sommatoria dei punteggi ricevuti dai documenti esperti. I risultati vengono infine ordinati combinando i punteggi dell’algoritmo Hilltop e quelli ottenuti dall’analisi dei contenuti dei “documenti bersaglio“.

Sono state eseguite prove di confronto fra i risultati forniti dall’algoritmo Hilltop e quelli forniti da tre motori di ricerca commerciali: Altavista, Direct Hit e Google (prima che assumessero Khrisna Barat, l’inventore dell’algoritmo). I risultati sono stati esaminati da giudici esterni che non sapevano quale lista appartenesse a quale motore. I test hanno evidenziato una capacità di Hilltop pari o migliore degli altri motori di ricerca nel generare una prima pagina di risultati contenente siti molto rilevanti. E’ anche probabile che le prestazioni di Hilltop siano estremamente migliorate al momento della sua integrazione in Google, grazie all’’ampio indice di documenti ed ai sofisticati algoritmi di analisi del contentuto che ha potuto sfruttare.

Se vuoi leggere tutto il paper su Hilltop lo trovi qui: http://ftp.cs.toronto.edu/pub/reports/csrg/405/hilltop.html

Guida posizionamento sui motori di ricerca 2005

Una breve guida al posizionamento sui motori di ricerca, rivolta a programmatori o webmaster, neofiti di motori di ricerca, che intendono apprendere le linee guida per il posizionamento di un sito internet sui motori di ricerca.

l posizionamento sui motori di ricerca di un sito internet nasce dall’esigenza di “dare visibilità” al tuo sito attraverso i motori di ricerca e incrementarne traffico e visitatori.

Il posizionamento sui motori di ricerca si persegue cercando di associare alcune “parole chiave”, che l’utente digita sul motore, alle pagine del tuo sito internet, ottimizzando tutti i fattori che concorrono al posizionamento sui motori e cercando la ripetizione della parola chiave in particolari punti strategici pensando sempre alla soddisfazione dell’utente, alla navigabilità e usabilità del sito.

Lo scopo di questa guida è analizzare quei fattori che ritengo siano, o saranno, utili, per un corretto posizionamento sui motori di ricerca ; non parlerò di”tecniche”, lecite o no, di posizionamento, ma vorrei cercare solo di esprimere il concetto che chiamo “posizionamento etico”: un posizionamento raggiunto pensando alla soddisfazione dell’utente, accessibile, usabile e basato su contenuti di qualità, un posizionamento senza alcun uso di tecniche considerate illecite dai motori di ricerca e raggiunto solamente grazie alla forza intrinseca dei contenuti e della struttura del sito.

Una guida al posizionamento sui motori di ricerca è difficile da realizzare: quando si pubblica, di solito, contiene informazioni già vecchie!

Per questo motivo ho cercato di impostare la guida in modo da perseguire un fine diverso dal solito esame delle tecniche di posizionamento: la guida, rivolta in particolar agli utenti alle prime armi, contiene sì informazioni “variabili” nel tempo, come l’analisi di alcuni fattori che attualmente influiscono sul posizionamento, ma cerca, soprattutto, di affrontare l’argomento posizionamento in modo da perseguire in primis la soddisfazione dell’utente e una efficace “comunicazione” con il motore di ricerca.

Secondo me i motori di ricerca tenderanno sempre più a considerare ed utilizzare le preferenze dell’utente per il posizionamento.

Il perseguimento della soddisfazione dell’utente, con risultati di qualità per l’utente stesso, sarà sempre più efficiente se i motori di ricerca cominciassero a considerare le preferenze dell’utente: l’utente avrebbe la possibilità di usare un motore di ricerca “personalizzato” alle proprie esigenze e con a disposizione la più grande base dati di qualità al mondo.

Il problema è come reperire informazioni di questo tipo? Come costruire un “profilo” per ogni utente? Google, per esempio, ci ha già pensato: e questo è solo quello che sappiamo noi!

Se il futuro saranno ricerche personalizzate su misura all’utenza, il successo di un sito internet sarà sempre più decretato dalla soddisfazione della sua utenza e il posizionamento sarà raggiungibile solo con siti e contenuti di qualità per l’utente.

Principali Fattori di ottimizzazione per raggiungere il posizionamento sui motori

  • Fattori interni ( Struttura , Codice , Contenuti )
  • Fattori Esterni ( Popolarità , Valore )
  • Fattori Tecnici (dati storici, tematizzazione, ordinamento )

Con ottimizzazione di un sito internet si intendono tutte quelle tecniche di progettazione di realizzazione della struttura del sito (variabile a seconda del settore) e tutti quegli accorgimenti al fine di realizzare dei contenuti di qualità facilmente comprensibili dai motori di ricerca e ottimizzati seguendo i diversi criteri di accessibilità e usabilità del sito da parte dell’utente.

Le parole chiave

La scelta delle parole chiave per cui ottimizzare il sito internet è una fase molto delicata da cui dipenderà gran parte del successo del tuosito.

Innanzitutto cerchiamo di chiarire il concetto di chiave :

  • Chiave : elemento, dato o persona di vitale importanza per comprendere, interpretare e risolvere qualcosa per conseguire determinati fini
  • Chiave : numero, parola o serie di numeri o parole , indispensabile per decifrare uno scritto in codice.

Quindi un corretto uso delle parole chiave nell’url, nel titolo di una pagina web, nelle categorie e nei testi, non solo serve per aiutare il motore di ricerca ad interpretare ed archiviare le informazioni contenute nel sito o in un documento ma aiuta l’utente nella navigazione permettendogli di capire immediatamente dove si trova e aiutandolo nella ricerca di quello che gli serve.

La scelta delle parole chiave

Scegliere le parole chiave più adatte per il posizionamento del sito sui motori di ricerca è un’operazione che richiede un’attenta analisi del settore di appartenenza: dallo studio delle parole chiave più ricercate dagli utenti sui motori di ricerca in grado di aumentare notevolmente il traffico verso un sito, all’analisi delle stesse e delle parole collegate per migliorareil posizionamento.

Non tutte le parole chiave hanno la stessa importanza. Analizziamo quella che viene chiamata Competitività della parola chiave:

  • Parole chiave competitive
  • Parole chiave non competitive
  • Parole chiave ad alta competitività

Parole chiave competitive

Le parole chiave Competitive sono quelle parole chiave che possono generare diversi milioni di risultati nella ricerca sul motore e presentare una certa quantità di competitors, riconoscibile dal numero dei collegamenti sponsorizzati dal motore di ricerca.

Ad esempio, Parole chiave come “ Studio Grafico ” “ Creazione Siti ” , “ Servizi Web ” , “ Comunicazione Integrata ”, anche se non generano milioni di risultati, sono parole chiave Competitive, perchè vengono coinvolte diverse figure per il posizionamento del
sito internet a causa della concorrenza e della saturazione del settore.

Per valutare l’esatta competitività di una parola chiave bisogna analizzare a fondo quanto questa viene cercata sui motori, il tipo di mercato e la concorrenza, la particolarità con cui descrive la promozione, in relazione a riferimenti geografici e di settore.

Posizionare la parola chiave “ Agenzia Pubblicitaria ”, ad esempio, è certamente molto più difficile e competitivo di posizionare la parola chiave “ Agenzia Pubblicitaria Roma ”; si può vedere la stessa relazione tra “ Agenzia Pubblicitaria Roma ” e “ Agenzia Pubblicitaria Viterbo ”.

Parole chiave NON Competitive

Le parole chiave non competitive sono quelle parole che generano pochi risultati nelle ricerche e usate in un settore senza alcun collegamento sponsorizzatodal motore.

Le parole chiave non competitive non vengono cercate molto sui motori di ricercae quindi non generano un grande flusso di traffico per il tuo sito.

Sono considerate parole chiave non competitive tutte le parole chiave che rappresentano un servizio o prodotto particolare in un settore non competitivo, parole chiave associate a contenuti originali e unici, o parole chiave con l’esatto riferimento geografico del servizio ( es. “ nomeservizio+nomecittà+nomezona )

Parole chiave ad alta competitività

Le parole chiave ad alta competitività sono quelle parole chiave competitive in grado di generare un alto traffico al sito internet e hanno la potenzialità di aumentare significativamente i risultati di una campagna di posizionamento sui motori di ricerca: sono le parole chiave più ricercate sui motori di ricerca e rappresentano l’utenza più qualificata di Internet.

I settori coinvolti: turismo, e-commerce, commercio e pubblicità, mercato immobiliare, risorse gratuite, servizi hosting e tutti l’indotto generato da questi settori sono da considerarsi ad alto rendimento.

Le parole chiave ad alta competitività operano in un settore altamente competitivo nel quale l’aggiunta di alcune parole come VENDITA, AFFITTO, SCARICA, GRATIS, (scarica suonerie cellulari, suonerie cellulari gratis, affitto appartamento, vendita cellulari, vendita hardware) oppure l’aggiunta della variabile CITTA’ alla parola chiave scelta (alberghi Roma, affitto appartamento Roma, vendita cellulari Roma), genera una quantità di risultati sui motori di ricerca tale da qualificare al meglio l’utenza e rendere il settore ad alta competitività .

Fattori interni

Cosa sono i Fattori Interni e come si ottimizzano per il Posizionamento sui motori di ricerca

I “fattori interni ” di un sito internet (tra cui è compresa la struttura del sito) sono tutti quegli elementi e variabili che influiscono sul posizionamento di un sito internet sui motori di ricerca e che possono essere “controllate” e ottimizzate in fase di progettazione e sviluppo del sito, come l’ url o i tag html .

Ottimizzare i fattori interni significa ottimizzare diversi parametri di web design per l’utente e per i motori di ricerca.

Progettare una buona struttura, con cartelle diverse e nomi dei file che chiariscano all’utente il contenuto della pagina, strutturare un buon sistema di navigazione, garantendo all’utente la massima accessibilità e navigabilità possibile, studiare un buon sistema di linking delle pagine, sono tutte operazioni di ottimizzazione dei fattori interni, gradite dall’utente quanto dal motore.

Definiamo esattamente cosa si intende con fattori interni :

  • Struttura(sistema di programmazione , cartelle e nomi dei file )
  • Codice( ottimizzazione linguaggio, w3c standard di qualità ,HTML )
  • Contenuti( ottimizzazione pagina , tematizzazione e formattazione contenuti )

Ora vediamo come si ottimizzano a seconda delle esigenze di realizzazione del sito.

  • Ottimizzazione della struttura del sito
  • Ottimizzazione del codice
  • Ottimizzazione dei contenuti

Ottimizzazione della struttura del sito

Ottimizzazione e scelta del tipo di struttura più adatta al posizionamento sui motori di ricerca

Sistema di programmazione

  • statica

Una struttura statica permette al sito di essere indicizzato nel più breve tempo possibile e permette il controllo dei nomi dei file delle pagine in maniera semplice e veloce.

Le pagine sono create in maniera statica e depositate sul server in apposite cartelle e richiamate ad ogni richiesta dell’utente.

  • semidinamica

Il giusto compromesso tra la gestione statica e dinamica di un sito internet: diverse pagine create staticamente e ben categorizzate, compilate in maniera dinamica e facilmente aggiornabili, e pagine di approfondimenti generate e collegate dinamicamente in modo da passare pochi parametri nell’url e quindi nel nome della pagina.

  • dinamica

La gestione dinamica di un sito ha il vantaggio di poter facilmente aggiornare i contenuti del sito e creare nuove sezioni o pagine in automatico, grazie al passaggio di diversi parametri nell’url del sito. Le pagine sono compilate dinamicamente su richiesta dell’utente e non risiedono fisicamente sul server, ottimizzando così al meglio la gestione dello spazio su hard disk messo a disposizione dall’hosting.

Cartelle e nomi dei file

Uno degli elementi fondamentali considerati dai motori di ricerca per il posizionamento di un sito è la struttura : il nome del file e il suo contenuto, la cartella o la sotto-cartella in cui si trova, il sistema di linking con cui si è organizzato il sito, sono tutti parametri da considerare per realizzare una buona struttura.

Pensa sempre all’utente : concepire e realizzare una buona struttura, accessibile e navigabile per l’utente, corrisponde, nella maggior parte dei casi, a realizzare una buona struttura per il posizionamento sui motori di ricerca.

Ottimizzazione del codice

Ottimizzazione della gestione del linguaggio lato server e lato client, validazioni W3C e tag HTML

Ottimizzazione linguaggio lato server (asp, php, aspx) e lato client (javascript, vbscript)

L’ottimizzazione rappresenta la scelta dei vari linguaggi di programmazione più adatti allo sviluppo delle caratteristiche del vostro sito: dalla gestione dei contenuti e degli aggiornamenti ai redirect permanenti usati per spostare i contenuti di un sito all’uso di programmi di statistiche per il monitoraggio della navigazione degli utenti.

Si tratta di scegliere in che linguaggio sia più adatto realizzare una certa applicazione: applicazioni come la convalida dei campi di un form per il corretto inserimento delle informazioni o la gestione del layout del sito a seconda del browser e della risoluzione usati dall’utente, sono applicativiche generalmente vengono gestiti lato client.

Ottimizzazione del codice secondo validazione W3C (XHTML, CSS, WAI)

I motori di ricerca sono delle macchine che leggono codice ed estrapolano da esso le informazioni per la corretta archiviazione dei contenuti e il posizionamento del sito sul motore.

L’esattezza e la linearità di un buon codice facilitano il motore nella comprensione delle informazioni rispetto ad un codice non valido, ma non solo. La validazione della WAI accessibility , per esempio, o di un corretto codice XHTML , permette anche ad utenti con browser datati o di solo testo, od utenti con handicap, il corretto uso del tuo sito, senza risentire disagi di accessibilità usabilità .

Attualmente, l’unico sistema internazionale per il corretto uso dei linguaggi di programmazione nel web-design è il Word Wide Web Consortium (W3C), organo che si occupa del problema della definizione di STANDARD di navigazione nel Web.

Così come l’UNI o l’ISO nel mercato tradizionale, il W3C cerca di definire i requisiti e i criteri di certificazione di qualità per gli sviluppatori e i programmatori di siti e applicazioni web.

HTML per ottimizzazione pagina e testi

Usare dei <title> di pagina che più rispecchiano le parole chiave del tuo sito, ripetere le stesse nella descrizione <meta name=”description”content=””>, facendo attenzione a scrivere sintatticamente un buon testo che rispecchi il <title> di pagina, formattare i testi usando i tag da <h1> a <h6> per titoli e sottotitoli, evidenziare le parole chiave con grassetti e sottolineature, scrivere in maniera corretta gli <href>, definendone il title <a href=”” title=””>, dotare tutte le immagini di differenti alt <img=”” alt=””>, a definizione del contenuto dell’immagine.

Tutto questo pensando sempre alle parole che dovrebbero essere visualizzate nel particolare attributo per facilitare la navigazione dell’utente , e non semplicemente riempiendo di parole chiave l’attributo: i title dei link e gli alt delle immagini sono utili ai browser che permettono la navigazione solo testuale del sito.

Meta-tag e Meta-Informazioni

I meta-tag

Un motore di ricerca è un robot in grado di reperire, acquisire, archiviare, catalogare e restituire informazioni in seguito ad una query di ricerca. Per comunicare correttamente con un motore di ricerca occore conoscere in maniera approfondita il linguaggio usato per la comunicazione delle informazioni: questo linguaggio è rapprensetato dall’HTML.

I meta-tag rappresentano delle informazioni di natura generale che possono essere fornite al motore di ricerca in ogni pagina web e indicano al motore di ricerca diverse tipi di informazioni: da una breve descrizione del contenuto della pagina, all’autore, alle coordinate geografiche del documento.

Di tutti i metatag mi limito ad analizzare quelli che influiscono sul posizionamento nei motori di ricerca, e cioè il meta description.

Alcuni pensano ancora che il meta keywords sia importante e tendono riempire il meta di parole chiavi: Google, per esempio, non considera il meta keywords come un parametro utile per il posizionamento dei risultati di una ricerca.

Il meta-tag description

Il meta description rappresenta una breve descrizione del contenuto della pagina web e viene molto considerata dai motori di ricerca ai fini del posizionamento.

Il meta description è utilizzato dal motore di ricerca per acquisire informazioni sul contenuto di una pagina e rappresenta la breve descrizione fornita dal motore, insieme al collegamento al documento, come risultato di una ricerca.

Infatti il meta description è il primo testo che il motore di ricerca incontra dopo il titolo durante l’acquisizione della pagina web ed è importante per far capire subito l’argomento e i temi trattati dal documento.

Scrivere correttamente un meta description significa scrivere una breve descrizione della pagina, 10-20 parole, che rispecchi il titolo della pagina web e fornisca, sia al motore che all’utente, delle informazioni chiare e concise dei contenuti che troveranno nella pagina web.

Ottimizzazione dei contenuti

L’ottimizzazione dei contenuti riguarda sia la gestione del codice, sia la gestione tematica e categorica delle informazioni che la formattazione e la presentazione dei contenuti.

Ottimizzazione delle aree di una pagina

I motori di ricerca riconoscono, o saranno presto in grado di farlo, le aree che il web-designer imposta come menu di navigazione, come header, footer o corpo del testo, e potrebbero attribuire ad ogni parte un peso diverso, al fine di valorizzare l’intera pagina.

Bisogna cercare di strutturare la pagina, attraverso l’uso di tabelle o layer, pensando a quello che un utente vorrebbe da quella pagina e cercare di posizionarlo più in alto possibile nel codice: con l’uso dei div e dei CSS che controllano la loro posizione, per esempio, è possibile strutturare un codice più chiaro ed ottimizzarlo a seconda di quello che ti serve.

Tematizzazione e categorizzazione dei contenuti

Ottimizzare i contenuti di un sito internet significa principalmente categorizzare e tematizzare in sotto categorie le diverse sezioni che ospitano i contenuti del sito.

Uno dei parametri che i motori di ricerca considerano ai fini del posizionamento risulta essere infatti la tematizzazione del sito e dei suoi contenuti: fornire all’utente contenuti a tema in tutto il sito, affrontando e sviluppando il tema nelle diverse categorie e sotto categorie di cui necessita, organizzando nella maniera migliore la navigazione e l’accessibilità.

Formattazione dei contenuti

La gestione dell’header, del corpo, dei menu e sottomenu di navigazione, del footer di un pagina è importante come è importante la formattazione del testo contenuto : un testo lungo ma ben formattato con titoli, sottotitoli, categorie, elenchi puntati, parole in evidenza, uso del grassetto e sottolineato risulta molto più leggibile di un testo molto lungo, senza struttura o enfasi alcuna.

Incrementare i contenuti per migliorare posizionamento e traffico.

I contenuti sono il vero punto di forza: lo leggiamo dappertutto ormai ma vediamo perché.

I contenuti di un sito web sono la vera forza intrinseca del sito: aggiornare il sito con nuovi contenuti frequentemente è sicuramente il modo migliore per ottimizzare il posizionamento

Innanzitutto perché incrementando contenuti e pagine aumentano le possibilità di essere trovati sui motori.

Scrivere nuovi contenuti in tema con gli argomenti principali del sito significa anche approfondire tutte gli argomenti trattati: produrre nuovi articoli e testi a tema con una determinata categoria può essere utile non solo per spingere la categoria, ma anche, e soprattutto aggiungo, fornendo così all’utente tutte le informazioni utili e correlate all’argomento che lo interessa.

In secondo luogo, perché un incremento costante dei contenuti permette al tuo sito di essere riconosciuto come un sito che viene aggiornato spesso dai motori e quindi essere visitato spesso anche dagli spider.

I fattori esterni

Cosa sono e come si ottimizzano per il Posizionamento sui motori di ricerca

fattori esterni sono tutti quegli elementi che concorrono al posizionamento sui motori di ricerca che NON sono direttamente controllabili nella progettazione e realizzazione del sito internet e si riferiscono a variabili molto importanti per il posizionamento, come il PageRank o la popolarità del sito.

Innanzitutto definiamo cosa si intende con fattori esterni :

  • Popolarità ( backlink, inbound e outbound link , aumentare la popolarità )
  • Valore del sito ( PageRank e TrustRank )

Ora vediamo come si ottimizzano a seconda delle esigenze di realizzazione del sito.

  • Popolarità nella rete
  • Valore del sito

Popolarità nella rete

Backlink, inbound link e outbound link

I link sono l’essenza della rete: per capire a fondo l’importanza di questo concetto, facciamo un’analogia: come il sistema sanguigno usa vene e arterie per ossigenare ogni cellula del nostro corpo, così la rete usa i link per veicolare il traffico attraverso ogni sito internet. I link possono essere:

  • in entrata: inbound link backlink (link in entrata)
  • in uscita: outbound link (link in uscita)
  • i link reciproci

Link in entrata

Ottenere dei buoni inbound link backlink (link in entrata al tuo sito da un altro sito) spontanei dovrebbe essere lo scopo di un corretto posizionamento: fornire cioè contenuti interessanti e servizi di qualità all’utente in modo da soddisfarne le esigenze e ottenere un sorta di promozione gratuita.

Link in uscita

Anche gli outbound link (link in uscita dal tuo sito verso un altro) sono importanti nel posizionamento di un sito: bisogna pensare sempre all’utente. Cosa penserebbe un utente se visitando il tuo sito, clikkasse su un link e quel link lo portasse in un evidente circuito di dialer o spam? E se invece trovasse dei collegamenti interessanti e di qualità che lo aiutassero ad approfondire o espandere il tema trattato dal tuo sito?

Link reciproci

Una breve citazione ai link reciproci : premesso che nulla è ancora verificato lo scambio link è una soluzione ritenuta artificiosa dai motori e adottata da molti con il solo scopo di aumentare il ranking del proprio sito e come tale potrebbe essere penalizzata dai futuri aggiornamenti degli algoritmi dei motori di ricerca .

Aumentare la popolarità

Un link viene considerato come parte integrante del documento a cui punta. Per questo bisogna cercare di scrivere e ottenere buoni link, cercando di evitare un accrescimento artificiale (link factory).

Un buon link è un link tanto per l’utente quanto per il motore di ricerca. Scrivere un buon link per l’utente significa pensare alle parole chiavi che possono descrivere in maniera più appropriata il contenuto della pagina a cui punta, dotare il link di un buon <title>, magari ripetendo la parola chiave e approfondendo il significato della stessa o il contenuto della pagina che promuove il link.

ESEMPIO: <a href=”http://www.motoriericerca.com/” title=”Analisi e studi sul posizionamento per webmaster e SEO”>il progetto Motori e Ricerca </a>

Un sito acquista popolarità con i link. Molti SEO pensano che non ci siano buoni o cattivi link: è indubbio però il valore di un link da un sito popolare o da un sito a tema. Un link da un sito con un alto valore di popolarità e riguardante argomenti in tema col tuo sito avrà un peso maggiore di un altro link che non abbia queste caratteristiche.

Link dalle directory

Uno dei modi per accrescere la popolarità di un sito è quella di iscrivere il sito nelle directory . Esistono nel web migliaia di directory, ma solo alcune sono veramente popolari ed usate dal grande pubblico di internet: sono le directory dei più grandi e famosi motori di ricerca: Yahoo e Google . Yahoo ha una sua directory molto famosa ed usata anche dagli altri motori di ricerca associati alla famiglia Yahoo. Google ha fatto della sua directory Dmoz , il progetto ODP, Open Directory Project, nato anni fa e diventato ormai uno dei punti di riferimento nel Web. L’inserimento del sito in una di queste due directory accresce notevolmente la popolarità del tuo sito: bisogna stare attenti però a segnalare il sito nella giusta categoria e scegliere un titolo e una descrizione adatti e in linea con le politiche della directory.

Link dai Forum

Esistono nel Web una quantità enorme di Forum; l’utente di Internet ama discutere degli argomenti che più cointeressano sul Web, scambiando le proprie opinioni con gli altri naviganti: i Forum forniscono all’utente questa possibilità.

Esistono Forum di ogni genere: dai Forum in cui si discute di cinema a quelli in cui si parla di musica, dai forum sportivi ai forum dedicati alla cucina, dedicati al tempo libero o alla cultura, forum tecnici e forum professionali. Praticamente ne esistono di infinite categorie ed argomenti; per non parlare poi delle Comunità che si creano intorno ai Forum più frequentati dei più grandi portali del Web.

I Forum sono gestiti dinamicamente; un link da una pagina non indicizzata nel database dei motori, non conta per questi ultimi: contano comunque le visite che si riescono a ricevere dai frequentatori che, se si forniscono contenuti interessanti e di qualità, potrebbero divenire utenti del tuo sito e promuoverlo in maniera indiretta.

Ogni Forum ha il suo regolamento; alcuni di questi permettono di promuovere i propri siti nella firma del messaggio.

Link dai Blog

I Blog, come i Forum, sono diventati ormai un vero standard nel web; i Blog sono a tutti gli effetti un nuovo modo di concepire la comunicazione nel Web: chiunque può aprire un proprio diario personale e parlare di quello che vuole con il grande popolo di internet.

Concepiti proprio per essere costantemente aggiornati, i blog hanno conquistato i navigatori e si sono ritagliati un loro spazio nel Web: sempre più provider forniscono piattaforme e spazio web gratuito per gestire il proprio Blog.

nche se alcune piattaforme di sviluppo per Blog non sono ottimizzate per i motori di ricerca, i link dai Blog possono essere un altro modo per incrementare la popolarità del sito e generare comunque interesse e traffico

Valore del sito

Google PageRank

Il concetto di attribuire un valore ad un documento ed usarlo per meglio restituire i risultati delle ricerche è alla base delle diverse tecnologie che usano i motori di ricerca: alcuni attribuiscono maggior valore ai fattori di ottimizzazione interna del sito, altri, come Google, hanno sviluppato il proprio algoritmo sulla popolarità di un sito internet.

Il PageRank, detto anche indice di popolarità, è una delle tecnologie centrali di Google: la sua origine risale a un articolo tecnico scritto dai fondatori di Google, Lawrence (Larry) Page e Sergey Brin, quando studiavano ancora all’Università di Stanford intitolato ” The Anatomy of a Large-Scale Hypertextual Web Search Engine “. PageRank non conosce siti ma singoli documenti.

Il funzionamento del PageRank, fondamentalmente, è piuttosto semplice e si basa sul numero di link effettuati a una determinata pagina da altre pagine Web, più link esistono a una determinata pagina e più questa diventerà “importante”.

Ogni link viene considerato come un voto espresso dalla pagina che integra il collegamento ipertestuale alla pagina correlata. PageRank si basa sul concetto che la qualità di un documento possa essere riconoscibile dalla quantità e dalla qualità dei link che riceve da altri documenti esterni.

Tempo fa lessi una guida a Google, in cui si diceva che PageRank risentisse della attinenza dei contenuti a quella delle pagine correlate: ma nella formula originale del PageRank non ci sono fattori che indicano la tematizzazione dei contenuti.

La formula per il calcolo del PageRank potrebbe essere stata aggiornata, ma, come testimoniano l’algoritmo di ordinamento dei risultati Hilltop e il database dei vettori di termini per riconoscere il tema trattato nei documenti, sarebbe più facile che siano stati implementati nuovi sistemi per la modifica dei punteggi generati da PageRank

Google TrustRank

Ultimamente Google, ha registrato un’altra tecnologia di nome TrustRank, che secondo molti affiancherà il PageRank nell’algoritmo del motore di ricerca.

Zoltàn Gyongyi e Hector Garcia-Molina del Computer Science Department dell’Università di Stanford insieme a Jan Pedersen di Yahoo! Inc. sono gli autori di una pubblicazione dal titolo Combating Web Spam with TrustRank.

TrustRank nasce quindi per combattere lo SPAM: nell’introduzione della pubblicazione si legge:

“Mentre un utente esperto può facilmente identificare lo SPAM, è troppo dispendioso valutare manualmente un grande numero di pagine web. Proponiamo, quindi, delle tecniche semi-automatiche per separare le pagine buone dallo SPAM. Prima si sceglie un piccolo insieme di pagine, da valutare da un esperto, considerate come “semi”: una volta che abbiamo identificato manualmente i “semi”, usiamo i link contenuti per scoprire altre pagine che potrebbero essere buone. Basando il nostro esperimento sugli indici di Altavista, i risultati che proponiamo mostrano come una lista di circa 200 buoni “semi” possano effettivamente combattere e filtrare lo SPAM dai risultati delle ricerche.”

La grossa e sostanziale novità quindi risulta essere l’impiego di risorse umane nei sistemi di ordinamento dei risultati: saranno tecnici esperti a selezionare la lista di partenza di siti “fidati” da cui partire nella ricerca di documenti e contenuti di qualità grazie ai sistemi di linking di internet.

Uno degli aspetti interessanti è che sicuramente non saranno più utili molti di quei trucchi e stratagemmi usati per aumentare il ranking: per avere un buon posizionamento su Google sarà sempre più necessario realizzare delle pagine di buona qualità, interessanti, ricche di contenuti e con relazioni con altri siti web correlati.

In sintesi, realizzare siti di qualità .

I fattori tecnici

Con fattori tecnici vorrei definire tutti quegli elementi utili per il posizionamento sui motori, la cui definizione e utilizzo viene dettata dalla ricerca e studio di applicativi e algoritmi di documenti ufficiali.

Nel posizionamento sui motori, più che in altri settori, è indispensabile una continua ricerca e studio di informazioni e aggiornamenti sul funzionamento degli algoritmi dei motori di ricerca: questi ultimi, infatti, tendono a variare spesso e risulta fondamentale quindi, non solo seguire l’evoluzione dei motori,
ma cercare di prevedere i possibili miglioramenti.

In questa sezione vengono affrontati in particolar modo alcuni algoritmi di funzionamento del motore di ricerca Google: uno spazio particolare è dedicato ai Dati Storici in un’altra sezione di Motori e Ricerca.

Algoritmi analizzati

  • PageRank
  • Database Vettore dei Termini
  • Hilltop
  • TrustRank
  • Dati Storici

Il Pagerank

Il PageRank è un valore calcolato da Google per ogni documento presente nel suo database. Tale valore rappresenta la qualità del documento e a parità di altri fattori, ne influenza il posizionamento.

Negli ultimi anni Google è diventato indiscutibilmente il motore di ricerca più utilizzato del mondo come riportano tutte le statistiche eseguite negli ultimi anni dagli istituti di ricerca più diversi.

La popolarità di cui gode Google è in parte dovuta alla semplicità di utilizzo della sua interfaccia, che è spartana e non affollata dalle miriadi di lucette e finestrelle che riempiono le pagine di molti altri motori di ricerca. Un altro fattore che però ha sicuramente influito nell’accrescere la preferenza degli utenti verso Google è stata la qualità dei risultati ottenuti dalle ricerche, che sono sempre stati molto più rilevanti rispetto a quelli degli altri motori.

La qualità dei risultati di Google è dovuta principalmente all’utilizzo del PageRank, un metodo per assegnare alle pagine web un punteggio di qualità indipendente dal contenuto e dalla ricerche, messo a punto dai due fondatori di Google: Sergey Brin e Lawrence Page, appunto.

Quando il PageRank fu concepito i motori di ricerca utilizzavano già la link-popularity come parametro di correzione dell’ordinamento nei loro algoritmi ed anche i webmaster avevano iniziato a capire come aumentarla artificialmente, creando centinaia o anche migliaia pagine web che contenessero link ai siti da “spingere”.

Il concetto migliorativo della link-popularity e che sta alla base del PageRank originale è il seguente:

A ogni documento presente nel database di Google viene assegnato un punteggio (PageRank ) basato sul numero di link che riceve dagli altri documenti, ma non tutti i link che il documento riceve hanno la stessa forza, infatti quelli ricevuti da documenti importanti, cioè da documenti che a loro volta ricevano molti link, contano di più.

Quindi il PageRank di un documento dipende dal PageRank dei documenti che lo linkano, ma anche il PageRank di questi ultimi dipende da quello dei siti che linkano loro e così via. Risulta quindi abbastanza chiaro che il calcolo del PageRank è un calcolo ricorsivo, che deve essere ripetuto un certo numero di volte per avere un risultato che possa essere considerato stabile.

Alla fine dei calcoli ogni documento indicizzato da Google avrà il suo valore di PageRank che servirà come fattore correttivo nella fase di ordinamento dei risultati delle ricerche degli utenti, per cui a parità di altri fattori il documento con PageRank più alto avrà un posizionamento migliore.

Sono ormai passati molti anni dalla prima formulazione del concetto di PageRank messa a punto da Sergey Brin e Lawrence Page alla Stanford University ed è probabile che la formula originale, basata esclusivamente sul computo dei link che le pagine web si scambiano fra loro, sia stata implementata con altri fattori di diversa natura adatti a correggere le distorsioni dovute a nuovi tipi di approcci dei webmaster che, ormai da tempo maneggiano vendite e scambi di link ad alto PR con troppa disinvoltura per non aver dato nell’occhio.

Sicuramente gli ingegneri di Google stanno cercando nuovi sistemi per calcolare il valore di PageRank di un documento e su questi possiamo fare solo ipotesi, anche se, come vedremo, alcune di esse sono molto fondate.

Tematizzazione dei contenuti

Il database dei vettori dei termini

Sicuramente, come si può notare dalle serp, la tematizzazione dei contenuti è un fattore molto importante da prendere in considerazione nell’analisi dei link: un link da una pagina a tema, su un sito ben categorizzato e tematizzato su quel tema, ha un’influenza maggiore di un link da una pagina di un sito non in tema.

Ma un motore di ricerca come riconosce il tema trattato da un documento?

“Lo studio ” The Term Vector Database: fast access to indexing terms for Web pages ” risale al 2000 ed è opera di tre studenti della Stanford University: Raymie Stata, Krishna Bharat e Farzin Maghoul. Bharat è stato assunto nel 2003 da Google ed è a lui che è stata affidata la progettazione Google News , una applicazione che probabilmente ha molto a che spartire con l’oggetto di questa pubblicazione. “

Nel documento viene illustrata la realizzazione di uno speciale database chiamato” database dei vettori di termini “, che permette, partendo dall’URL di un documento presente nel database principale del motore di ricerca, di accedere velocemente ad una struttura di dati contenente la lista dei termini presenti nel documento, il peso e le posizioni di ciascun termine nel documento ed il peso del termine nell’intera collezione dei documenti indicizzati dal motore.

Questo rispecchia sempre il fine del motore di ricerca che è quello di fornire all’utente dei risultati di qualità: individuare il tema trattato da un documento può essere utile nella valorizzazione dei link: Google riconosce se il link fornito possa essere più o meno utile all’utente, e, da questo, pesare in maniera differente link e valore della pagina.

Pensiamo alla soddisfazione all’utente: nella sua navigazione e nella lettura di un documento, l’utente preferirà sicuramente visitare dei siti di approfondimento, o comunque che trattino argomenti correlati al documento che sta leggendo, piuttosto di visitare dei siti non a tema con l’argomento che lo interessano.

ESEMPIO: un sito che parla di musica, con diverse sezioni e categorizzazioni del tema musica, in una sua pagina in cui si parla della discografia di un autore, propone dei link ad un sito di cucina. Quanto peso pensi possa avere quel link rispetto ad un link, per esempio, al sito dell’autore, oppure ad un’altra pagina di un altro sito che approfondisce album per album la discografia?

Il database dei vettori di termini permette al motore di ricerca di controllare in maniera estremamente veloce quali termini rilevanti contenga ogni documento e quale sia il loro peso.

Un vettore di termini consiste in linea di massima in una serie di coppie “termine-peso” di lunghezza variabile, dipendente dal numero di termini che compongono il documento di cui si costruisce il vettore.

Dal documento in esame vengono estratte tutte le sequenze di caratteri non separate da spazi, trovate fuori dai tag HTML o dentro i metatag, senza considerare le sequenze contenute fra l’inizio e la fine di una sezione <script>. I termini così estratti dal documento vengono chiamati “termini candidati”.

I termini candidati vengono filtrati mantenendo solo quelli presenti nel “terzo di mezzo” dell’indice globale dei termini di tutta la collezione indicizzata. In parole povere, dopo aver redatto l’elenco completo dei termini contenuti in tutti i documenti dell’indice ed averli ordinati per numero di occorrenze, l’elenco viene diviso in tre parti di identica ampiezza ed al momento del filtraggio dei termini candidati, per ogni documento vengono scartati sia i termini appartenenti alla sezione di indice contenente i termini usati più raramente sia quelli appartenenti alla sezione contenente i termini utilizzati più frequentemente.

Questo è utile perché i termini usati più frequentemente sono poco indicativi, apparendo spesso nella maggior parte dei documenti a prescindere dalla loro similitudine, e tendono così a rendere più difficoltosa la discriminazione fra i vettori, mentre quelli usati meno frequentemente generano “interferenze” che peggiorano l’analisi della similarità dei vettori. Pensate per esempio ad un termine digitato in modo sbagliato: esso verosimilmente apparirà su poche pagine, che però potranno trattare anche temi completamente diversi. Se questo termine venisse considerato avrebbe molto peso, in virtù della sua scarsità all’interno della collezione dei documenti, e indurrebbe a calcolare fra le pagine una forte relazione in realtà inesistente.

Dopo il filtraggio, i termini vengono “pesati”, dividendo il numero di volte in cui appaiono nel documento per il numero di volte in cui appaiono nell’intera collezione dei documenti indicizzati. Questo metodo per calcolare il peso dei termini è denominato TF-IDF (term frequency-inverse document frequency) e nelle sue molteplici variazioni è uno standard fin dai primi anni 70, quando fu ideato da Sparck-Jones.

Con l’etichetta generica TDF-IDF vengono spesso indicati metodi di calcolo molto diversi, alcuni molto semplici ed altri estremamente sofisticati. Quelli semplici consistono praticamente nella sola divisione fra il numero di occorrenze del termine nel documento e nella collezione, seguita da una normalizzazione allo scopo di compensare la lunghezza variabile dei documenti. Tutti i metodi TDF-IDF però si basano sugli stessi due concetti principali.

Termini che appaiono molte volte in un documento sono considerati rilevanti.

Termini che appaiono spesso nell’intera collezione dei documenti sono considerati poco rilevanti.

Quando è stato stabilito un peso per ogni termine presente nel documento che ha passato il primo filtraggio, vengono memorizzati nel vettore i 50 termini con peso maggiore.

Nonostante il filtraggio dei termini sia stato eseguito con un metodo TF-IDF, in questo esperimento nel database non viene memorizzato tale peso bensì la semplice frequenza del termine, ovvero il numero di volte nel quale il termine compare all’interno del documento, oltre alla lunghezza della pagina espressa sia in byte, sia in numero di termini. Questo viene fatto per mettere a diposizione i dati “grezzi” di partenza e lasciare alle applicazioni la maggior libertà possibile di pesare i termini con i metodi che vengono considerati di volta in volta più adatti.

Il database così costruito permette con due semplici chiamate di funzione di confrontare fra loro i vettori di termini di due documenti e stabilirne il grado di similarità. Per pura curiosità il database dell’esperimento ha sfruttato l’indice di Altavista (quello dell’anno 2000 ovviamente) e conteneva 272 milioni di vettori occupando uno spazio di 33Gb.

Alcune applicazioni del database dei vettori di termini

Vediamo due prime applicazioni pratiche che utilizzano il database dei vettori di termini sperimentate dai suoi stessi ideatori: la distillazione del tema e la classificazione delle pagine web per argomento.

Il database dei vettori di termini può essere utilizzato per velocizzare enormemente molte applicazioni interessanti nel campo dell’information retrieval (recupero delle informazioni), in calce allo studio esaminato negli articoli precedenti sono state realizzate applicazioni di prova riguardanti la distillazione del tema e la classificazione dei documenti per aree tematiche.

La distillazione del tema è una tecnica che utilizza la struttura dei link fra i documenti del web per eseguire l’ordinamento rispetto alle query (interrogazioni) e si basa sul seguente assunto: considerando il web come un grafo i cui nodi siano le pagine collegate ed i lati i collegamenti fra queste , le migliori pagine che trattano un certo argomento sono fortemente interconnesse fra loro in un “sotto-grafo”, una sorta di comunità virtuale specializzata nell’argomento.

L’algoritmo di distillazione del tema costruisce questo “sotto-grafo” del web estraendo le pagine più rilevanti per una data query fra i normali risultati di un motore di ricerca, poi espande questo primo insieme di pagine includendo quelle più vicine nel grafo, vale a dire quelle che contengono un link che punta ad una delle pagine estratte o quelle che ricevono un link da una di esse.

Un difetto di questo algoritmo è che nel sotto-grafo così costruito esistono pagine fortemente interconnesse ma che non sono rilevanti rispetto all’argomento della query. Questo difetto può essere eliminato usando i vettori di argomenti.

Un vettore di argomento è un particolare vettore di termini costruito utilizzando termini contenuti in tutte le pagine del primo insieme estratto. Il vettore di termini di ciascuna delle pagine dell’insieme “allargato” viene poi confrontato con il vettore di argomento della query e se il prodotto fra i due supera un certo valore di soglia (più il prodotto fra due vettori di termini è alto più le pagine sono simili) la pagina è ammessa a far parte del “sotto-grafo” relativo alla query.

Questo tipo di calcolo può essere eseguito, teoricamente, anche senza disporre di un database dei vettori di termini ma il tempo necessario per calcolare i vettori di termini delle pagine interessate a “query time” (cioè nel momento in cui l’utente esgue l’interrogazione) sarebbe proibitivo ed impedirebbe l’utilizzo pratico di questo algoritmo.

Ma l’applicazione più interessante del database di vettori di termini è probabilmente la classificazione delle pagine web. Questo algoritmo assegna a ciascun documento contenuto nell’indice del motore di ricerca un argomento selezionato da una lista di argomenti già definita. Nell’esperimento effettuato, la lista degli argomenti corrispondeva alle 12 categorie di primo livello della directory Yahoo!. Per ciascuna di queste categorie è stato precalcolato un vettore composto da 10.000 termini estratti fra quelli contenuti in circa 30.000 pagine appartenenti alla categoria stessa.

I documenti appartenenti all’indice del motore di ricerca sono poi classificati confrontando il loro vettore di termini, restituito dal database, con i vettori delle categorie. La categoria che nel confronto dei vettori ottiene il punteggio più alto viene selezionata come categoria del documento. Nell’esperimento è sempre stata scelta una sola categoria per ogni documento, e nei casi in cui la classificazione è risultata ambigua il documento non è stato classificato.

L’applicazione di esempio progettata nel 2000 da Bharat aggiungeva ai risultati dell’indice di Altavista l’indicazione dell’argomento trattato dai documenti ed un link “More on this topic”, che permetteva di raffinare la ricerca considerando solo i documenti dell’indice che condividessero la stessa classificazione di argomento.

Il database dei vettori di termini può essere però utilizzato anche per raffinare i risultati di un algoritmo come Hilltop, ideato in seguito dallo stesso Khrisna Bharat. Barat dice esplicitamente che la selezione di documenti esperti i cui link puntano a pagine che condividono la stessa classificazione di argomento è un miglioramento dell’algoritmo.

Inoltre è facile ipotizzare che, se nel database di un motore di ricerca è già presente una classificazione di massima dell’argomento trattato dai documenti indicizzati, diventi semplice calcolare in modo diverso i punteggi relativi ai link fra i documenti a seconda che questi condividano o meno la stessa classificazione di argomento.

Già al tempo della trattazione sono stati evidenziati molti campi di miglioramento per la struttura e la costruzione del database dei vettori di termini, per esempio l’inclusione dei termini presenti nei tag <alt> e di quelli presenti nel testo delle ancore dei link provenenti da altri documenti, la diversa considerazione dei termini contenuti in tag particolarmente importanti, come per esempio il tag <title>, il supporto di termini composti da più parole e l’utilizzo di sistemi più sofisticati di di stemming allo scopo di permettere un supporto multilingua.

Inoltre anche l’utilizzo di Yahoo! Come base per la selezione delle categorie e la costruzione dei vettori di argomento potrebbe oggi trovare un miglior candidato in ODP, una directory open source molto ampia e che, per la natura collaborativa e volontaria del team di editori (migliaia in tutto il mondo) può dare migliori garanzie di completezza ed imparzialità.

Almeno così pensava Taher Haveliwala, un altro studente universitario che in seguito sarebbe stato assunto da Google e che ha elaborato un sistema per rendere l’attribuzione del valore di PageRank sensibile al tema trattato dai documenti: il “topic sensitive PageRank”.

L’algoritmo Hilltop

Hilltop è un algoritmo di ordinamento che permette di assegnare ai documenti un punteggio di “autorevolezza” relativo a specifici argomenti, e migliorare in molti casi gli ordinamenti basati sull’analisi del contenuto e, per esempio, sul PageRank.

Quando gli utenti interrogano i motori di ricerca su argomenti molto popolari i motori restituiscono generalmente un grande numero di documenti. Ordinare questi documenti può essere un grosso problema per degli algoritmi che si limitano ad analizzarne il contenuto, perché, diversamente da quanto accade nel campo dell’information retrieval classica, dove si suppone che tutti i documenti provengano da fonti autorevoli, nel web esiste una grossa percentuale di SPAM, ovvero documenti che sono scritti appositamente per avere un buon posizionamento nei motori di ricerca ma che presentano un contenuto di bassa utilità per l’utente finale. Anche quando non c’è un tentativo deliberato di ingannare i motori di ricerca, i loro indici sono affollati da un grande numero di documenti di qualità estremamente variabile e difficili da ordinare.

Quello che ho appena scritto non è un opinione personale, ma il riassunto dell’introduzione di una pubblicazione del 2002 di Krishna Bharat, un ingegnere di Google, noto fra le altre cose per essere il creatore di Google News .

Khrisna Barat aveva già pubblicato interessanti studi, per esempio riguardo alla distillazione del topic di un documento (Improved algorithms for topic distillation in a hyperlinked environment.) ed alla realizzazione di vettori di termini (The Term Vector Database: fast access to indexing terms for Web pages).

Nel 2002, insieme a George A. Mihaila (altro “geniaccio” di cui riparlerò) pubblica “When experts agree: using non-affiliated experts to rank popular topics”. Questa pubblicazione analizza il problema sopra indicato e tenta di trovare una soluzione efficiente.

Per prima cosa vengono analizzati gli approcci usati precedentemente per tentare di risolvere il problema, fra questi vi è un accenno specifico al pageRank, del quale individua un limite specifico nel “non poter distinguere fra pagine autorevoli in generale e pagine autorevoli relativamente all’argomento della ricerca. In particolare un sito autorevole in generale può contenere una pagina che soddisfa una certa query ma che non è autorevole rispetto all’argomento”.

In altre parole un sito che tratta, per esempio, di animali domestici può essere molto popolare ed avere un alto PR. Molto probabilmente questo PR proviene da link di altri siti che trattano lo stesso argomento e lo consigliano come approfondimento ai propri utenti, un consiglio valido e fondato quindi. Ma se in quello stesso sito ci fosse una sola pagina che trattasse di auto da corsa, non significherebbe che i siti che lo consigliano intendano raccomandare anche la lettura di quella pagina. Eppure in virtù del PR del sito, se ben inserita nella struttura dei link, questa pagina avrebbe buone possibilità di posizionarsi per ricerche riguardanti le auto da corsa.

L’approccio “Hilltop” si basa, come quello del PageRank, sull’assunto che la qualità e la quantità dei link che puntano ad un documento è un buon indice della qualità del documento, la differenza è che Hilltop considera solo i link provenienti da specifici documenti ritenuti “esperti” relativamente alla ricerca effettuata dall’utente, “documenti creati con lo specifico scopo di dirigere le persone verso le risorse”. Quando viene eseguita una query, l’algoritmo Hilltop per prima cosa individua una lista dei documenti “esperti” più rilevanti per l’argomento, poi all’interno di questi seleziona i link più rilevanti rispetto alla query e seguendo questi individua le pagine da posizionare. Queste pagine sono poi “ordinate secondo il numero e la rilevanza di esperti non affiliati che puntano ad esse. Così il punteggio di una pagina riflette l’opinione collettiva dei migliori esperti indipendenti dell’argomento della query”.

E’molto importante capire che questo tipo di algoritmo funziona solo in presenza di un numero sufficiente di “documenti esperti”, cosa che in generale capita per argomenti molto popolari, dove esistono molti siti web che compilano liste di risorse a tema. D’altra parte i webmaster dei siti, in generale, cercano di pubblicare liste di link aggiornate e complete per aumentare la loro popolarità e la loro influenza nella comunità web interessata ad un certo argomento.

Per interrogazioni che non permettano di individuare una lista di documenti esperti ritenuta sufficiente l’algoritmo Hilltop semplicemente non viene utilizzato, ma questo non è un grosso limite, perché viene specificato chiaramente che l’algoritmo serve a migliorare l’accuratezza delle query sulle quali viene applicato e non è assolutamente necessario che venga utilizzato per tutte quelle eseguite dagli utenti. D’altronde Hilltop ha maggiori possibilità di funzionare bene in presenza di un elevato numero di siti attinenti alla ricerca effettuata, proprio la situazione in cui l’analisi del contenuto si rivela insufficiente.

E’ molto probabile che questo algoritmo sia già utilizzato da Google fin dall’update Florida, del 2004, quello in cui ci fu un vero e proprio terremoto nelle serp (pagine dei risultati). Il fatto che venga applicato soltanto alle ricerche più “popolari” spiegherebbe anche un certo comportamento di Google, che per le ricerche con un basso numero di risultati sembra tendere a dare maggior peso all’analisi dei contenuti.

Il TrustRank

Il TrustRank è un algoritmo brevettato da Google, in parte basato sulla valutazione dei siti effettuata da esseri umani, progettato per risolvere il grosso problema dello spam presente negli indici dei motori di ricerca.

Uno dei problemi più grandi che i motori di ricerca si sono trovati a combattere negli ultimi anni è la crescita del fenomeno denominato spam. Lo spam, in questo contesto può essere a grandi linee definito come la pubblicazione di pagine web create con il solo scopo di ingannare gli algoritmi dei motori di ricerca.

Uno dei primi metodi utilizzati per fare spam è stato quello di inserire nelle pagine web del testo nascosto agli esseri umani ma visibile ai motori di ricerca (per esempio impostando il testo con lo stesso colore dello sfondo della pagina oppure usando alcune proprietà dei fogli di stile), così da ottenere buoni posizionamenti relativamente ad argomenti che effettivamente non avevano niente a che fare con il contenuto visibile delle pagine.

Un altro metodo molto popolare per fare spam è quello di creare decine, o anche centinaia, di pagine sostanzialmente inutili per gli utenti, ma tutte contenenti uno o più link verso una specifica pagina, la quale la quale vedrà migliorato il suo posizionamento nei motori di ricerca a causa dell’aumento di fattori come la link-popularity o il PageRank.

In effetti, quando un motore di ricerca si trova davanti ad un circuito di siti web fortemente linkati fra loro, deve effettuare la difficile scelta di stabilire se essi siano davvero siti che si citano per approfondimenti reciproci dell’argomento trattato oppure semplicemente un circuito di spam. Per un essere umano che “conosca il mestiere” è relativamente semplice capire se un sito effettua spam, osservando per esempio in che percentuale esista nelle pagine contenuto utile e testo invisibile, controllando la visibilità e l’effettiva natura dei link, i nomi assegnati a domini, file e cartelle, confrontando gli indirizzi IP dei documenti a cui i collegamenti puntano ed altri fattori ancora. Per un computer, al contrario, riconoscere lo spam è un compito decisamente difficile, tanto è vero che l’approccio finora utilizzato da parte dei motori di ricerca è quello di far eseguire ad un apposito staff di persone il monitoraggio dei risultati per individuare pagine che effettuano spam ed eliminarle dall’indice del motore. Molti motori di ricerca possiedono apposite interfacce pubbliche che permettono la segnalazione di spam direttamente allo staff del motore che, appena possibile, verifica la correttezza della segnalazione ed eventualmente prende i provvedimenti del caso. Il problema dell’eliminazione dello spam dai propri indici è così importante per i motori di ricerca che, in mancanza di meglio sono disposti ad utilizzare questo tipo di approccio, assai lento, costoso, e in definitiva molto poco efficiente.

Nel 2004 alcuni ricercatori del dipartimento di Computer Science della Stanford University hanno pubblicato uno studio dal titolo “Combating web spam with TrustRank” (Combattere lo spam con il TrustRank) ed il 16 marzo 2005 la tecnologia TrustRank è stata ufficialmente brevettata da Google.

L’algoritmo di TrustRank può essere utilizzato sia per suggerire automaticamente allo staff di esseri umani quali sono le pagine del web da controllare più attentamente perché “a rischio spam,” sia per generare un punteggio da usare in fase di ordinamento delle pagine allo scopo di compensare gli effetti negativi che lo spam ha avuto sull’efficacia di altri algoritmi, come quelli per l’analisi del contenuto o quello del PageRank.

Dal momento che identificare lo spam è molto difficile per un computer il TrustRank utilizza in parte l’intervento umano per addestrare l’algoritmo a riconoscerlo. A grandi linee il funzionamento de TrustRank è questo.

1)L’algoritmo seleziona un insieme di pagine relativamente piccolo (“seed pages”, pagine seme) secondo criteri che spiegheremo in seguito, delle quali non si sa ancora se effettuino spam o meno.

2)Un essere umano esamina ad una ad una tutte le pagine dell’insieme e le divide in “buone” (pagine che non effettuano spam) e “cattive” (pagine che effettuano spam).

3)L’algoritmo processa l’intero indice del motore di ricerca ed assegna a ciascuna pagina che vi è contenuta un punteggio di “trust” (fiducia) basato sul grado di vicinanza alle pagine seme “buone” nel grafo del web.

I Dati Storici

Dati Storici rappresentano tutti quei dati relativi ad analisi di tipo storico che i motori di ricerca possono analizzare per attribuire al sito la posizione più indicata tra i risultati delle ricerche: dall’ anzianità del dominio alla variabilità nel trend degli aggiornamenti.

Questo ” sistema di valorizzazione ” consiste nell’esaminare diversi aspetti nell’archiviazione di dati di tipo ” storico “, relativi cioè ai cambiamenti e gli aggiornamenti nel tempo di un documento.

L’analisi dei dati storici potrebbe essere uno dei tanti criteri su cui si baseranno i motori di ricerca: tra questi, Google, il 31 Marzo 2005 ha registrato un brevetto dal titolo Information retrieval based on historical data ( Reperimento di informazioni basato su dati storici ) presso la US Patent & Trademark Office, in cui nella sezione principale del documento intitolata Exemplary history data, ci sono 99 paragrafi, suddivisi in 14 sub-categorie, in cui vengono descritti molteplici algoritmi eventualmente usati per l’archiviazione e la restituzione di dati e informazioni.

Fattori come l’ aggiornamento dei contenuti di un documento, le ricerche effettuate dagli utenti nel motore di ricerca e le loro scelte nella pagina dei risultati, i criteri basati sui link , come peso e freschezza di un link o di un anchor, sono soltanto alcuni dei fattori che possono essere presi in considerazione dal motore di ricerca nella sua analisi dei Dati Storici.

Motori e Ricerca, in collaborazione con Posizionamento Web, ha tradotto l’intero documento sui Dati Storici di Google e commentato i suoi algoritmi. L’idea di questo progetto nasce sul forum sul posizionamento nei motori di ricerca di Giorgio Taverniti, uno dei più grandi forum professionali sul posizionamento sui motori di ricerca e sul web marketing in Italia.

Google PageRank

Il PageRank è un valore calcolato da Google per ogni documento presente nel suo database. Tale valore rappresenta la qualità del documento e a parità di altri fattori, ne influenza il posizionamento.

Negli ultimi anni Google è diventato indiscutibilmente il motore di ricerca più utilizzato del mondo come riportano tutte le statistiche eseguite negli ultimi anni dagli istituti di ricerca più diversi.

La popolarità di cui gode Google è in parte dovuta alla semplicità di utilizzo della sua interfaccia, che è spartana e non affollata dalle miriadi di lucette e finestrelle che riempiono le pagine di molti altri motori di ricerca. Un altro fattore che però ha sicuramente influito nell’accrescere la preferenza degli utenti verso Google è stata la qualità dei risultati ottenuti dalle ricerche, che sono sempre stati molto più rilevanti rispetto a quelli degli altri motori.

La qualità dei risultati di Google è dovuta principalmente all’utilizzo del PageRank, un metodo per assegnare alle pagine web un punteggio di qualità indipendente dal contenuto e dalla ricerche, messo a punto dai due fondatori di Google: Sergey Brin e Lawrence Page, appunto.

Quando il PageRank fu concepito i motori di ricerca utilizzavano già la link-popularity come parametro di correzione dell’ordinamento nei loro algoritmi ed anche i webmaster avevano iniziato a capire come aumentarla artificialmente, creando centinaia o anche migliaia pagine web che contenessero link ai siti da “spingere”.

Il concetto migliorativo della link-popularity e che sta alla base del PageRank originale è il seguente:

A ogni documento presente nel database di Google viene assegnato un punteggio (PageRank ) basato sul numero di link che riceve dagli altri documenti, ma non tutti i link che il documento riceve hanno la stessa forza, infatti quelli ricevuti da documenti importanti, cioè da documenti che a loro volta ricevano molti link, contano di più.

Quindi il PageRank di un documento dipende dal PageRank dei documenti che lo linkano, ma anche il PageRank di questi ultimi dipende da quello dei siti che linkano loro e così via. Risulta quindi abbastanza chiaro che il calcolo del PageRank è un calcolo ricorsivo, che deve essere ripetuto un certo numero di volte per avere un risultato che possa essere considerato stabile.

Alla fine dei calcoli ogni documento indicizzato da Google avrà il suo valore di PageRank che servirà come fattore correttivo nella fase di ordinamento dei risultati delle ricerche degli utenti, per cui a parità di altri fattori il documento con PageRank più alto avrà un posizionamento migliore.

Sono ormai passati molti anni dalla prima formulazione del concetto di PageRank messa a punto da Sergey Brin e Lawrence Page alla Stanford University ed è probabile che la formula originale, basata esclusivamente sul computo dei link che le pagine web si scambiano fra loro, sia stata implementata con altri fattori di diversa natura adatti a correggere le distorsioni dovute a nuovi tipi di approcci dei webmaster che, ormai da tempo maneggiano vendite e scambi di link ad alto PR con troppa disinvoltura per non aver dato nell’occhio.

Sicuramente gli ingegneri di Google stanno cercando nuovi sistemi per calcolare il valore di PageRank di un documento e su questi possiamo fare solo ipotesi, anche se, come vedremo, alcune di esse sono molto fondate.

La formula originale del PageRank

Analizzare la formula originale per il calcolo del PageRank vi darà la possibilità di verificare il funzionamento di un meccanismo di valutazione dei documenti web attraverso parametri esterni.

Questa è la formula pubblicata da Sergey Brin e Larry Page nel documento The Anatomy of a Large-Scale Hypertextual Web Search Engine risalente al 1998.PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

– PR(A) è il PageRank della pagina A
– n è il numero delle pagine che linkano la pagina A
– PR(T1) – PR(Tn) sono i valori di PageRank delle n pagine T1 – Tn che linkano la pagina A
– C(T1) – C(Tn) sono il numero di link in uscita presenti nelle pagine T1 – Tn
– d è un fattore correttivo di attenuazione che può assumere valori fra 0 e 1.

Dalla formula si capisce chiaramente che il PageRank di ogni pagina nel database di Google è influenzato da quello delle pagine che contengono un link ad essa.

Inoltre dall’espressione PR(Tn)/C(Tn)) si evince che il PR di una pagina T(n) che contiene un link alla pagina A non fa aumentare il PR di questa di una quantità direttamente proporzionale al PageRank della pagina Tn, infatti tale valore viene diviso per il numero dei link in uscita presenti in quest’ultima.

Questo significa che se la pagina Tn ha molti link in uscita aumenterà di una quantità minore il PR della Pagina A ( e ovviamente di tutte le altre pagine a cui puntano i suoi link in uscita ).

Una conseguenza di questa formula è che una pagina web può avere un alto PR se molte pagine, anche a basso PR, contengono un link ad essa; ma può averlo anche se riceve un solo link da una pagina ad alto PR, cioè da un documento a “importante” perché a sua volta molto citato e magari con pochi link uscenti.

Proprio qui il Pagerank si dimostra migliorativo rispetto alla link-popularity nel quantificare l’importanza dei documenti web:

Se una pagina riceve molti link è sicuramente una pagina importante, ma proprio per questo un link ricevuto da quella pagina deve essere considerato più importante di un altro. Questo, secondo Page e Brin, avvicina il valore di PageRank al significato comune che gli esseri umani danno al termine di “importanza” di un documento, rispetto al semplice conteggio dei link che puntano ad esso.

L’algoritmo del PageRank, così come riportato nella formula originale è un algoritmo ricorsivo, ovvero deve essere eseguito un determinato numero di volte prima che possa restituire un risultato stabile. Inizialmente a tutte le pagine viene assegnato un valore di PR uguale ad 1, dopodichè per ognuna di esse viene effettuato il calcolo del PR.

Ovviamente, quando avremo finito di calcolare il valore di PR per l’ultima pagina i valori iniziali su cui abbiamo basato il calcolo di tutte le altre saranno cambiati. Quindi il calcolo del PR verrà ripetuto per tutte le pagine con i nuovi valori un numero di volte sufficiente ad ottenere un risultato stabile.

Un’altra interpretazione intuitiva della formula, proposta dagli inventori, è la seguente: Brin e Page immaginano un utente “random” del web, che partendo da una pagina casuale segua i link che trova in essa senza poter mai tornare indietro con il pulsante “back” del browser. Questo utente però può decidere aleatoriamente di smettere di seguire i link e andare su una nuova pagina casuale per poi ricominciare a seguirli.

La probabilità che un visitatore visiti una pagina corrisponde al valore di PageRank di quella pagina.

Il valore “d” è il cosiddetto “damping factor” un fattore correttivo ( attenuante ) che può essere interpretato come la probabilità che in una pagina il visitatore “si annoi” e invece di seguire i link vada su un altro indirizzo casuale.

Come loro stessi dichiarano nel documento del 1998 “…questo fattore correttivo può essere aggiunto a una sola pagina o a un gruppo di pagine. Questo permette personalizzazioni e può rendere virtualmente impossibile ingannare deliberatamente il sistema allo scopo di ottenere punteggi alti”.

Concludo questa pagina con una considerazione: l’analisi della struttura dei link del web fa sicuramente ancora parte del calcolo del PageRank, ma è possibile, anzi probabile, che adesso ne sia per l’appunto solo una parte.

Quando Page e Brin hanno ideato questo meccanismo di valutazione erano due studenti universitari e il prototipo di Google che era da poco funzionante su dei server della Stanford University aveva indicizzato circa 24 milioni di pagine. Adesso Google esiste, preleva e memorizza dati da più di sette anni per un totale che supera gli otto miliardi di documenti indicizzati. Inoltre da più di tre anni è considerato unanimemente il motore di ricerca più utilizzato nel mondo. Attraverso l’analisi dei dati trasmessi dalla toolbar di Google, il monitoraggio del comportamento degli utenti sulle proprie pagine dei risultati, ed altri servizi quali Google News o per esempio il nuovissimo Google web accelerator , Google adesso ha sicuramente a disposizione altri parametri che offrono importanti indizi sull’importanza che gli utenti attribuiscono ai documenti presenti nel web.