Google, brevetto sui dati storici

Information retrieval based on historical data

Dati Storici rappresentano tutti quei dati relativi ad analisi di tipo storico che i motori di ricerca possono analizzare per attribuire al sito la posizione più indicata tra i risultati delle ricerche: dall’anzianità del dominio alla variabilità nel trend degli aggiornamenti.

Questo “sistema di valorizzazione” consiste nell’ esaminare diversi aspetti nell’ archiviazione di dati di tipo “storico“, relativi cioè ai cambiamenti e gli aggiornamenti nel tempo di un documento.

L’ invenzione che vi andremo a descrivere si riferisce generalmente ai sistemi di reperimento delle informazioni e, più in particolare, ai sistemi e ai metodi usati per generare i risultati di una ricerca basati, almeno in parte, sui dati storici associati a documenti rilevanti.

Idealmente, un motore di ricerca , in risposta a una data ricerca di un utente, fornirà i risultati più attinenti e più relativi ai termini ricercati.

Per raggiungere lo scopo esso può monitorare e archiviare informazioni reperite da un documento di diverso tipo e in diversi modi Una categoria di motori di ricerca identifica i documenti rilevanti per una certa ricerca basandosi sulla comparsa nel documento dei termini associati alla ricerca.

Un’ altra identifica i documenti rilevanti per una certa ricerca usando altri fattori oltre, o in addizione, alla presenza dei termini ricercati nei documenti: uno di questi fattori, per esempio, usa le informazioni associate ai link uscenti o entranti di un documento per determinarne l’ importanza ai fini della ricerca.

L’ importanza di questo documento, la grande quantità di informazioni in esso contenute e la difficoltà di comprensione e di correlazione di tutti gli algoritmi proposti, testimonia come raggiungere un buon posizionamento sui motori di ricerca risulti un’ operazione delicata, con tempi di risposta molto lunghi, in cui le variabili da analizzare e a cui attribuire significati sono tante e complesse e i cui legami molteplici.

Tutte le ipotesi e le teorie sviluppate fino ad ora nel campo del Search Engine Optimization da SEO professionisti e non, potrebbero trovare in questo documento, quindi, una fonte ufficiale di informazioni. Infatti il 31 Marzo 2005 Google ha registrato un brevetto dal titolo Information retrieval based on historical data Reperimento di informazioni basato su dati storici ) presso la US Patent & Trademark Office, in cui nella sezione principale del documento intitolata Exemplary history data , ci sono 99 paragrafi, suddivisi in 14 sub-categorie, in cui vengono descritti molteplici algoritmi eventualmente usati per l’ archiviazione e la restituzione di dati e informazioni.

Brevettati ufficialmente il 31 Marzo 2005 come si può leggere all’ inizio del documento, il brevetto sui dati storici risale al 31 Dicembre 2003 e potrebbe essere, quindi, già parte integrante degli algoritmi di funzionamento di Google e spiegare così alcune teorie in campo SEO, come quella relativa all’ ” effetto sandbox ” o sulla nascita del nuovo TrustRank.

La data iniziale dei documenti

La Data Iniziale può essere vista come il “primo contatto” tra il motore di ricerca e il documento. E’ uno dei parametri fondamentali sul quale si basano molte implementazioni diverse dell’algoritmo: il motore di ricerca, infatti, per poter eseguire le diverse analisi necessarie al reperimento dei dati storici e comparare i dati relativi a periodi diversi, deve attribuire al documento una “data di nascita” dalla quale cominciare a rilevare cambiamenti e aggiornamenti.

Nel brevetto, Google, ci indica l’utilizzo di diversi modi usati dal suo motore di ricerca per reperire la Data Iniziale di un documento:

– attraverso l’esplorazione, cioè con il primo passaggio dello spider nel documento
– attraverso la segnalazione del documento al motore di ricerca da fonti esterne, come ad esempio il modulo di segnalazione Add URL dello stesso Google
– attraverso una combinazione delle prime due tecniche
– attraverso l’esplorazione del web, quando lo spider del motore di ricerca trova per la prima volta un link al documento.

In altre implementazioni dell’algoritmo poi, ci sono anche altri modi di reperire la Data Iniziale: alcuni esempi li possiamo leggere nel Brevetto, ma ci sono anche altre tecniche non specificatamente menzionate, o combinazioni di esse, che possono essere usate per determinare la data iniziale del documento. Alla luce di questo, soffermiamoci sul significato e sulle possibili applicazioni del concetto di Data Iniziale.

La Data Iniziale di un documento è necessaria al motore di ricerca per stabilire quanto sia “vecchio” o “giovane” un documento: per misurare l’ “anzianità” di un documento in un determinato momento, Google nel suo brevetto fa riferimento alla Data Iniziale dello stesso. A seconda, poi, dell’anzianità del documento, e anche in base al settore di competenza dello stesso, ma lo vedremo più avanti, può essere implementato un sistema di valorizzazione che consideri più importante un documento più anziano a dispetto di uno più giovane.

In un esempio del Brevetto, Google indica la corrispondenza del concetto di Data Iniziale con i backlink di un documento: infatti, partendo dall’assunto che un documento con una Data Iniziale abbastanza recente non riceva un numero significante di link da altri documenti rispetto ad un documento più vecchio a cui puntano molti più link, possiamo facilmente intuire che il documento più anziano sia considerato più importante e di conseguenza venga maggiormente valorizzato.

D’altro canto, introducendo il concetto di “ritmo di crescita” dei backlink, cioè quanti backlink riceve un documento in un determinato periodo di tempo a partire dalla Data Iniziale, quanto appena detto sopra potrebbe non essere più vero, ed un documento più giovane con un ritmo di crescita maggiore potrebbe avere più valore di un documento più anziano con più link ma con un ritmo di crescita minore. Questo a testimoniare il fatto che un documento “anziano” ha maggiori probabilità di contenere informazioni “obsolete” rispetto ad un documento più giovane.

In questo modo, il ritmo di crescita dei backlink di un documento può essere monitorato dal motore di ricerca ed usato anche come fattore di determinazione di probabile spam al motore stesso e il concetto di ritmo di crescita diventa quindi un concetto molto importante al fine di “pesare” i backlink di un documento.

Il concetto “ritmo di crescita“, appena descritto per i backlink, assume, quindi, un valore molto importante: ritroveremo in altre sezioni il “ritmo di crescita” di qualcosa, cioè quanto un determinato fattore viene implementato o aggiornato in un determinato periodo di tempo, e vedremo quanto questo concetto sia importante per la corretta lettura di tutto il Brevetto.

L’aggiornamento dei contenuti

L’aggiornamento, o il cambiamento, dei contenuti di un documento o di un sito web possono essere dei fattori determinanti per il posizionamento sui motori di ricerca.

Il motore di ricerca, grazie allo spider che analizza il web nella sua continua ricerca di informazioni, riesce a monitorare gli aggiornamenti, e l’entità di essi, effettuati sul documento o su parti di esso, a partire dalla sua data iniziale o in un determinato lasso di tempo: lo spider archivia, poi, i dati analizzati in una memoria temporanea (la versione cache di Google) in modo da controllare più facilmente se al documento sono apportate modifiche e aggiornamenti.

Nel Brevetto sul reperimento di Dati Storici, Google ci indica anche in che modo potrebbe rilevare e dar peso agli aggiornamenti effettuati: una funzione, che potrebbe essere una somma o una somma pesata, in cui vengono messi in relazione due fattori: uno legato alla frequenza degli aggiornamenti, che indica al motore di ricerca “quanto spesso” viene aggiornato un documento, e uno legato alla quantità degli aggiornamenti effettuati.

La frequenza con cui un documento viene tenuto aggiornato nel tempo può essere determinata dal motore di ricerca facendo uso di “copie” del documento che vengono archiviate nel database del motore e possono essere usate per effettuare analisi comparative in un determinato periodo.

Per determinare, poi, la quantità degli aggiornamenti effettuati, Google nel suo brevetto ci indica diversi fattori che possono essere esaminati per assegnare un punteggio legato alla quantità degli aggiornamenti: dal numero delle nuove pagine in un lasso di tempo, al rapporto di queste ultime con il totale delle pagine contenute dal documento a partire dalla sua Data Iniziale…ma non solo!!

Dal numero dei fattori riportati dal Brevetto possiamo facilmente renderci conto della necessità di aggiornare un documento con contenuti nuovi e validi; infatti la quantità degli aggiornamenti può essere a sua volta una funzione di diversi fattori pesati in maniera differente.

Google può determinare il “tipo” di agggiornamento effettuato e attribuirgli un peso diverso a seconda che il tipo di aggiornamento effettuato sia considerato “importante” o no. Per esempio i cambiamenti di contenuti come commenti, pubblicità, script ed elementi di navigazione possono avere un peso relativamente piccolo od essere addirittura ignorati da Google nella determinazione della quantità degli aggiornamenti.

Dopo aver descritto la frequenza e la quantità degli aggiornamenti, passiamo ad analizzare i vari modi di utilizzo di questi due parametri. Ritroviamo il concetto di “ritmo di crescita” (già visto nella Data Iniziale per il numero di link entranti in un certo documento) applicato agli aggiornamenti o cambiamenti dei contenuti di un documento o di un sito. Il ritmo di crescita degli aggiornamenti in un dato periodo può essere rilevato, esaminato e messo a confronto col ritmo di crescita riferito ad un altro periodo (precedente) per determinare eventuali accelerazioni o decelerazioni negli aggiornamenti dei contenuti: per esempio, a quei documenti in cui viene rilevato un incremento nel ritmo di crescita e nei quali l’entità degli aggiornamenti supera un certo valore, potrebbe essere attribuito un punteggio maggiore rispetto ad altri documenti che non vengono aggiornati, e rimangono statici nel tempo, o che subiscono leggeri aggiornamenti.

Per determinare tutti questi fattori e tenere sotto controllo il ritmo di crescita degli aggiornamenti e la loro entità, il motore di ricerca deve usare fisicamente e materialmente molte risorse: dallo spazio fisico per la memorizzazione dei dati, alle risorse di banda per l’analisi e il rilevamento dei questi ultimi.

Finchè queste risorse sono a disposizione può essere analizzato e archiviato l’intero documento, al fine di rilevarne gli aggiornamenti, ma, in alcune situazioni, queste risorse possono essere momentaneamente insufficienti per una corretta analisi e archiviazione dei dati: in questo caso il motore di ricerca usa archiviare delle “copie” o “rappresentazioni” del documento, invece del documento stesso, e monitorare queste ultime per determinarne gli aggiornamenti. Queste rappresentazioni possono essere delle “signature” (letteralmente firme) di un documento, o un “vettore di dati” in cui sono memorizzati i termini ritenuti più importanti o più frequentemente ricorrenti nel documento.

Con lo stesso tipo di analisi effettuate per determinare l’aggiornamento dei contenuti di un documento, il motore di ricerca può generare, sempre sulla base dei contenuti di un documento, un certo “codice” di somiglianza, in cui memorizzerà una serie di termini o una copia intera del documento, e monitorare questo codice per rilevare gli aggiornamenti effettuati. Lo stesso “codice di somiglianza” può essere usato, poi, dal motore di ricerca, per rilevare eventuali duplicazioni e simili di un documento. A tal proposito, nel brevetto sui dati storici, è indicato che per documenti molto grandi, che includono per esempio parti di documento o documenti interi appartententi a più individui, il punteggio che il motore di ricerca genera può essere assegnato a ciascuno dei sub-documenti, che è aggiornato dal singolo individuo ma che fa parte a tutti gli effetti del “macro” documento.

Alla luce di quanto visto, la frequenza e la quantità degli aggiornamentideicontenuti di un documento, o di un sito internet, possono essere due parametri fondamentali elaborati dal motore per il corretto posizionamento del sito sui motori di ricerca; aggiornare spesso i contenuti di un sito, o di un documento, è sicuramente un fattore da non sottovalutare per ottenere un corretto posizionamento. Il motore, infatti, in generale preferisce siti che aggiornano spesso, e in grande quantità, i propri contenuti, tranne in alcuni casi in cui, per alcune ricerche, possono essere favoriti documenti che non sono stati recentemente aggiornati rispetto al altri aggiornati più di recente.

Le analisi delle ricerche

Le ricerche effettuate dagli utenti nel motore di ricerca e le loro scelte nella pagina dei risultati, possono essere analizzate ed esaminate dal motore e considerate ai fini del posizionamento del documento e del sito.

Una delle intuizioni nel settore del posizionamento sui motori di ricerca, quando non c’era ancora una fonte ufficiale come il Brevetto presentato da Google sul reperimento dei Dati Storici, era quella di pensare che il motore di ricerca considerasse le preferenze degli utenti nella serp associata ad una data ricerca.

Come possiamo ora verificare l’intuizione era valida …ma non assolutamente esaustiva: alcuni esasperarono questo concetto e si generò così una sorta di leggenda metropolitana tale da far cercare e clikkare il sito da posizionare tra le pagine dei risultati forniti dal motore per spingerlo in alto nei risultati. Questa pratica, smentita dalla considerazione del motore degli “accessi unici” ad un documento e associati poi al cambiamento della versione Cache del documento, trova oggi una definizione ufficiale.

Come descritto dal Brevetto di Google, infatti, l’analisi delle ricerche diventa uno dei parametri fondamentali nel reperimento di dati di tipo storico; uno dei primi fattori da analizzare riguarda proprio la quantità di volte nella quale un documento è selezionato nel tempo nei risultati di una ricerca.

Oltre ad associare la preferenza dell’utenza nei risultati di una ricerca, nei confronti di un documento piuttosto che un altro, il motore potrebbe capire, analizzando le ricerche effettuate in un determinato periodo e valutando un particolare insieme di termini, se i termini e il documento sono collegati ad un particolare evento molto popolare od ad un argomento particolarmente “caldo” che catalizza l’attenzione di molti per un certo periodo, e attribuire un valore maggiore ai documenti associati a tali termini. Uno dei modi che Google utilizza per capire se un determinato argomento sia “caldo” è quello di analizzare eventuali cambiamenti nel numero dei risultati associati ad alcune ricerche: un significativo incremento può indicare, infatti, che l’evento associato ad un particolare set di termini (parole chiave), sia “sulla bocca di tutti” e, di riflesso, incrementare il valore dei documenti associati a quelle ricerche.

Altro fattore, da tenere in considerazione sull’analisi delle ricerche, è legato a quelle ricerche che non subiscono variazioni nel tempo, ma che portano, invece, a risultati variabili. L’esempio, sul brevetto di Google, è quello relativo a una ricerca legata a risultati sportivi: in un determinato periodo di tempo è molto probabile che i documenti relativi ad una particolare squadra risultino più “caldi” e più clikkati; in questo caso il motore può monitorare ed analizzare le ricerche effettuate dagli utenti e valorizzare di conseguenza i documenti associati.

Focalizziamo ora l’attenzione ai riferimenti legati ad analisi temporali: ritroviamo, come ritroveremo ovunque sul brevetto, dei riferimenti “impliciti” (nel tempo, in un determinato periodo di tempo) alla Data Iniziale o altri tipi di date indispensabili al motore di ricerca per effettuare le sue analisi sui Dati Storici; di fondamentale importanza è l’introduzione, in relazione ad una analisi storica, del concetto di “staleness” di un documento: un parametro che il motore associa ai documenti che compaiono nei risultati di una ricerca e che indica quanto il documento è considerato “stantio”, superato, obsoleto, per quella data ricerca.

La staleness risulta essere, quindi, un altro parametro da considerare nel posizionamento sui motori di ricerca. Per rilevare la staleness di un documento, Google può basarsi, oltre ai fattori considerati fin qui sulle analisi delle ricerche, su altri fattori come:

  • la Data Iniziale e le rilevazioni temporali ad essa collegate;
  • l’aggiornamento dei contenuti e il loro ritmo di crescita;
  • la crescita del numero di backlink, forward link e anchor.

Per alcune ricerche particolari, i documenti più recenti sono più favoriti: basti pensare a “Last minute”: un utente preferirebbe sicuramente trovare la versione più recente o l’ultima proposta, piuttosto che un documento con informazioni vecchie. In base alle preferenze degli utenti su determinate ricerche e ai documenti da loro selezionati, quindi, il motore di ricerca può imparare per quali ricerche sono più importanti i documenti più recenti e per quali ricerche sono più importanti i documenti più stantii, e aggiustare di conseguenza il loro valore basato sull’analisi delle ricerche.

I link

Prima di rilasciare il Brevetto sul reperimento di informazioni basato sui Dati Storici , infatti, Google usava già da tempo il Page Rank (PR), un algoritmo che attribuisce un valore al documento basandosi soprattutto sui fattori esterni al sito stesso come la Link Popularity (LP): quest’ultima risulta così essere uno dei parametri fondamentali che determinano il posizionamento sui motori di ricerca. La Link Popularity descrive la popolarità del documento, quanti link, e di che tipo, riceve un documento o un sito.

La logica è quella per cui un documento acquisisce importanza in base a quanti link riceve da altri documenti: ovviamente un documento linkato da molti altri documenti viene considerato più importante di uno poco linkato o addirittura isolato.

Ultimamente, Google, ha rilasciato il Trust Rank (TR), un nuovo Brevetto che attribuisce ancora più importanza alla LP, pesando ogni link a partire da un certo numero di grossi siti (hub) che certificano la qualità di un documento ( DMOZ , Yahoo Directory ). Il TR nasce, come altri brevetti, per garantire la buona qualità delle serp e combattere la produzione di massa di link artificiali, con link farm (link factory), e combattere quindi lo SPAM.

La produzione di massa di link, al solo fine di posizionare un documento nei risultati del motore di ricerca, è considerata da Google una tecnica illecita, causa di dubbia qualità delle serp, e quindi combattuta col Trust Rank (Trust = fidato).

Nel Brevetto sui Dati Storici di Google esistono molti criteri basati sui link , da considerare ai fini di un più preciso calcolo della LP e forse anche del TR: infatti, uno dei fattori determinanti, tra i vari criteri adottati sui link, è l’introduzione di un tipo di analisi che dipenda dai pesi assegnati ai link: ogni link può essere valutato, pesato, attraverso l’utilizzo di diversi fattori.

Un link può essere pesato:

  • in base ad una funzione che determini la freschezza del link;
  • ad una funzione che sia a sua volta una “somma di pesiâ€? attribuiti
    al documento valutando diversi fattori;
  • in base alla legittimità e all’autorità del
    sito che contiene i link;
  • in base a diverse combinazioni di quanto detto finora.

La data di apparizione di un link

Il primo fattore da considerare per l’analisi dei Dati Storici basati sui link è relativo alla date di apparizione di nuovi link ai documenti e alle date in cui un link esistente scompare.

In questa parte del Brevetto, come già visto nell’ Aggiornamento dei Contenuti per la misura di parametri che si basano sulla Data Iniziale dei documenti , saranno molto importanti, per la corretta interpretazione del brevetto, i fattori relativi al tempo o al ritmo con cui cresce (o decresce) un determinato fattore.

La data di apparizione di un link, come la data iniziale o la data in cui si effettua un aggiornamento, diventa indispensabile per le analisi effettuate dal motore per valutare i dati storici dei link.

La data di apparizione di un link può essere la data in cui il motore trova il link per la prima volta, oppure potrebbe corrispondere con la data iniziale del documento o una delle date di aggiornamento in cui è comparso il link stesso.

La comparsa e la scomparsa di un link a un documento possono essere viste dal motore di ricerca come fattori che testimoniano rispettivamente la freschezza o la staleness di un documento.

In relazione poi, all’apparizione o alla scomparsa di un link, Google può analizzare la variazione nel tempo dei link che puntano a un documento e in questo rilevare quale sia la tendenza del documento: con che frequenza un documento acquista backlink. Un ritmo crescente nel numero e nella velocità di apparizione di nuovi link in un periodo di tempo, può segnalare al motore di ricerca che il documento sia nuovo, fresco, o comunque mantenuto aggiornato, ed essere meritevole, quindi, di maggior valorizzazione.

La variazione può essere monitorata comparando il numero di nuovi link negli ultimi n giorni col numero di link a partire dalla Data Iniziale del documento, o a partire da una delle date in cui si è aggiornato significativamente il documento dando vita così a una funzione di distribuzione delle età associate alla comparsa di un link che punta a un documento.

Questa funzione assumerà valori differenti a seconda se il documento venga o no aggiornato frequentemente e il motore di ricerca può analizzarla come ulteriore fattore per determinare la freschezza o la stalenessdi un documento.

Alla luce di quanto visto, la frequenza e la quantità del numero di nuovi link a un documento o a un sito internet, possono essere due parametri fondamentali elaborati dal motore per il corretto posizionamento del sito sui motori di ricerca; aumentare in modo legittimo e con costanza il numero dei backlink è sicuramente un fattore da non sottovalutare per ottenere un buon posizionamento.

I testi dei link

Tutti gli operatori che lavorano nel posizionamento sui motori di ricerca hanno capito quanto risultano essere importanti i link per i motori di ricerca, soprattutto per un motore di ricerca come Google che considera molto di più i fattori cosiddetti “esterni” di un sito, come per esempio la link popularity e il peso di un backlink, piuttosto che i fattori di ottimizzazione “interna” relativi alla struttura adottata per il sito, ai tag HTML usati per la formattazione dei testi e alle parole chiave utilizzate.

Detto questo, possiamo ancora imparare molto sull’uso che il motore di ricerca fa dei link:

– una volta rilevati e analizzati i backlink, pesati e rilevata la loro “freschezza”, scopriamo altre novità sempre derivanti dall’analisi dei Dati Storici.

La novità che Google introduce con il suo brevetto sui Dati Storici relativamente ai testi delle ancore riguarda, come ci si sarebbe potuto aspettare dall’interpretazione della sezione relativa ai Criteri basati sui link, il modo in cui i testi delle ancore cambiano nel tempo.

Nello stesso modo in cui vengono analizzati e pesati i link a un documento, possono essere rilevati anche i cambiamenti nel tempo del testo di un link.

Questo anche perchè il testo dell’ancora di un link, e più in generale un link, è spesso considerato come parte integrante del documento a cui punta e di qui l’ovvia conseguenza che il testo contenuto nell’ancora debba essere rilevante per il dominio a cui punta, e non apparire per risultati di ricerche “fuori tema”.

Un esempio classico di questa tecnica è il monitoraggio di un dominio, dei testi delle ancore contenute nei link, per rilevare se il dominio che ospita il documento ha cambiato proprietario, e di conseguenza ha cambiato i suoi contenuti.

In questo caso Google nel suo brevetto sui Dati Storici ci indica che tutti i backlink precedenti, che risultano quindi essere non “in tema” potrebbero essere poco considerati o addirittura ignorati.Tutto questo sempre nell’ottica perseguita da Google di restituire sempre risultati di qualità in tema con le parole chiave ricercate.

Come rilevato dall’analisi dei Criteri sui link, la freschezza di un link risulta essere un parametro utile al motore per effettuare aggiornamenti sul valore di un documento o di un sito. Nello stesso modo, la freschezza del testo di un’ancora può essere determinata e usata dal motore di ricerca per rilevare se c’è stato un aggiornamento, o un cambiamento di argomento, del documento a cui punta il link e di conseguenza aggiornare il valore del documento per il posizionamento sul motore di ricerca.

Il Traffico

Un altro fattore usato dal motore di ricerca, nella sua analisi e valutazione dei dati storici, risulta essere il Traffico associato ad un documento in un determinato periodo di tempo.

In questo momento storico, in cui alcuni algoritmi dei motori di ricerca stanno diventando così complessi da usare funzioni come i filtri bayesiani o l’intelligenza artificiale per l’auto-apprendimento, come potevamo NON pensare che anche il Traffico che riceve un documento o un sito potesse essere un fattore correttivo per il posizionamento sui motori di ricerca?

In termini di qualità, come abbiamo visto nella sezione riguardante l’aggiornamento dei contenuti, un documento costantemente aggiornato può essere considerato più meritevole rispetto ad un documento stantio e quindi risultare meglio posizionato nei risultati delle ricerche.

Questi fattori possono essere rilevati anche attraverso le analisi del traffico associato al documento, attraverso la determinazione delle caratteristiche delle variazioni del traffico : per esempio una grande riduzione di traffico nel tempo può significare che il documento sia da considerare stantio, obsoleto.

Tra l’altro, il Brevetto sul reperimento di Dati Storici nasce come strumento per la lotta allo SPAM per rilevare e combattere tutti quei spammer che cercano di ingannare il motore di ricerca per ottenere migliori posizionamenti nei risultati delle ricerche: una delle strategie adottate da questi riguarda proprio il reindirizzamento del traffico proveniente dal motore di ricerca verso un documento o un sito da “spingere”.

Il Traffico a cui è soggetto un documento può essere monitorato dal motore per rilevare variazioni dello stesso: Google ci indica come il motore di ricerca possa identificare ed esaminare degli Schemi di Traffico , comparando, per esempio, il Traffico medio mensile di un documento al traffico medio durante il mese in cui il documento ha ricevuto il maggior traffico, oppure con il traffico annuale.

In questo modo il motore di ricerca può rilevare periodi in cui un documento è più o meno popolare (genera più o meno traffico), come durante l’estate o i fine settimana, identificare degli schemi di traffico ripetitivi e correggere il valore del documento in relazione al periodo considerato.

Un altro modo usato dal motore di ricerca nell’analisi del traffico di un documento, riguarda il monitoraggio delle caratteristiche della variazione nel tempo per il ” traffico pubblicitario “, traffico derivante cioè da circuiti pubblicitari in cui vengono esaminati diversi fattori: dal numero di inserzioni e il ritmo di aggiornamento nel tempo, alla qualità degli inserzionisti (collecandoci al fattore “peso” attribuito ad un link nell’analisi dei criteri basati sui link) e al grado di traffico da questi generato verso il documento a cui fanno riferimento.

Mentre per il “traffico pubblicitario” appare abbastanza chiaro che i dati e le informazioni possano essere recuperati dal circuito pubblicitario AdSense e AdWords, per la rilevazione del traffico e degli schemi di traffico dovrà esistere un modo in cui Google riesca a monitorare le preferenze di un utente: collegandoci alle Analisi delle Ricerche, sappiamo, per esempio, che Google può monitorare il numero delle volte in cui un documento è selezionato in una pagina di risultati della ricerca e/o il tempo che un utente impiega per arrivare a quel documento.

Ma non è tutto. Cito Jill Whalen di HighRankings.com da un suo articolo riportato su masternewmedia.org:

“Potreste chiedervi come fa Google ad ottenere informazioni sul traffico del vostro sito, dato che voi non avete mai fornito questo tipo di informazioni. Ebbene, Google ha alcuni partner che spiano e che sono installati in migliaia di browser, sotto il nome di “Google Toolbar”. Per usare certe funzioni della toolbar, gli utenti devono acconsentire al trasferimento di dati verso Google, dati che includono quali siti sono stati visitati e per quanto tempo.”

Oltre alla Google Toolbar, se pensiamo che funzioni simili di aggregazione di dati possono essere usate anche da applicazioni come MyGoogleSearch,(anche gli altri più grandi motori di ricerca come MSN e Yahoo hanno sviluppato simili applicazioni) o dal traffico proveniente, per esempio, dalla G-Mail o da GoogleTalk, ed utilizzate dal motore per correggere l’ordinamento dei risultati di una ricerca, si potrebbe pensare ad una nuova era per i motori di ricerca: Motori Intelligenti che ordinano i risultati di una ricerca personalizzandoli a seconda dell’utenza e della ricerca effettuata; una nuova era in cui il posizionamento sui motori di ricerca assumerà connotazioni, caratteristiche e modi di sviluppo sostanzialmente diversi, in cui non ci sarà più un posizionamento “assoluto” nei risultati delle ricerche ma ogni documento verrà posizionato in base alle preferenze dell’utente.

In conclusione anche il traffico associato ad un documento può essere un fattore importante da considerare al fine di migliorare il posizionamento tra i risultati delle ricerche.

Il comportamento degli utenti

Il comportamento degli utenti risulta essere un fattore storico utile alla correzione del punteggio del documento per il posizionamento tra i risultati delle ricerche.

Riepilogo correlazioni

Come abbiamo visto nelle analisi delle ricerche e nella traduzione della parte del brevetto di Google riguardante il traffico dei documenti, non solo le ricerche effettuate dagli utenti nel motore di ricerca e le loro scelte nella pagina dei risultati possono essere analizzate ed esaminate dal motore e considerate ai fini del posizionamento del documento, ma anche il traffico verso un documento o un sito web può essere monitorato e valutato per correggere il punteggio che determina il posizionamento sui motori di ricerca.

Introduzione

Il comportamento degli utenti nei confronti di un documento può essere utile a Google per valutare altri parametri, diversi da quelli descritti nei passati articoli, ma sempre relativi alle preferenze e all’atteggiamento dell’utente.

Mentre, con le analisi delle ricerche, Google valuta le preferenze dell’utente nella scelta di un documento piuttosto di un altro tra i risultati forniti per una certa ricerca, con l’analisi del traffico rileva dati storici e ritmi di diminuzione o accrescimento dei volumi di traffico, con l’analisi del comportamento individuale o di massa degli utenti riesce a valutare l’accessibilità del documento e i tempi di permanenza sullo stesso.

Fattori chiave da analizzare

Come possiamo leggere nella traduzione del paragrafo sul comportamento degli utenti nel Brevetto di Google sui Dati Storici, “il motore di ricerca può monitorare il numero delle volte che un documento è selezionato da un insieme di risultati di una ricerca e/o la quantità di tempo che uno o più utenti spendono accedendo al documento” ; con questo tipo di analisi, applicando i criteri visti finora per l’aggiornamento dei contenuti e i fattori relativi alla freschezza o alla “staleness ” di un documento, Google riesce ad effettuare delle valutazioni che riguardano l’accessibilità dei documenti: quanto tempo, cioè, gli utenti spendono accedendo ad un documento.

Con l’analisi di questi dati in un determinato periodo di tempo, Google potrebbe usare l’accessibilità e la permanenza su un documento come fattori di valutazione che gli permettano di attribuire documento un punteggio legato alla “ freschezza ” del documento: cioè, se prima spendevo 30 secondi per accedere ad un documento, ed ora, ogni volta che seleziono lo stesso documento, spendo 5 secondi per accedervi, il motore di ricerca potrebbe interpretare questo mio comportamento e valutare che il documento sia ormai datato, obsoleto, e non contenga più informazioni fresche e utili.

Il recupero e le analisi dei dati storici

Ma come fa Google a recuperare questi tipi di dati?

Abbiamo già visto nella sezione relativa al traffico come Google abbia molti partner associati nello sviluppo di applicazioni di Information Retrieval; ne parla Jill Whalen di HighRankings, ne parlano Danny Sullivan e Chris Shermansu SearchEngineWatch .

Per effettuare certe analisi specifiche sulle attitudini e il comportamento degli utenti, il motore di ricerca, necessita di reperire dati: lo potrebbe fare attraverso la Google Toolbar , Google Desktop, Gmail o anche semplicemente acquistando i dati necessari da circuiti di analisi approfondite circa le tendenze,i comportamenti e le preferenze dell’utente come Alexa.

Per effettuare delle valutazioni di questo tipo che risultino rispondenti alla realtà dei fatti, il motore di ricerca necessita di un’enorme mole di dati: le informazioni che possono essere reperite rappresentano comunque una piccola percentuale rispetto alla totalità, ma possono già essere utili per tracciare dei profili- tipo per diverse utenze e associare, con metodi statistici, il comportamento generale degli utenti a questi profili.