Brevetti Google: PhraseRank, information retrieval basato sulle frasi

Di recente apprendo che lo scorso 28 dicembre 2006 è stato reso noto l’ultimo brevetto di casa Google.
Rispetto ai precedenti brevetti è stato minore l’interesse dimostrato dagli addetti ai lavori per Phrase-based searching in an information retrieval system subito rinominato PhraseRank (o Phrase Rank).
Il brevetto si presenta con 16 pagine (in inglese) che appena visualizzate fanno venir voglia di chiudere la sessione del browser, nelle righe iniziali, il phraserank, è descritto come in sistema di information retrieval che utilizza frasi per indicizzare, organizzare e cercare documenti.

Un sistema di information retrieval si basa sull’esistenza di un insieme di elementi possibili oggetto di ricerche di cui verificare la presenza in un secondo insieme di elementi di diverso tipo.
Rapportando il concetto di information retrieval a quello che è oggi il probabile impiego negli attuali motori di ricerca il primo insieme è rappresentato un insieme di termini mentre il secondo da un insieme di documenti. In fase di valutazione di un documento, il motore di ricerca crea un terzo insieme composto da relazioni di esistenza tra i primi due (posting list) dove per ogni termine A viene indicata la frequenza nel documento B.
Quella che oggi potrebbe essere l’innovazione introdotta dal brevetto di Google sul PhraseRank è la trasformazione dell’insieme dei termini in insieme di frasi (frase = uno o più termini).
Il recente brevetto di Google ha come obiettivo quello di individuare in un documento un insieme di frasi e frasi correlate/estese su cui basare il ranking nelle serp.

L’analisi dei claims presenti nel brevetto ci permette di capire meglio il concetto di information retrieval rapportato all’utilizzo delle frasi come base di partenza per l’analisi dei documenti.

1. A method of selecting documents in a document collection in response to a query, the method comprising: receiving a query; identifying a plurality of phrases in the query, wherein at least one phrase is a multiple word phrase; identifying a phrase extension of at least one of the identified phrases; and selecting documents from the document collection containing at one phrase from a set including phrases in the query and the phrase extension.

Considerando una query (cane di razza pastore tedesco) è richiesta l’individuazione di almeno una frase composta da più termini (cane di razza) e delle relative estensioni (cane di razza pastore, cane di razza pastore tedesco) e l’individuazione nell’insieme dei documenti di quelli che contengono almeno una frase dell’insieme (cane di razza, cane di razza pastore, cane di razza pastore tedesco).

3. A method of selecting documents in a document collection in response to a query, the method comprising: receiving a query; identifying an incomplete phrase in the query; replacing the incomplete phrase with a phrase extension; and selecting documents from the document collection containing the phrase extension.

4. The method of claim 3, wherein identifying an incomplete phrase and replacing the incomplete phrase comprise: identifying a candidate phrase in the query; matching the candidate phrase to an incomplete phrase in a list of incomplete phrases; and replacing the candidate phrase with a phrase extension associated with the incomplete phrase.

Tra i metodi di ricerca è prevista l’esistenza di frasi incomplete (cane) da sostituire in fase di elaborazione della query con frasi che la estendono (cane da caccia, cane da tartufo, cane pastore tedesco) da utilizzare per l’estrazione dei documenti le cui posting list comprendono le frasi estese.

6. A method of selecting documents in a document collection in response to a query, the method comprising: receiving a query including a finformation retrievalst phrase and second phrase; retrieving a posting list of documents containing the finformation retrievalst phrase; for each document in the posting list: accessing a list indicating related phrases of the finformation retrievalst phrase that are present in the document; and responsive to the list of related phrase indicating that the second phrase is present in a document, selecting the document to include in a result to the query, without retrieving a posting list of documents containing the second phrase.

7. The method of claim 6, further comprising: responsive to the list of related phrases indicating that the second phrase is not present in a document, excluding the document from the result to the query, without retrieving a posting list of documents containing the second phrase.

In questi claims viene spiegato come in presenza di più frasi nella query è solo la prima ad essere presa in considerazione per l’estrazione dei documenti se nella loro posting list è presente questa, successivamente vengono scartati tutti i documenti dove non è compresa la seconda frase.

Nei claims da 10 a 13 vengono introdotti i sistemi di ordinamento, tali sistemi si basano sull’attribuzione di un valore ad ogni frase e frase correlata presente in un documento, la somma di questi valori determinerà in ranking finale.

Continuando a leggere il brevetto del PhraseRank attirano l’ attenzione alcuni dettagli del funzionamento dell’algoritmo:

1. L’identificazione delle frasi tende a distinguere frasi cattive da frasi buone all’indicizzazione del documento, quest’ultime si ipotizza siano presenti un certo numero di volte ed evidenziate da tag, formattazione o altri indicatori grammaticali. Le frasi buone, inoltre, predicono la presenza di alre frasi buone. Ovviamente saranno le stesse frasi presenti in posting list a determinare l’argomento del documento.
2. Individuazione dei documenti duplicati, sarà basata sul confronto della frequenza di frasi e frasi correlate tra documenti, se l’informazione coincide con quella di altri documenti indicizzati probabilmente (within a tolerance) si tratta di duplicati e si procederà alla rimozione dall’indice di uno di questi.