Le informazioni che circolano su Internet sono divenute incontrollabili è può diventare difficile reperire quello che interessa magari nascosto in un piccolo sito internet male indicizzato. Nasce in questo contesto il Web semantico, vediamo di che si tratta.
Web Semantico
Siamo giunti a uno stadio in cui le informazioni che circolano sulla rete sono divenute incontrollabili e anche difficilmente categorizzabili. I motori di ricerca ci aiutano nel reperire le informazioni, ma spesso questo non basta. Magari quello che cerchiamo è nascosto all’interno di un sito poco indicizzato ed è proprio lì che risiede il vero valore.
In questo contesto nasce il Web Semantico (Semantic Web), un’architettura universale atta allo scambio di informazione e conoscenza. Il Semantic Web dovrà integrare e sostituire il web normale per esprimere concetti e informazioni in maniera comprensibile alle applicazioni. In poche parole, con Web Semantico si intende la trasformazione di Internet in un ambiente dove è possibile fornire informazioni e dati in un formato adatto all’interrogazione, interpretazione e, più in generale, all’elaborazione automatica. Tra le varie tecnologie adottate per giungere a tale scopo troviamo:
- XML (eXtensible Markup Language), un meta-linguaggio che fornisce un insieme standard di regole sintattiche per modellare la struttura di documenti e dati (utilizzato per esempio per le Sitemap e i Feed RSS);
- URI (Uniform Resource Idenfifier), serve a identificare in modo univoco una risorsa;
- OWL per identificare espressioni di relazioni tra le proprietà in ontologie;
- DAML+OIL, linguaggio di ontologia orientato agli oggetti (Object Oriented);
- Web Service, un insieme di servizi atti a supportare l’interoperabilità tra diversi dispositivi.
All’interno del Web Semantico si collocano anche i Microformati, che non sono altro che una parte di mark up presente in una pagina web, con un intrinseco valore semantico. L’uso di standard largamente adottati come l’(X)HTML li rende modulari e semplici da utilizzare.
Tra i principali microformati utilizzati troviamo:
- hCard è un formato utilizzato per creare strutture dati inerenti a persone, aziende, organizzazioni e luoghi;
- hCalendar serve a standardizzare e identificare eventi o date;
- hReview è specifico per la recensione di prodotti o servizi;
- hProduct per la descrizione di prodotti od oggetti.
Per scoprire tutti i microformati presenti, consigliamo di visitare il sit Microformats.org, a tale indirizzo sono presenti utili tool per creare automaticamente strutture dati che utilizzano i microformati.
Vediamo un esempio pratico di utilizzo; per prima cosa prendiamo in considerazione una porzione di codice html:
<div> <div >Marco Maltraversi</div> <div >Ingegneridelweb.com</div> <div >333</div> </div>
Sotto mostriamo l’inserimento dei microformati con l’utilizzo dell’hCard.
<div id="hcard-Marco-Maltraversi " class="vcard"> <div class="fn">Marco Maltraversi</div> <div class="org">Ingegneridelweb.com</div> <div class="tel">333</div> </div>
Possiamo notare come sia semplice utilizzare i microformati: essi forniscono informazioni aggiuntive sulla corretta interpretazione dei dati senza modificarne il layout grafico. Ma tutto questo come interagisce con il SEO?
I motori di ricerca si stanno sempre di più evolvendo verso un’ottica semantica, per questo motivo dobbiamo essere preparati a tali cambiamenti. Inoltre, recentemente, Google ha annunciato la possibilità di utilizzare proprio informazioni semantiche per la creazione di Rich snippet, affermando: “Grazie ai Rich snippet, i webmaster che hanno siti contenenti dati strutturati (per esempio siti di recensioni o con schede di attività commerciali) possono assegnare un’etichetta ai propri contenuti per chiarire che ogni porzione di testo con etichetta rappresenta un determinato tipo d dati: per esempio, il nome di un ristorante, un indirizzo o un voto”.
Quindi, attraverso l’utilizzo di microdati, microformati o RDF, è possibile cercare di arricchire lo snippet nella SERP di Google, com’è mostrato in figura 2.
Attualmente, Google supporta tre linguaggi di marcatura per i dati strutturati: i microformati, RDFa del W3C e lo standard microdata dell’HTML 5. Nonostante l’approvazione del W3C, RDFa risulta decisamente più articolato da padroneggiare e gestire in confronto ai microformati e, teoricamente, questo ne ostacola la sua diffusione. Ciò non significa che non valga la pena utilizzarlo, poiché ci sono vantaggi potenziali, come l’utilizzo di un minor numero di codici di marcatura, che implica pagine di più piccole dimensioni. Anche lo standard microdata dell’HTML 5 sembra molto promettente, ma allo stato attuale è ancora in fase “beta”.
Nota
Secondo Google i microdati utilizzano semplici attributi nei tag HTML per assegnare nomi brevi e descrittivi a elementi e proprietà. RDFa è un modo per associare etichette ai contenuti al fine di descrivere uno specifico tipo di informazioni.
Ora che abbiamo compreso l’utilità di questi strumenti, analizziamoli in modo più approfondito attraverso esempi pratici. Utilizziamo i microformati (essendo essi i più utilizzati e semplici da implementare) per descrivere la nostra organizzazione.
Le proprietà utilizzate sono:
- fn org: nome dell’organizzazione;
- url: link del sito web;
- adr: l’indirizzo del tuo business; esso contiene le sottoproprietà: street address, locality, region, postal-code e country-name;
- tel: numero di telefono;
- geo: specifica le coordinate geografiche.
È utile creare tale struttura nella pagina di contatti dell’attività: analogamente possiamo sfruttare i microformati per creare schede informative riferite a persone o enti. Si può proporre l’utilizzo dei microformati, implementandoli all’interno di una scheda prodotto, com’è illustrato nella figura 4.
Le proprietà utilizzate nel nostro esempio sono state:
- brand, per indicare il brand del prodotto;
- category, per indicare la categoria merceologica;
- description, per indicare la descrizione del prodotto;
- fn, per indicare il nome del prodotto;
- price, per indicare il prezzo del prodotto;
- photo URL della foto del prodotto;
- url, per indicare l’URL della pagina di descrizione del prodotto.
Abbiamo quindi potuto apprezzare e osservare la facilità di utilizzo di queste strutture di dati che si integrano appieno con il nostro codice HTML. Per vedere e apprendere ulteriori esempi vi consigliamo di visionare i seguenti articoli:
- Rich snippets – Products;
- Rich snippets – Reviews;
- Rich snippets – People;
- Rich snippets – Organizations.
Dopo aver creato le pagine contenenti i microformati, non ci resta altro che:
- validare il nostro codice di markup che utilizza i microformati;
- segnalare a Google il nostro sito web.
Nota
È molto importante seguire l’evoluzione tecnologica che accompagna la crescita del web moderno, in quanto i vari motori di ricerca si spingeranno sempre di più verso questi scenari per migliorarsi. Abbiamo già accennato come Google utilizzi già i microformati: anche Bing e Yahoo! hanno annunciato di utilizzarli. Ciò fa comprendere l’importanza dell’utilizzo dei microformati all’interno delle nostre pagine web. A sostegno di questa tesi, troviamo la notizia dell’acquisto di Metaweb (società specializzata nella catalogazione e archiviazione delle ricerche sulle pagine web e il loro significato) da parte di Google.
LSI: Latent Semantic Indexing
Il Latent Semantic Indexing (LSI) è un particolare metodo di classificazione dei documenti. Permette, attraverso complessi algoritmi matematici, di individuare i termini e le frasi presenti all’interno di un documento e scoprirne le similarità. In questo modo è possibile fornire documenti che possono essere rilevanti per una determinata ricerca, anche se non contengono esattamente gli stessi termini.
L’indicizzazione semantica latente aggiunge quindi un passo importante al processo di indicizzazione dei documenti.
In ambito SEO vi sono diverse discussioni in merito, soprattutto sull’utilizzo da parte dei motori di ricerca di questa tecnica. Infatti, alcuni motori di ricerca potrebbero utilizzare LSI o tecniche analoghe per confrontare siti web con argomenti affini, in modo da fornire risultati maggiormente coerenti agli utenti. In parole povere, LSI applicato ai motori di ricerca non è altro che la loro abilità di conferire un senso al contenuto di una pagina web, non analizzando semplicemente la densità delle keyword utilizzate, ma scoprendo associazioni tra keyword e keyphrase presenti nel contesto di quella particolare pagina.
In riferimento al SEO, cosa possiamo fare per sfruttare un eventuale approccio LSI da parte dei motori di ricerca? Dobbiamo precisare che non esiste nessun brevetto a oggi che parla dell’adozione di LSI da parte di Google. I motori di ricerca potrebbero usare tecniche simili, ma non è detto che sfruttino appieno l’algoritmo LSI. Per verificare ciò, possiamo effettuare un piccolo test. Il caso più semplice dovrebbe essere quello di verificare i risultati di ricerca utilizzando termini singolari e plurali: LSI gestisce in modo identico le due tipologie di frasi, quindi i risultati della ricerca dovrebbero essere identici in entrambe le casistiche.
Nota
Nel caso fossimo collegati con il nostro account Google, dobbiamo effettuare il log out (disconessione) per effettuare tale test.
Proviamo a digitare “vino” e “vini”: Google produce risultati differenti. Proseguiamo con “auto” e “automobile” o “macchina”: anche in questo caso i risultati proposti si discostano in misura notevole. Come ultimo test proviamo a impiegare diversi tempi verbali di una parola. Se fosse ampiamente utilizzato LSI, i risultati di ricerca forniti dovrebbero essere molto simili. Proviamo con “vincerò” “vinto”. Anche in questo caso i risultati divergono. Questo semplice test, a nostro parere, serve a comprendere come, se anche i motori di ricerca usassero LSI, questo non sembrerebbe influire in maniera così radicale nel posizionamento all’interno della SERP. Inoltre, sembrerebbe che LSI, con numerosi carichi e mole di dati, non risponda perfettamente: allora vorrebbe dire che Google potrebbe usare tecnologie migliori. Come sappiamo, nel SEO non esistono certezze matematiche, quindi ogni considerazione va presa con cautela. A ogni modo, possiamo attuare piccole modifiche in ambito SEO per cercare di approcciarci a LSI o a metodologie simili (Google Suggest). I nostri consigli sono:
- utilizzare sinonimi nell’Anchor text: non avrebbe senso creare link che, per esempio, utilizzino sempre e solamente la parola “seo”; risulterebbe interessante variarli con termini semanticamente simili, come Search Engine Marketing, posizionamento nei motori di ricerca, motore di ricerca, ranking dei motori di ricerca;
- prendere in considerazione tutte le varianti di parole chiave suggerite da vari strumenti per la generazione di keyword;
- adoperare la “tilde”, per esempio “~seo”, per ricercare le pagine che hanno correlazioni con la parola ricercata;
- nel corpo del documento utilizzare anche sinonimi e plurali per cercare di indicizzare più keyword.
Questi sono semplici consigli, che, se ben amalgamati con quanto visto, potranno condurre a ottimi risultati in termini di posizionamento e visibilità. Ovviamente, dobbiamo precisare che con il tempo i motori di ricerca miglioreranno i loro algoritmi, perciò è sempre buona norma rimanere aggiornati sull’uscita di nuove tecnologie o sulla pubblicazione di nuovi brevetti. Vi suggeriamo di seguire questo blog, che propone in anteprima gli ultimi brevetti rilasciati dai principali motori di ricerca.
LDA: Latent Dirichlet Allocation
Abbiamo appena illustrato LSI, quello che viene definito da molti SEO “un mito”; ora ci concentreremo su un argomento nuovo e molto interessante: LDA. LDA significa Latent Dirichlet Allocation e consente di scomporre i documenti e le pagine web in più cluster, suddividendoli attraverso opportuni filtri bayesiani per keyword o argomenti simili. L’applicazione di questo modello è la caratterizzazione di documenti in modo completamente automatico, senza bisogno di indicare il valore semantico delle parole presenti nei testi. Dobbiamo precisare come LDA non sia una nuova scoperta: le sue prime applicazioni, infatti, risalgono al 2002 ed è un diretto discendente di altri modelli, come LSI. La differenza introdotta da LDA consta nel fatto che per l’indicizzazione dei documenti o delle pagine web non vengono presi in considerazione solamente i fattori classici come il keyword stuffing, la densità delle parole chiave o qualche vecchia tecnica SEO convenzionale a proposito della concentrazione di una parola chiave all’interno di una pagina. Si tratta, invece, di dover riconoscere argomenti diversi che hanno un vocabolario specifico. Applicato ai motori di ricerca, ciò vorrebbe dire insegnare a essi come “Maldini, Baresi e Nesta” facciano parte di un raggruppamento specifico “difensori del Milan”. Ma anche questa spiegazione è davvero riduttiva, raffrontata alle possibilità di applicazione di LDA. Si presuppone che alcuni motori di ricerca implementino LDA per le loro classificazioni, come Bing e Google, ma ovviamente non vi sono certezze in merito. Desideriamo tuttavia segnalarvi questi due documenti interessanti:
A tal riguardo, vi indichiamo l’utilizzo di uno strumento (di cui non è nota l’attendibilità) proposto da SEOmoz (un sito che raccoglie molti spunti SEO interessanti), per individuare la rilevanza delle parole presenti all’interno di una pagina web, sfruttando le tecniche di LDA. Il tool è fruibile su questo sito.
Non dobbiamo fare altro che impostare l’indirizzo web della pagina e la keyword che vogliamo analizzare. Si otterrà un punteggio in percentuale da intendersi come indicatore di pertinenza del contenuto di questa pagina secondo LDA. Nell’esempio in figura 5 possiamo notare come la keyword “web agency Parma” per il sito: http://www.ingegneridelweb.com abbia una rilevanza dell’89%.
Tale strumento può rivelarsi adatto per decidere se LDA può realmente influire nell’ottimizzazione SEO on page e quindi suggerirci quali sono le contromisure da adottare. Per esempio:
- questo strumento può venire in aiuto per individuare le keyword più rilevanti per una ricerca;
- ci permette di individuare la “bontà” di una determinata parola chiave;
- modificando il contenuto della pagina, possiamo scoprire come variano i risultati proposti e agire di conseguenza.
L’argomento trattato è nuovo e di attualità, per questo crediamo che provare a effettuare modifiche ad alcune pagine per testarle con questo strumento potrebbe risultare interessante, soprattutto con l’introduzione, da parte di Google, di strumenti che ci suggeriscono in automatico le parole da cercare mentre le digitiamo nel browser (Google Instant). Testare e provare è sempre una buona strategia SEO, ma bisogna anche prendere con le pinze le nuove scoperte e approfondirle adeguatamente. LDA non è una nuova ricetta magica (è presente sul mercato da quasi dieci anni), infatti l’importanza dei link, la validità dei contenuti e il link building rimangono invariati per ottenere un corretto posizionamento, ma l’evoluzione degli algoritmi utilizzati dai motori di ricerca potrebbe aprire nuove e interessanti strade applicabili anche in ambito SEO.
Nota
Vogliamo segnalarvi due articoli in merito a LDA in cui potete trovare opinioni e pareri contrastanti:
in questo articolo e in questo articolo.