Semantic web - un web fatto di dati ... non di testi - SEO - Ottimizzazione e posizionamento sui motori di ricerca

Il mese scorso ho avuto due speech sulla link building fatta in un web semantico al Bewizard di Rimini ed al WebUpdate 2015 a Napoli.
Il web Semantico come lo intendo io è un web fatto di dati e non di testo e manipolazioni concettuali, utilizzo di concetti correlati e tant altro.

Per mesi e mesi ho “battagliato” contro la disinformazione riguardo il web semantico finchè non ho deposto le armi perchè mi sono reso conto che per le masse è molto più “ispirational” credere che, con le proprie conoscenze limitate, si possano ottenere grandi risultati manipolando i testi delle pagine web piuttosto che sentirsi dire che c’è da studiare ed anche molto.

In un libro di Cialdini, “Le armi della persuasione”, è spiegato chiaramente che l’essere umano per evolversi ha la necessità di utilizzare concetti preconfezionati per ridurre al minimo la sua necessità di ragionare ed arrivare velocemente al passo successivo. Sfortunatamente quando i preconcetti sono sbagliati si persevera e si commettono sempre gli stessi errori senza mai soffermarsi sullo studiare la causa del problema, quel preconcetto che ti conduce all’errore senza che nemmeno te ne renda conto.

Uno dei preconcetti riguardanti il semantic web è quello che manipolando il testo di una pagina web sia possibile influenzare la base della conoscenza di Google arricchendo un argomento con altri “dettagli” che nessuno ha mai trattato.

Vi spiego per quale motivo questo è totalmente errato:

Un sistema informatico basato sui dati che acquisisce (Google), riterrà vero/valido/attendibile un documento i cui contenuti trovano riscontro in tanti altri documenti dello stesso tipo
Un argomento “latente” inserito in un documento, quando il motore di ricerca va a confrontarlo con “i parametri di settore”, lo vedrà come irrilevante e da filtrare e non porta alcun valore

Immaginate per un attimo di voler creare il nuovo Google, immaginate di voler partire da una singola parola chiave, analizzate tutti i testi di migliaia e migliaia di siti web che parlano dell’argomento e su 10.000 pagine analizzate individuate un subset di argomenti comuni in tutte e 10.000 pagine ma in 1 c’è un argomento non trattato da tutte le altre, cosa fareste lo scartereste o pensereste che 1 su 10.000 è l’unico che abbia il vero valore? Ovviamente io lo scarterei senza pensarci nemmeno, ed a dirla tutta, in un’ottica di individuazione di “argomenti comuni”, quello “extra” non lo noterei nemmeno perchè irrilevante.

A riguardo vi incollo uno stralcio di articolo di Ray Kurzweil, Google’s Director of Engineering

Issue #1: Irrelevant Noise

The algorithm uses a method of identifying facts that examines three factors in order to determine it. It refers to them as “Knowledge Triples”, consisting of a subject, a predicate, and an object. A subject is a “real-world entity” such as people, places or things. A predicate describes an attribute of that entity. According to the research paper, an object is “an entity, a string, a numerical value, or a date.”

Those three attributes together form a fact, known in the research paper as Knowledge Triples and often referred to simply as Triples. An example of a triple is: Barack Obama was born in Honolulu. The problem with this method is that extracting triples from websites results in irrelevant triples, triples that diverge from the topic of the web page. The research study concludes:

“To avoid evaluating KBT on topic irrelevant triples, we need to identify the main topics of a website, and filter triples whose entity or predicate is not relevant to these topics.”

The paper does not describe how difficult it would be to weed out irrelevant triples. So, the difficulty and time frame for addressing this issue remains open to speculation.

Oltre a chiarire il fatto chè gli elementi di disturbo ed irrilevanti saranno rimossi, ci tiene anche a precisare che fatti inutili saranno rimossi del tutto anche se è complicato e ci stanno lavorando.

Issue #2: Trivial Facts

KBT does not adequately filter trivial facts to set them aside and not use them as a scoring signal. The research paper uses the example of a Bollywood site that on nearly every page states that a movie is filmed in the Hindi language. That’s identified as a trivial fact that should not be used for scoring trustworthiness. This lowers the accuracy of the KBT score because a web page can earn an unnaturally high trust score based on trivial facts.

As in the first issue of noise, the researchers describe possible solutions to the problems but are silent as to how difficult those solutions may be to create. The important fact is that this second issue must be solved before KBT can be applied to the Internet, pushing back the date of implementation even further.

Bene dopo questa premessa, fintroppo lunga 🙂 arriviamo al dunque e vi dico cosa penso del semantic web e di come fare anche link building in questo nuovo scenario fatto di dati.

Perchè il semantic web

Uno dei motivi principali è quello legato alla crescita del web, ogni giorno vengono prodotti milioni di pagine web che Google deve “leggere”, intrpretare, catalogare, pesare, indicizzare e posizionare quasi in tempo reale.
Immaginate Google come una enorme libreria piena zeppa di libri e pagine di cui ricordare ogni singola frase, parola, risposta, qualcosa come la foto sottostante.

Ed il bello è che questi libri che Google ha messo in libreria, cambiano il loro contenuto continuamente e quindi è costretto a rileggerli ogni santo giorno, una vera follia non credete?

Oltretutto, ogni libro, potrebbe essere presente in tutte le lingue del mondo, dice le stessissime cose senza alcun valore aggiunto, solo che lo dice in lingua diversa, vale la pena di salvarlo in archivio nuovamente ed occupare tutto quello spazio?

La soluzione semantica

Va bene leggere i libri tutti i giorni ma più rapidamente
Estraggo solo le informazioni che mi interessano da ogni pagina (Entity, Fatti, Relazioni) in parole povere “il significato”da un punto di vista informatico e di dati
Salvo le informazioni in un formato che occupi meno spazio
Organizzo le informazioni in modo da poterle interrogare in tempo reale
Oragnizzo le informaizoni in modo da tenere traccia delle relazioni con altre informazioni

Con questo metodo, un librone di 1000 pagine che prima occupava (ipoteticamente) un megabyte e tante risorse macchina per interrogarlo, oggi occupa 64kb di dati interrogabili con il minimo sforzo in termini di CPU e con tempi di risposta immediati. Oltretutto è molto più facile confrontarlo con altri dati dello stesso tipo in quanto perfettamente identificabili tramite Entity comuni e knowledge triples comuni.

Come google identifica le entità nelle pagine web

Google identifica le entità che conosce, il contesto in cui le stiamo usando, e le azioni che le riguardano e lo fa attraverso l’estrazione ed identificazione delle entity nel testo delle pagine web grazie all’utilizzo di software che Google chiama “Extractors” perchè in grado di estrarre i dati semantici che servono a costruire il web semantico dalle pagine web.

Un Extractor quando analizza una pagina web si può trovare dinanzi a due scenari diversi:

La vecchia pagina web “non semantic web ready”, quindi testo ed immagini
Una pagina web con tag di schema.org, html5 ed implementazioni di rich snippets

Quando un extractor incontra una pagina web vecchio stile non sarà in grado di fornire una precisione del 100% ed utilizzerà una estrazione implicita

Quando invece un extractor incontra pagine con dati semantici ben organizzati ed esposti applicherà una estrazione esplicita molto più precisa.

Una volta estratte le entità, Google prova a capire per quale motivo le stiamo utilizzando nella nostra pagina web per capire cosa vogliamo esprimere. Quali azioni sono associate all’entità di cui parliamo? Quali relazioni abbiamo evidenziato?

Analizzando le pagine web Google prova a costruire quindi le ontology, triple Soggetto->Predicato->Oggetto che gli permettano di sapere chi ha fatto cosa a chi o con chi.

L’apetto più importante della semantica a mio avviso

Grazie alla semantica, Google può definire entità univocamente a livello globale, quindi una entità NON HA LINGUA è la stessa in tutto il pianeta e viene salvata nei database una volta sola, il suo nome non rappresenterà una nuova entità ma solo una proprietà dell’entità esistente, ecco perchè ritengo estremamente irrilevante la manipolazione testuale delle pagine web.

Di seguito vi incollo alcune slide che ho fatto per un mio corso di qualche anno fa dove provo a far capire cosa sia un’entità per Google e per quale motivo sia così importante e conveniente per lui estrarle e catalogarle per creare il web semantico.

Google essendo in grado di individuare entità e capire in che relazione siano con tante altre entità e fatti ha quindi anche la possibilità di identificare Brand, Aziende, Prodotti, Persone, Luoghi, Fatti e tant’altro.

Essendo in grado di identificare Aziende ed anche Persone ha anche il modo per capire quanto si debba fidare di tali entità quando le identifica come “publishers”!

La chiave per il successo di un sito web è esattamente quella della fiducia, ossia far fidare ciecamente Google di noi e dei nostri contenuti.

Campagne di Trust Building o link building semantica

Da un paio d’anni in SEO Cube facciamo link building in un modo molto singolare, parlando con tanti colleghi ho avuto conferma di essere l’unico a lavorare in questo modo, non sto dicendo che sia il modo ideale o il migliore ma sicuramente è un modo sicuro, pulito, non spammoso e con risultati che durano nel tempo, un metodo che ci ha fatto portare ai primi posti migliaia di parole chiave per clienti di settori super competitivi.

Al BeWizard di Rimini ed anche al WebUpdate ho parlato di questo nostro metodo di Trust Building basato sulla semantica ed ho provato a tirar fuori una metodologia concreta che vi permetta di analizzare, pianificare, agire e mettere in piedi una campagna di link building semantica

Potete scaricare le slide cliccando qui : Link Building Semantica

Volevo pubblicare anche il video del mio intervento al BeWizard ma lo stanno ancora preparando e potrò pubblicarlo solo dopo la loro pubblicazione ufficiale, se riesco vi pubblico qualche spezzone preso con l’Iphone dal mio socio 🙂

stylewebdesign

Bellissimo articolo!
- Ivano Di Biasi
  
  Grazie mille 🙂
Carmine

Ottimo articolo!Da molto che non leggevo cose nuove interessanti
- Ivano Di Biasi
  
  Grazie Carmine 🙂
Eugenio Tommasi

Articolo e (soprattutto) slide molto interessanti, complimenti 🙂 un ottimo approccio all’ offsite e alla seo in generale.. piccola considerazione: forse anche l’engagement può essere “spinto manualmente”? grazie per le considerazioni e condivisioni! 🙂
- Ivano Di Biasi
  
  Eugenio, sicuramente ma non è proprio il mio settore 🙂 sto studiando molto anche in quella direzione perchè mi interessa molto. Per aumentare l’engagement devi essere “engaged” tu prima di tutto ed io non ho proprio il tempo 🙂
Giovanni Le Coche

Caro Ivano,
questo articolo è davvero interessante e trovo il concetto delle entità che hai esplicitato che può legarsi a quello delle ontologie.
Noto infatti che c’è molta conestualizzazione da parte del motore sul concettualizzare un dominio d’interesse.
Non lo vedo come unico metodo, ma il pensiero è che questi saranno nuovi scenari per la seo.
- Ivano Di Biasi
  
  Giovanni si lavora tanto per capire questo maledetto Google come funzioni 🙂 lui cambia, ci adattiamo 🙂 vedremo
attilio

Veramente un articolo molto interessante. Ivano di Biasi, mi stupisci sempre di più.
Valerio Novelli

Un interessante e preciso articolo dell’amico SEO Ivano, grazie per questo articolo che contribuisce, imho, a fare chiarezza su un argomento molto discusso negli ultimi mesi! 😉
Niki Rocco

Bell’articolo e slide davvero interessanti… peccato essersi perso la loro presentazione. 🙁
Avrei un dubbio riguardo la tecnica con cui ricerchi le menzioni su Google… come ti comporti quando il brand rappresenta un cognome (es. Rossi Srl) o un nome “comune” (es. Erba Verde Srl) e non è quindi “univoco” come può essere un Privalia o un Expedia?
Esperto SEO

Sono d’accordo con te su tutto, finchè non mi introduci il discorso del greco. E chi ti dice che il mio termine “latente” non sia una nuova lingua. Un neo/sillogismo di cui Google non possa fare a meno per arricchire la sua entità. Sarebbe a quel punto una variabile da poter scartare? Soprattutto se sono stato così bravo a creare un ambiente che giustifica tale nuovo temine, correlandolo con l’entità presa in questione? In termini matematici possiamo arrivare all’infinito. Dipende da quanto siamo folli/abili da creare strutture che abbiano criteri logici e scalabili al fine di introdurre cose apparentemente senza senso nello stesso contesto. Al tempo stesso creare cose che ci distinguono da chi ad oggi segue parametri e valori dettati al contrario. Forse non sono stato chiarissimo, ma riducendo tutto in poche parole intendo “Input di nuove informazioni distinte, correlate all’entità”. In matematica troverebbe senso anche questo : “sbvavbhurvbaljbhl” (battere a caso le mani sulla tastiera) se supportato da una struttura logica ( anche semplicemente un sito ), che lo introduca come parametro aggiuntivo di completamento di un’entità. A quel punto potrei riutilizzare lo stesso termine più volte per spiegarla. La differenza sostanziale starebbe nel fatto che quel termine l’ho creato io e quindi Google non potrà fare a meno di darmene la paternità. In questo caso cosa accadrebbe? Ne trarrei un vantaggio?
- Ivano Di Biasi
  
  Concordo con quello che dici ma c’è da precisare alcune cose:
  
  1) Le entità non le creiamo noi col testo ma sono preselezionate da Google sfruttando archivi preesistenti e la cui manutenzione viene fatta da community di persone appassionate.
  
  2) La nostra influenza su quello che è il significato di un’entità può avvenire solo all’interno di tali database utilizzati da Google, quindi mettendo le mani nella sua Knowledge Base.
  
  3) Le attività che svolgliamo noi scrivendo articoli e/o utilizzando schema.org è semplicemente referenziale, ossia facciamo sapere a Google che stiamo utilizzando delle entità che lui conosce già.
  
  4) Abbiamo però anche la libertà di scrivere quello che ci pare nei campi dei record vari di schema.org e quindi “proporre” qualcosa di nuovo o sconosciuto a Google.
  
  Il punto è questo, se lo proponi solo tu e finisce li, allora è come le tante cose inutili che nascono e muoiono senza che nessuno se ne accorga nemmeno, rimani una voce nella folla e non ti sente nessuno.
  Ma se invece, la tua entità nuova riscuote successo, iniziano a moltiplicarsi le sue istanze su altre pagine di siti web a tema, autorevoli e credibili per Google, ecco che potrebbe avverarsi qualcosa di interessante, ossia che l’entità nuova non sarà poi più così nuova ma “famosa” e magari potrebbe guadagnarsi la considerazione di Google.
  Ovviamente in tal caso, come dici tu, la tua Branded Entity (associata anche al sito web che ha generato la nuova entità) sarà utilizzata per creare un’ontologia del tipo “Branded Entity->ha creato->Nuova Entità”.
  
  Alla fine, come in ogni cosa, se diventa “famosa” allora funziona, se muore li nella tua pagina web, è solo rumore.
  - Esperto SEO
    
    Ok, mi fa piacere appurare che in termini matematici mi passi che l’ipotesi potrebbe essere corretta
Carmelo Raccioppi

Ivano un articolo da incorniciare… concetti complessi spiegati in modo semplice!
Ivano avendo letto i tuoi ultimi 10 articoli (con attenzione) non trovo in nessuno di questi riferimenti al posizionamento immagini e altri canali di ricerca (mappe, video, apps) e risultati locali (local search) del map-pack-listing e quindi keywords localizzate.
Non sono forse canali di traffico questi (?) e inoltre non trovo riferimenti agli annunci sponsorizzati (Adwords) o non sono risultati di ricerca anche questi (?)
In breve, tutte queste belle cose sulla semantica, entity e dati strutturati non vengono anche applicati a tutti gli altri risultati di ricerca, secondo te (?) io dico SI.
Carmelo Raccioppi

Infine (scusa il doppio post) questi Tools che stai creando (SeoZoom) come mai non prendono in considerazione le immagini (?) perchè ultimamente ho lavorato lato SEO sui dei blog dove il 70% del traffico è generato dalle immagini e su qualche Ecommerce dove l’articolo più venduto è quello posizionato come immagine! Trovi difficile monitorare questo tipo di traffico (suppongo) ma sempre di keywords si tratta alla fine.
- Ivano Di Biasi
  
  Ciao Carmelo,
  Certo che prendo in considerazione le immagini, mappe, hotel, flights,shopping e tutto quello che è serp.
  Per ora non li visualizziamo ma ho 2 anni di dati salvati, stiamo lavorando al frontend:)
  - Carmelo Raccioppi
    
    No perchè la maggiorparte crede che il traffico arriva solo dalla normale ricerca web su Google… io ultimamente sono molto concentrato sulle immagini (il problema è creare un report)
DomenicoPuzone

La cosa che mi fa più rabbia è che nel nostro settore ci sono persone che sono “ingannate” da teorie fantascientifiche che non potrebbero essere applicate nemmeno nei film.

In poche parole ha chiarito quello che nei libri è interpretato male. Questo articolo lo salvo nei preferiti, per darlo in pasto agli “eretici” che professano male.

Grande Ivano
Marco Pini

Ottimo post, utile per fare chiarezza su un argomento molto dibattuto 🙂
Filippo J

Caspita, è passato tanto da quando hai scritto questo articolo ma l’ho scoperto solo ora. Innanzitutto molto interessante. Anche le slide allegate alla fine meritano. Vorrei sapere, Ivano, se hai dei suggerimenti particolari per estrapolare le triplette da utilizzare nei nostri articoli.

Issue #1: Irrelevant Noise

Issue #2: Trivial Facts

Perchè il semantic web

La soluzione semantica

Come google identifica le entità nelle pagine web

L’apetto più importante della semantica a mio avviso

Campagne di Trust Building o link building semantica

Libro SEO sulla Link Building

Report Penguin 4.0 – Una settimana dopo

Semantica, Google vuole solo entity rilevanti

Tecnica sicura di Link Building al BeWizard 2015

SEO e User Experience l’arma vincente del 2015

Categorie

Semantic web – un web fatto di dati … non di testi