Come funziona il crawler di Facebook?
Il contenuto delle pagine web viene spesso condiviso su Facebook. La prima volta che qualcuno condivide un collegamento url, il crawler di Facebook estrae l'HTML di quella URL per raccogliere, memorizzare nella cache e visualizzare informazioni sul contenuto stesso della pagina come ad esempio titolo, descrizione e immagine di anteprima.
Oltre alla condivisione diretta della pagina web su Facebook, ci sono altri modi che possono attivare una scansione della tua pagina. Ad esempio, avere uno qualsiasi dei plug-in social di Facebook installato sul tuo sito può far sì che il crawler di Facebook raccolga in autonomia informazioni sul contenuto stesso della pagina.
Il crawler di Facebook deve poter accedere ai tuoi contenuti per poterli elaborare e condividerli correttamente. Le tue pagine dovrebbero essere visibili e accessibili al crawler. Se richiedi l'accesso o limiti in altro modo l'accesso ai tuoi contenuti, dovrai inserire nella whitelist il crawler di Facebook.
Tieni presente che il crawler di Facebook accetta solo codifiche gzip e deflate, quindi assicurati che il tuo server utilizzi la codifica corretta.
Il tuo sito web dovrebbe generare e restituire una risposta con tutte le proprietà richieste in base ai byte specificati dalla richiesta del crawler.
Tieni presente che il crawler di Facebook esaminerà la tua pagina ogni 30 giorni e scansionerà solo 1 MB del contenuto della pagina, quindi tutte le proprietà ed i meta tag Open Graph devono essere indicati prima del limite di 1 MB, generalmente nella sezione <head> della tua pagina.
Il crawler di Facebook può essere identificato da una di queste stringhe user agent:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
//or//
facebookexternalhit/1.1
//or//
Facebot