Screaming Frog, lo spider seo per l’analisi dei siti web

googlebot-250Gli Spider Seo sono software che effettuano la scansione di un sito web, in maniera analoga a quanto fanno Googlebot e i crawler dei motori di ricerca.  Questi software, link dopo link, scaricano un intero sito e creano un grafo che mappa tutte le risorse e le informazioni collegate (tipo di documento, dimensioni, http status code etc).

Sono strumenti preziosissimi che consentono di scoprire problemi relativi all’architettura di un sito web. Problemi che, se non gestiti, possono portare a penalizzazioni del sito, cattiva esperienza degli utenti e performance scadenti.

Dopo averne provati diversi,  gratuiti e a pagamento, sono giunto alla conclusione che Screaming Frog (SF) è attualmente nel complesso il migliore prodotto sul mercato.

Screaming Frog in Azione - individuazione 404

Multipiattaforma (gira su Windows, Mac, Linux), è molto veloce ed ha un’interfaccia più intuitiva rispetto alla maggior parte dei concorrenti. Basta infatti inserire l’url e il software inizia la scansione del sito andando a popolare di informazioni le varie schede (tab). Si possono verificare rallentamenti quando si ha a che fare con siti di grandi dimensioni (tipicamente con più di 60.000/70.000 url). In tal caso di possono modificare le impostazioni nel file di configurazione allocando più memoria. In alternativa si può effettuare la scansione del sito frazionandola in diverse parti.

Il tool è a pagamento con licenza annuale da rinnovare al costo di 99£.  Se non attivato, funziona in versione demo e consente la scansione fino ad un massimo di 500 url, con altre limitazioni che lo rendono utile solo per l’analisi di piccoli siti.

Può  effettuare il crawling di:

  • un intero sito
  • una singola pagina (utile se volete vedere per esempio i link in uscita nel caso di pagine molto grandi)
  • una directory (per esempio la scansione del blog impostato come sottocartella del: sito.it/blog).

e può individuare diverse categorie di problemi:

  • status code 404 (risorsa non trovata)
  • status code 301/302 (redirezioni permanenti, temporanee etc)
  • status code 50x  (problemi al server)
  • no response (risorse esterne linkate che non rispondono)
  • tutti i link in uscita da un sito (quale risorse esterne linka il sito ?)
  • tutte le risorse interne al sito (pagine web, immagini, css, javascript esterni, SWF, pdf etc)
  • url che contengono caratteri non ascii, potenzialmente problematiche per  vecchi browser
  • url troppo lunghe, poco leggibili e quindi non “serps friendly”
  • url con parametri dinamici, riscrivibili e potenzialmente indicative di possibili pagine duplicate
  • pagine duplicate (identiche al byte)
  • pagine con title o description duplicate: ogni pagina dovrebbe avere title e description univoci che ne riflettano il contenuto
  • pagine con title e description troppo lunghi o sotto-ottimizzati
  • assenza di h1 ed h2
  • doppi title, description e h1  presenti nell’html della pagina (capita più spesso di quanto si pensi!)
  • immagini linkate dal sito e relativi problemi (immagini di dimensioni eccessive)
  • pagine del sito con direttive quali canonical, noindex, nofollow: sono direttive delicate che influenzano la distribuzione del valore dei link all’interno del sito e l’indicizzazione delle pagine
  • creazione della sitemap e verifica di una esistente
  • assenza di alt tag (o eccessiva lunghezza) nelle immagini
  • individuare situazioni di cloaking modificando lo user agent presentato al web server.
  • etc

SF consente di scegliere quali risorse includere o escludere nella fase crawling (directory, immagini, swf, javascript, css),  rispetto del robots.txt, profondità di ricerca, gestione dei cookie, crawling di pagine protette, rispetto delle direttive (canonical, follow, noindex). Oltre alla scansione di un singolo url alla volta, SF può elaborare un elenco di url con la modalità di lavoro “list“.

Si possono anche effettuare ricerche personalizzate  utilizzando gli appositi campi custom. Per esempio individuare  tutte le pagine che contengono una specifica stringa di testo come codici di tracking (script di Google Analytics per esempio), pulsanti social di condivisione, etc. I principali report sono esportabili in formato csv per l’analisi da foglio di calcolo.

Quindi lato seo può aiutarci a risolvere tanti problemi.

Trovo particolarmente utile poter individuare:

  • tutte le pagine all’interno del sito che linkano una certa pagina  (mi risulta sia l’unico software di questa categoria a farlo)
  • tutte le pagine duplicate

Su questo ultimo aspetto c’è però da dire che SF trova le pagine perfettamente identiche (utilizza un algoritmo di hash). In molte situazioni della vita reale però si trovano situazioni in cui le pagine duplicate differiscono di pochi byte. Agli occhi di Google, sono sempre “contenuto duplicato”, ma non vengono identificate come tali. Sarebbero necessari algoritmi più sofisticati che effettuino lo striping del codice html e confrontino la similarità

Possiamo individuare status code 404, 301 e poterli costi gestire (se l’utilizzo all’interno del sito non è giustificato)

screaming-frog-404-301-500

Da una rapida scanssione possiamo capire rapidamente problemi con il multilingua.  La web agency ha utilizzato le variabili di sessione per la selezione della lingua corrente, mantenendo lo stesso url e  lo spider di Google vede solo la lingua di default.

Screaming Frog è molto utile anche quando si lavora alla risoluzione di penalizzazioni.

Sappiamo che alcune penalizzazioni quali Panda sono riconducibili a problemi con i contenuti e l’architettura di un sito. Possiamo allora individuare pagine con poco contenuto (semplicemente effettuando la scansione ed ordinando per numero di caratteri/parole ) per poi arricchirle o gestirle.

Size e Word Count in Screaming Frog

Possiamo trovare tutti i link in uscita dal sito in analisi, opzione utile quando si ha a che fare con problemi dovuti a link (in ingresso o in uscita dal sito).

Quando si fa attività di link building possiamo effettuare la scansione di un sito a cui vogliamo chiedere un link, per capire se può essere una buona risorsa o meno. Potremmo per esempio scoprire molti link in uscita con anchor text commerciali e capire di avere a che fare con un sito che effettua sistematicamente la compravendita link, quindi potenzialmente pericoloso.

Risulta utile per l’analisi di siti che riteniamo possano essere stati compromessi con l’iniezione di codice malevolo e l’inserimento di link a siti pericolosi (PPC: porn, pills, casinò). Situazione che si verifica frequentemente con installazioni di WordPress non aggiornate e violate, o installando  temi di dubbia provenienza.

In questo caso possiamo cambiare lo user agent impostandolo come “googlebot” per bypassare tentativi di cloaking ed effettuare la scansione per verificare tutti i link in uscita trovati.

Mi è capitato di lavorare su un sito sicuramente penalizzato a causa di link accidentali ricevuti da concorrenti e rivenditori. In questo caso i tool di ricerca backlink quali Majestic Seo e Ahrefs, pur individuando i siti, non riuscivano a trovare tutte le pagine che ospitavano i link accidentali. SF si è allora rivelato un alleato utilissimo per scansionare in maniera massiva tali siti e trovare tutti i link in uscita dannosi diretti al sito in analisi.

Una scansione veloce può far emergere problemi con il file robots.txt.Per quanto possa sembrare strano queste situazioni sono abbastanza frequenti: impostazioni di WordPress con impostazioni di  blocco per i motori di ricerca o web agency che pubblicano un nuovo sito tralasciando di sistemare il file robots.txt impostato a “Disallow /”.

Per concludere Screaming Frog è un po’ il coltellino svizzero della seo, almeno di quella più tecnica. E’ utilissimo per trovare e pulire tutto ciò che non funziona su un sito web.