Technorati: la blogosfera raddoppia ogni 6 mesi!

Secondo l’autorevole Technorati il numero di blog mondiale starebbe raddoppiando ogni 6 mesi.

Technorati infatti correntemente traccerebbe oltre 75,000 nuovi blog al giorno, dato che significa un nuovo blog creato ogni secondo.
Ben 19.4 milioni di “bloggers” (55%) continuerebbero a postare 3 mesi dopo aver creato il proprio blog. Un ulteriore incremento in termini assoluti e relativi rispetto ad inizio 2006, quando solo il 50.5% di 13.7 milioni di blog allora censiti erano attivi. In altre parole nonostante un considerevole numero di blog che “chiudono” o vengono lasciati morire o comunque non aggiornati, il fenomeno del “blogging” continua a crescere regolarmente e ad assumere sempre maggiore spessore.
Sempre secondo Technorati, almeno 4 milioni di bloggers aggiornerebbero almeno settimanalmente il loro blog.

Come migliorare la comprensione della lingua inglese online

Il British Council ha recentemente diffuso i risultati di uno studio secondo il quale la lingua inglese fino al 2050/2055 saràla lingua più importante del pianeta, e quindi almeno fino ad allora appare chiara (se già non lo fosse) l’importanza di una buona padronanza della stessa. Vorrei in particolare segnalare alcuni servizi online destinati a cui vuole migliorare la propria listening comprehension.
Si tratta di servizi che mettono a disposizione brani di attualità e non solo, letti da madrelingua a velocità rallentata con relativi testi a disposizione dell’ascoltatore. La velocità rallentata ed il testo a disposizione rendono la comprensione molto più facile rispetto a servizi come Radio 4 e il “World Service” della BBC (anche questi servizi liberamente fruibili via internet).

Tra i più interessanti:
http://www.spotlightradio.org
http://www.voanews.com/specialenglish/

Segnalaliamo inoltre un nuovo blog che raccoglie risorse online gratuite e pagamento, corsi, metodi per imparare l’inglese

Anno nuovo, ricerca nuova o meglio personalizzata: Google Personalized Search

Anno nuovo e l’ottimo Google ci propone un nuovo servizio: Personalized Search.
L’idea non è del tutto nuova (siamo pressochè sicuri che centinaia di tesi di laurea siano state scritte in merito), ma questo non toglie che l’idea resti interessante.
Si tratta infatti di uno strumento che consente di migliorare le ricerche che effettuiamo nel presente, basandosi sulle ricerche fatte da noi in passato, con lo scopo evidente di rendere la nostra esperienza sempre più gratificante (e farci risparmiare tempo!).

Personalized Search consente di:

  • ottenere i risultati più gratificanti, come si è detto basandosi sulle ricerche effettuate nel passato

ma anche di:

  • vedere e gestire le ricerche passate(quindi conservarle insieme ai risultati), incluse quindi le pagine web, le immagini, i titoli delle news su cui si è cliccato etc
  • creare bookmark (favoriti) ai quali si potrà  poi accedere da qualsiasi computer (previa identificazione – basta disporre di un account)

Che dire ?
Straordinario sotto diversi punti di vista:

  • sia per l’algoritmo di raffinamento dei risultati di ricerca (basato sulla nostra history passata)
  • sia per l’enorme spazio disco che Google continua a mettere a disposizione dei suoi clienti (per pagine visitate, bookmark etc oltre a quello già  disponibile per Gmail)

Perplessità  ?
Qualcuno obbietterà  che:

  • così facendo Google conoscerà  ancora meglio le nostre abitudini (e in un certo senso avremo forse un po’ meno privacy)
  • ricerche più mirate significa tempo risparmiato per i navigatori o comunque migliore soddisfazione, ma anche possibilità  di proporre pubblicità  più mirata che abbia maggiore possibilità  di successo (e di click 😉 )

Ma forse questo è il prezzo da pagare sull’altare della competizione e dell’innovazione che costringe i big del “search” a proporre sempre nuovi servizi per fidelizzare i propri utilizzatori.

Sulla pagina di “Personalized search” viene fatto notare che all’inizio potrebbe non notarsi un grande impatto nei risultati di ricerca, ma una volta costruita una buona search history (leggasi “addestrato/a”), le proprie ricerche personalizzate continueranno certamente a migliorare.

Scopri i dettagli di: Google Personalized Search

Google e le migliori menti informatiche del pianeta

Google conferma il proprio appeal di Internet Company in grado di “reclutare” le migliori menti informatiche del pianeta.

Accanto a nomi prestigiosi che già  lavorano presso il “googleplex” come:

  • il “nostro” Alex Martelli (di Bologna)
  • Greg Stein (evangelizzatore del software Open Source)
  • Vinton G. Cerf papà  del TCP/IP (presso Google ricopre la carica – forse un po’ simbolica – di vicepresidente e capo evangelizzatore Internet)
  • Peter Norvig (direttore della ricerca e uno dei massimi esperti mondiali di intelligenza artificiale )
  • Chip Turner (già  responsabile in RedHat di yum e altri importanti programmi Python)

 

A cui si è aggiunto Guido van Rossum (GvM)  l’ideatore di Python, il noto linguaggio di programmazione che si distingue per la sua eleganza ed espressività  (un cosidetto VHLC: Very High Level Language).

Olandese di nascita, GvM lavora da diversi anni negli Stati Uniti dove si è anche occupato problematiche relative alla sicurezza.

La stretta relazione fra Software Libero e Google non è mai stata un mistero. Anche grazie anche a questo l’azienda americana raccoglie la simpatie di mezzo mondo.

 

Search Engine Strategies Conferences and Expos per la prima volta in Italia

Per la prima volta in Italia, il “Search Engine Strategies” continua la sua crescita esplosiva nel mondo con il nuovo evento che si terrà  a Milano il 26/27 Aprile 2006 nei saloni del Westin Palace. Milano non è che una delle tappe di una lunga serie di eventi che hanno coinvolto e coinvolgeranno New York, Tokyo, Toronto, Londra, San Jose, Stoccolma, Chicago, Miami, Parigi e la Cina.

Un evento importante ed un’occasione unica per ascoltare le numerose sessioni tenute dai maggiori esperti mondiali di motori di ricerca al fine di apprendere come massimizzare le opportunità  offerte dal Search Engine Marketing.
Per meaggiori info:

Search Engine Strategies Conferences and Expos per la prima volta in Italia

Metamotori per la ricerca del lavoro

Forse è improprio parlare di metamotori di ricerca per il lavoro, ma la filosofia che sta dietro a questo tipo di strumenti è simile a quello dei metamotori di ricerca tradizionali.
Si tratta di infrastrutture che solitamente effettuano il crawling (richiedono le pagine web, le prelevano e le analizzano) delle più diffuse fonti online relative alla ricerca di lavoro.
Una volta prelevati ed analizzati, gli annunci vengono resi disponibili per la ricerca a partire dall’interfaccia del metamotore con una breve descrizione dell’offerta e link che solitamente rimandano poi al sito di origine dell’annuncio.

Si tratta in definitiva di strumenti utili perchè risparmiano molto tempo all’utente (il cui unico sforzo è quello di formulare una query intelligente sull’interfaccia del metamotore) e permettono di cercare in molti portali, la cui consultazione richiederebbe molto tempo.

Molti Job meta crawler offrono anche il servizio di avviso via email quando ci sono risultati che corrispondono alla ricerca impostata dall’utente (un servizio analogo a quello offerto da Google Alerts e di cui si è già  parlato in queste pagine).

Alcuni esempi italiani:

600 nuovi posti di lavoro creati da Google a Dublino

Google creerà  nei prossimi 2 o 3 anni circa 600 nuovi posti di lavoro a Dublino. Nuovi occupati in diversi settori:
vendite, legale, finanziario, gestione del personale e naturalmente ingegneri informatici.

Google ha già  provveduto ad ampliare la propria sede a Dublino (in Barrow Street) per far fronte ai nuovi inserimenti.
Il ministro irlandese per l’Impresa lo Sviluppo ed il Commercio (Micheal Martin) non ha ovviamente perso occasione per rimarcare come questo sia un enerme gesto di fiducia della multinazionale americana nei confronti del “sistema Irlanda” ritenuto in grado di fornire livelli di competenze ed esperienza necessari.

Se pensiamo che negli anni ’70 il PIL irlandese era circa il 60% rispetto alla media europea ed ora si aggira attorno al 130% capiamo quale sviluppo abbia avuto la cosiddetta “Tigre Celtica”. Sviluppo dovuto ad una avveduta politica fiscale ma anche a una crescente scolarizzazione della popolazione (con un crescente numero di laureati specialmente nelle materie scientifiche).

Google Alerts

Il motore di ricerca Google ci ha abituato negli ultimi mesi a continue novità .

Alcune hanno destato molto scalpore, altre meno.

Fra queste ultime vogliamo parlare di Google Alerts un nuovo servizio del più famoso fra i motori di ricerca, che se ben compreso può risultare davvero utilissimo.

Attraverso un’interfaccia, apparentemente spartana, Google ci offre la possibilità  di monitorare l’informazione presente nei propri database (siano essi le news, il web, i gruppi di discussione etc)
Visitando la pagina di Google Alerts vediamo i campi di testo:
Search terms (in cui possiamo mettere la nostra ricerca), type ossia la selezione della fonte di informazioni (web, gruppi di discussione etc), la frequenza di aggiornamento, e il campo in cui immettere la propria mail.

Il punto chiave è proprio questo: Google infatti ci invierà  una mail con i risultati della query di ricerca che andremo ad impostare con la frequenza da noi desiderata.

Ma perchè sosteniamo che questo sia uno strumento potente ed utile allo stesso tempo ?

Le possibilità  a disposizione sono tante:

  • Supponiamo per esempio di stare cercando lavoro nella propria città . Potremmo impostare una query molto semplice:
    “nome della propria città  lavoro” (o altre parole più specifiche come impiegato, quadro, programmatore, commerciale etc )
    e Google ci manderà  una mail quando compariranno nel web, nei newsgroup etc documenti che contengono le nostre parole chiave
  • Avete un sito web ?
    potete monitorare i newsgroup per sapere se qualcuno parla di voi e del vostro sito
  • Siete appassionati dell’Irlanda e di viaggi ?
    Potete farvi mandare una mail quando se ne parla sul un newsgroup specifico (es. it.hobby.viaggi)
    con una semplice query:
    irlanda group:it.hobby.viaggi
  • etc..

Le possibilità  sono davvero tante !
Buona sperimentazione ed aspettiamo segnalazioni interessanti in merito

Spidering Hacks

Non è un libro recentissimo (è stato infatti pubblicato nel 2003) ma rappresenta in assoluto una novità per gli argomenti introdotti.

Si pone infatti il problema di far capire l’arte dello spidering e quindi di come reperire informazioni (anche personalizzate) in quel mare magnum che è il web.

Il libro mostra come sia possibile realizzare piccoli spider personalizzati (ossia software in grado di effettuare ed automatizzare ricerche per noi) utilizzando diversi linguaggi di programmazione (java, perl, python e le rispettive librerie java.net, urllib, lwp etc )

Scrivendo un nostro spider possiamo monitorare un sito che ci interessa per prelevare informazioni o semplicemente verificare eventuali aggiornamenti dello stesso, oppure verificare che i siti con i quali abbiamo effettuato una campagna di scambio link abbiamo effettivamente ancora un link al nostro sito e molto altro (i limiti risiedono solo nella creatività personale).

Il crawling distribuito sarà  la nuova frontiera per i motori di ricerca

L’idea del calcolo distribuito, già sfruttata da molti progetti come SETI@home peraw la Ricerca di Intelligenze ExtraTerrestri e da altri progetti come la ricerca sul cancro e lo studio della struttura delle proteine umane è da qualche tempo approdata anche nel campo dei motori di ricerca.

La potenza di calcolo distribuita messa a disposizione da tante persone sparse negli angoli più remoti del pianeta è infatti molto utile in un settore dove il numero di pagine web è in continua crescita (si stima che i circa 10 miliardi di pagine attualmente indicizzati da google siano solo il 10% del totale esistente).

Segnaliamo i progetti di maggiore interesse in questo campo:
nutch.org (free software scritto in java che ora si è unito ai progetti dell’Apache Incubator)
Nutch

Majestic12 (progetto inglese che non è software libero ma che rende disponibili client per linux e windows)
Majestic12

Questi progetti si occupano della cosidetta fase di crawling (o spidering) cioè al reperimento delle pagine, ma un motore di ricerca è costituito da altre parti fondamentali. In particolare:

  • Crawler o spider cioè software che trovano e prelevano pagine web e costruiscono una lista di keyword e frasi a partire dalle pagine reperite
  • L’indice vero e proprio del motore (database) che contiene le parole e frasi prelevate dai crawler.
    Il sofware che si occupa di popolare l’indice viene chiamato solitamente indexer
  • Il cosiddetto “query processor” ossia la parte che si occupa di processare le richieste immesse dall’utente nel campo di ricerca e confrontarle con le informazioni presenti nell’indice del motore.
    E’ questa la parte in cui maggiormente differiscono i vari motori di ricerca: l’algoritmo di confronto fra richieste utente e pagine presenti all’interno dell’ indice

Se si tiene conto che stime del 2004 attribuivano al motore di ricerca Google un numero di computer compreso fra i 10000 e 80000 si può ben comprendere quale sia le risorse necessarie ad un motore di ricerca.

L’approccio distribuito è sicuramente molto interessante per la fase di spidering delle pagine ma come affrontare la necessitò di risorse (hardware e software) necessarie all’indexer e al query processor ?