600 nuovi posti di lavoro creati da Google a Dublino

Google creerà  nei prossimi 2 o 3 anni circa 600 nuovi posti di lavoro a Dublino. Nuovi occupati in diversi settori:
vendite, legale, finanziario, gestione del personale e naturalmente ingegneri informatici.

Google ha già  provveduto ad ampliare la propria sede a Dublino (in Barrow Street) per far fronte ai nuovi inserimenti.
Il ministro irlandese per l’Impresa lo Sviluppo ed il Commercio (Micheal Martin) non ha ovviamente perso occasione per rimarcare come questo sia un enerme gesto di fiducia della multinazionale americana nei confronti del “sistema Irlanda” ritenuto in grado di fornire livelli di competenze ed esperienza necessari.

Se pensiamo che negli anni ’70 il PIL irlandese era circa il 60% rispetto alla media europea ed ora si aggira attorno al 130% capiamo quale sviluppo abbia avuto la cosiddetta “Tigre Celtica”. Sviluppo dovuto ad una avveduta politica fiscale ma anche a una crescente scolarizzazione della popolazione (con un crescente numero di laureati specialmente nelle materie scientifiche).

Google Alerts

Il motore di ricerca Google ci ha abituato negli ultimi mesi a continue novità .

Alcune hanno destato molto scalpore, altre meno.

Fra queste ultime vogliamo parlare di Google Alerts un nuovo servizio del più famoso fra i motori di ricerca, che se ben compreso può risultare davvero utilissimo.

Attraverso un’interfaccia, apparentemente spartana, Google ci offre la possibilità  di monitorare l’informazione presente nei propri database (siano essi le news, il web, i gruppi di discussione etc)
Visitando la pagina di Google Alerts vediamo i campi di testo:
Search terms (in cui possiamo mettere la nostra ricerca), type ossia la selezione della fonte di informazioni (web, gruppi di discussione etc), la frequenza di aggiornamento, e il campo in cui immettere la propria mail.

Il punto chiave è proprio questo: Google infatti ci invierà  una mail con i risultati della query di ricerca che andremo ad impostare con la frequenza da noi desiderata.

Ma perchè sosteniamo che questo sia uno strumento potente ed utile allo stesso tempo ?

Le possibilità  a disposizione sono tante:

  • Supponiamo per esempio di stare cercando lavoro nella propria città . Potremmo impostare una query molto semplice:
    “nome della propria città  lavoro” (o altre parole più specifiche come impiegato, quadro, programmatore, commerciale etc )
    e Google ci manderà  una mail quando compariranno nel web, nei newsgroup etc documenti che contengono le nostre parole chiave
  • Avete un sito web ?
    potete monitorare i newsgroup per sapere se qualcuno parla di voi e del vostro sito
  • Siete appassionati dell’Irlanda e di viaggi ?
    Potete farvi mandare una mail quando se ne parla sul un newsgroup specifico (es. it.hobby.viaggi)
    con una semplice query:
    irlanda group:it.hobby.viaggi
  • etc..

Le possibilità  sono davvero tante !
Buona sperimentazione ed aspettiamo segnalazioni interessanti in merito

Spidering Hacks

Non è un libro recentissimo (è stato infatti pubblicato nel 2003) ma rappresenta in assoluto una novità per gli argomenti introdotti.

Si pone infatti il problema di far capire l’arte dello spidering e quindi di come reperire informazioni (anche personalizzate) in quel mare magnum che è il web.

Il libro mostra come sia possibile realizzare piccoli spider personalizzati (ossia software in grado di effettuare ed automatizzare ricerche per noi) utilizzando diversi linguaggi di programmazione (java, perl, python e le rispettive librerie java.net, urllib, lwp etc )

Scrivendo un nostro spider possiamo monitorare un sito che ci interessa per prelevare informazioni o semplicemente verificare eventuali aggiornamenti dello stesso, oppure verificare che i siti con i quali abbiamo effettuato una campagna di scambio link abbiamo effettivamente ancora un link al nostro sito e molto altro (i limiti risiedono solo nella creatività personale).

Il crawling distribuito sarà  la nuova frontiera per i motori di ricerca

L’idea del calcolo distribuito, già sfruttata da molti progetti come SETI@home peraw la Ricerca di Intelligenze ExtraTerrestri e da altri progetti come la ricerca sul cancro e lo studio della struttura delle proteine umane è da qualche tempo approdata anche nel campo dei motori di ricerca.

La potenza di calcolo distribuita messa a disposizione da tante persone sparse negli angoli più remoti del pianeta è infatti molto utile in un settore dove il numero di pagine web è in continua crescita (si stima che i circa 10 miliardi di pagine attualmente indicizzati da google siano solo il 10% del totale esistente).

Segnaliamo i progetti di maggiore interesse in questo campo:
nutch.org (free software scritto in java che ora si è unito ai progetti dell’Apache Incubator)
Nutch

Majestic12 (progetto inglese che non è software libero ma che rende disponibili client per linux e windows)
Majestic12

Questi progetti si occupano della cosidetta fase di crawling (o spidering) cioè al reperimento delle pagine, ma un motore di ricerca è costituito da altre parti fondamentali. In particolare:

  • Crawler o spider cioè software che trovano e prelevano pagine web e costruiscono una lista di keyword e frasi a partire dalle pagine reperite
  • L’indice vero e proprio del motore (database) che contiene le parole e frasi prelevate dai crawler.
    Il sofware che si occupa di popolare l’indice viene chiamato solitamente indexer
  • Il cosiddetto “query processor” ossia la parte che si occupa di processare le richieste immesse dall’utente nel campo di ricerca e confrontarle con le informazioni presenti nell’indice del motore.
    E’ questa la parte in cui maggiormente differiscono i vari motori di ricerca: l’algoritmo di confronto fra richieste utente e pagine presenti all’interno dell’ indice

Se si tiene conto che stime del 2004 attribuivano al motore di ricerca Google un numero di computer compreso fra i 10000 e 80000 si può ben comprendere quale sia le risorse necessarie ad un motore di ricerca.

L’approccio distribuito è sicuramente molto interessante per la fase di spidering delle pagine ma come affrontare la necessitò di risorse (hardware e software) necessarie all’indexer e al query processor ?