<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Michele Braccini &#187; nutch</title>
	<atom:link href="http://www.michelebraccini.com/tag/nutch/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.michelebraccini.com</link>
	<description>Consulenza seo, sem e web marketing</description>
	<lastBuildDate>Tue, 17 Jan 2012 13:50:24 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.1.3</generator>
		<item>
		<title>Il crawling distribuito sarà la nuova frontiera per i motori di ricerca</title>
		<link>http://www.michelebraccini.com/2005/11/29/il-crawling-distribuito-sara-la-nuova-frontiera-per-i-motori-di-ricerca/</link>
		<comments>http://www.michelebraccini.com/2005/11/29/il-crawling-distribuito-sara-la-nuova-frontiera-per-i-motori-di-ricerca/#comments</comments>
		<pubDate>Tue, 29 Nov 2005 22:30:12 +0000</pubDate>
		<dc:creator>Administrator</dc:creator>
				<category><![CDATA[Motori di ricerca]]></category>
		<category><![CDATA[crawling]]></category>
		<category><![CDATA[Majestic12]]></category>
		<category><![CDATA[nutch]]></category>
		<category><![CDATA[SETI]]></category>

		<guid isPermaLink="false">http://www.michelebraccini.com/?p=8</guid>
		<description><![CDATA[L&#8217;idea del calcolo distribuito, gi&#224; sfruttata da molti progetti come SETI@home peraw la Ricerca di Intelligenze ExtraTerrestri e da altri progetti come la ricerca sul cancro e lo studio della struttura delle proteine umane &#232; da qualche tempo approdata anche nel campo dei motori di ricerca. La potenza di calcolo distribuita messa a disposizione da [...]
Related posts:<ol>
<li><a href='http://www.michelebraccini.com/2006/02/08/krugle-il-nuovo-motore-di-ricerca-per-programmatori-consentira-la-ricerca-di-codice-sorgente-tra-i-progetti-open-source-e-non-solo/' rel='bookmark' title='Krugle il nuovo motore di ricerca per programmatori consentirà la ricerca di codice sorgente tra i progetti open source e non solo'>Krugle il nuovo motore di ricerca per programmatori consentirà la ricerca di codice sorgente tra i progetti open source e non solo</a></li>
<li><a href='http://www.michelebraccini.com/2005/12/31/la-concorrenza-fra-i-motori-di-ricerca-passa-anche-dai-browser/' rel='bookmark' title='La concorrenza  fra i motori di ricerca passa anche dai browser'>La concorrenza  fra i motori di ricerca passa anche dai browser</a></li>
<li><a href='http://www.michelebraccini.com/2006/01/03/anno-nuovo-ricerca-nuova-o-meglio-personalizzata-google-personalized-search/' rel='bookmark' title='Anno nuovo, ricerca nuova o meglio personalizzata: Google Personalized Search'>Anno nuovo, ricerca nuova o meglio personalizzata: Google Personalized Search</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p></p><p>L&#8217;idea del calcolo distribuito, gi&agrave; sfruttata da molti  progetti come SETI@home peraw la Ricerca di Intelligenze ExtraTerrestri e da  altri progetti come la ricerca sul  cancro e lo studio della struttura delle  proteine  umane  &egrave; da qualche tempo approdata anche nel campo dei motori di ricerca.</p>
<p>La potenza di calcolo distribuita messa a disposizione da tante persone sparse negli angoli pi&ugrave; remoti del pianeta  &egrave; infatti molto utile in un settore dove il  numero di pagine web &egrave; in continua crescita (si stima che i circa 10 miliardi di pagine attualmente indicizzati da google siano solo il 10% del totale esistente).</p>
<p>Segnaliamo i progetti di maggiore interesse in questo campo:<br />
nutch.org (free software scritto in java che ora si &egrave; unito ai progetti dell&#8217;Apache  Incubator)<br />
<a href="http://lucene.apache.org/nutch/">Nutch</a></p>
<p>Majestic12 (progetto inglese che non &egrave; software libero ma che rende disponibili  client per linux e windows)<br />
<a href="http://www.majestic12.co.uk/">Majestic12</a></p>
<p>Questi progetti si occupano della cosidetta fase  di crawling (o spidering) cio&egrave; al reperimento delle pagine, ma un motore di ricerca &egrave;  costituito da altre parti fondamentali. In particolare:</p>
<ul>
<li>Crawler o spider  cio&egrave; software che trovano e prelevano pagine web e costruiscono una lista di keyword  e frasi a partire dalle pagine reperite</li>
<li>L&#8217;indice vero e proprio del motore (database) che contiene le parole e frasi prelevate dai crawler.<br />
Il sofware che si occupa di popolare l&#8217;indice viene chiamato solitamente  <em>indexer</em>
</li>
<li>
Il cosiddetto &#8220;query processor&#8221; ossia la parte che si occupa di processare le richieste immesse dall&#8217;utente nel campo di ricerca e confrontarle con le informazioni presenti nell&#8217;indice del motore.<br />
E&#8217; questa la parte in cui maggiormente differiscono i vari motori di ricerca: l&#8217;algoritmo di confronto fra richieste utente e pagine presenti all&#8217;interno dell&#8217; indice
</li>
</ul>
<p>Se si tiene conto che stime del 2004 attribuivano al motore di ricerca Google un numero di computer compreso fra i 10000 e 80000 si pu&ograve; ben comprendere quale sia le risorse necessarie ad un motore di ricerca.</p>
<p>L&#8217;approccio distribuito &egrave; sicuramente molto interessante per la fase di spidering delle pagine ma come affrontare la necessit&ograve; di risorse (hardware e software)  necessarie all&#8217;indexer ed al query processor ?</p>
<p>Related posts:<ol>
<li><a href='http://www.michelebraccini.com/2006/02/08/krugle-il-nuovo-motore-di-ricerca-per-programmatori-consentira-la-ricerca-di-codice-sorgente-tra-i-progetti-open-source-e-non-solo/' rel='bookmark' title='Krugle il nuovo motore di ricerca per programmatori consentirà la ricerca di codice sorgente tra i progetti open source e non solo'>Krugle il nuovo motore di ricerca per programmatori consentirà la ricerca di codice sorgente tra i progetti open source e non solo</a></li>
<li><a href='http://www.michelebraccini.com/2005/12/31/la-concorrenza-fra-i-motori-di-ricerca-passa-anche-dai-browser/' rel='bookmark' title='La concorrenza  fra i motori di ricerca passa anche dai browser'>La concorrenza  fra i motori di ricerca passa anche dai browser</a></li>
<li><a href='http://www.michelebraccini.com/2006/01/03/anno-nuovo-ricerca-nuova-o-meglio-personalizzata-google-personalized-search/' rel='bookmark' title='Anno nuovo, ricerca nuova o meglio personalizzata: Google Personalized Search'>Anno nuovo, ricerca nuova o meglio personalizzata: Google Personalized Search</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.michelebraccini.com/2005/11/29/il-crawling-distribuito-sara-la-nuova-frontiera-per-i-motori-di-ricerca/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

