<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Michele Braccini &#187; spider</title>
	<atom:link href="http://www.michelebraccini.com/tag/spider/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.michelebraccini.com</link>
	<description>Consulenza seo, sem e web marketing</description>
	<lastBuildDate>Tue, 17 Jan 2012 13:50:24 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.1.3</generator>
		<item>
		<title>Un libro per comprendere le problematiche ed imparare a scrivere crawler: &#8220;Webbot e spider. I ragni della Rete.&#8221;</title>
		<link>http://www.michelebraccini.com/2010/01/29/un-libro-per-comprendere-le-problematiche-ed-imparare-a-scrivere-crawler-webbot-e-spider-i-ragni-della-rete/</link>
		<comments>http://www.michelebraccini.com/2010/01/29/un-libro-per-comprendere-le-problematiche-ed-imparare-a-scrivere-crawler-webbot-e-spider-i-ragni-della-rete/#comments</comments>
		<pubDate>Fri, 29 Jan 2010 07:00:46 +0000</pubDate>
		<dc:creator>Administrator</dc:creator>
				<category><![CDATA[SEO - Search engine optimization]]></category>
		<category><![CDATA[Spider - crawler - webbot]]></category>
		<category><![CDATA[SEO]]></category>
		<category><![CDATA[spider]]></category>
		<category><![CDATA[webbot]]></category>

		<guid isPermaLink="false">http://www.michelebraccini.com/?p=820</guid>
		<description><![CDATA[Nei giorni scorsi mi &#232; ricapitato tra le mani un libro che avevo acquistato un po&#8217; di tempo fa: &#8220;Webbot e spider. I ragni della rete.&#8221; edito da Apogeo. Si tratta di un testo del 2007, traduzione del libro americano &#8220;Webbots, Spiders, and Screen Scrapers&#8221; della casa editrice No Starch. Quando usc&#236; la versione italiana [...]
Related posts:<ol>
<li><a href='http://www.michelebraccini.com/2005/11/22/l-ascesa-della-nuova-classe-creativa-stile-di-vita-valori-e-professioni/' rel='bookmark' title='L&#8217; ascesa della nuova classe creativa. Stile di vita, valori e professioni'>L&#8217; ascesa della nuova classe creativa. Stile di vita, valori e professioni</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p></p><p>Nei giorni scorsi mi &egrave; ricapitato tra le mani un libro che avevo acquistato un po&#8217; di tempo fa: &#8220;<strong>Webbot e spider. I ragni della rete</strong>.&#8221; edito da <strong>Apogeo</strong>. Si tratta di un testo del 2007, traduzione del libro americano <strong>&#8220;Webbots, Spiders, and Screen Scrapers&#8221;</strong> della casa editrice No Starch.</p>
<p><a href="http://www.michelebraccini.com/wp-content/uploads/2010/02/spider-webbot.gif"><img src="http://www.michelebraccini.com/wp-content/uploads/2010/02/spider-webbot.gif" alt="" title="spider-webbot" width="200" height="286" class="alignleft size-full wp-image-851" /></a></p>
<p>Quando usc&igrave; la versione italiana rimasi stupito poich&egrave; si trattava un <strong>argomento </strong>in apparenza abbastanza di <strong>nicchia</strong>, trattato da pochissimi libri in lingua inglese tra cui <a href="http://www.michelebraccini.com/2005/11/29/spidering-hacks/">Spidering Hacks della O&#8217;reilly</a>.</p>
<p>Il <strong>presupposto </strong>da cui parte l&#8217;autore (Michael Schrenk) &egrave; che i <strong>browser </strong>per quanto sempre pi&ugrave; potenti e ricchi di plugin <strong>non </strong>sono <strong>sempre </strong> la <strong>soluzione ottimale</strong> per gestire le informazioni online: a volte sono <strong>necessari strumenti pi&ugrave; &#8220;affilati&#8221;</strong>. </p>
<p>Entrano in gioco <strong>crawler, spider, webbot, agenti software, screen scrapers</strong>, software  che, sia pure con sfumature leggermente diverse, sono in grado di:</p>
<ul>
<li><strong>reperire informazioni online</strong> utilizzando diversi protocolli </li>
<li><strong>automatizzare operazioni complesse</strong></li>
</ul>
<p>Il libro propone, come linguaggio per la scrittura di spider e webbot, l&#8217;accoppiata: <a href="http://php.net/manual/en/book.curl.php" rel="nofollow" target="_blank">PHP e cURL</a>. La <strong>scelta </strong> di <strong>PHP </strong> in questo contesto pu&ograve; apparire sicuramente <strong>strana</strong>, dato che PHP nasce come linguaggio di scripting da includere nelle pagine web. Tale scelta &egrave; per&ograve; motivata dalla <strong>semplicit&agrave; di utilizzo</strong> del linguaggio e dalla vasta libreria. Inoltre, come sostiene l&#8217;autore, i <strong>limiti </strong> nell&#8217;utilizzo di PHP in questo contesto vengono in larga parte <strong>superati </strong> utilizzando la libreria <strong>PHP/cURL</strong>, particolarmente efficiente per questi scopi.</p>
<p>Il testo tratta un po&#8217; tutti i <strong>vantaggi </strong>degli spider e webbot sia dal punto di vista degli <strong>sviluppatori</strong>, sia dal punto di vista dei <strong>manager</strong>.<br />
Per gli sviluppatori rappresentano un&#8217;opportunit&agrave; per acquisire nuove competenze e nel contempo sono anche una sfida per via dell&#8217;imprevedibilit&agrave; (basti pensare al parsing dei dati).</p>
<p>Nei primi capitoli vengono proposte idee anche molto creative sui possibili impieghi e successivamente viene affrontata la parte tecnologica: PHP, cURL e la libreria messa a punto dall&#8217;autore e scaricabile dal suo sito web. Sito che prevede pagine realizzate appositamente come test per gli script del libro (i lettori possano cos&igrave; testare senza problemi gli esempi).</p>
<p>Le librerie messe a punto dall&#8217;autore contemplano funzioni per il download e per parsing dei dati (reperimento stringhe, gestione link  etc).</p>
<p>Vengono poi trattati argomenti come l&#8217;invio automatico di form, la gestione di grandi quantit&agrave; di dati. Vengono passate poi in rassegna applicazioni comuni di utilizzo per webbot quali:</p>
<ol>
<li><strong>monitorare i prezzi</strong></li>
<li><strong>catturare immagini</strong></li>
<li><strong>verificare link</strong></li>
<li>la <strong>navigazione anonima</strong></li>
<li>valutare il <strong>rank </strong> ed il <strong>posizionamento</strong> delle pagine sui <strong>motori di ricerca</strong></li>
<li><strong>aggregatori </strong> di <strong>notizie </strong> ed <strong>informazioni</strong></li>
<li><strong>FTP </strong> per prelevare dati con l&#8217;utilizzo di questo protocollo</li>
<li>prelevare dai newsgroup via <strong>NNTP</strong></li>
<li>leggere e spedire <strong>mail </strong> con <strong>POP3 </strong> e <strong>SMTP</strong></li>
</ol>
<p>Conclude il libro una serie di capitoli su tematiche considerate pi&ugrave; avanzate come:</p>
<ol>
<li><strong>procurement webbot</strong> (webbot che acquistano per procura)</li>
<li>webbot che utilizzino la <strong>crittografia </strong>(SSL) </li>
<li>considerazioni sull&#8217;<strong>autenticazione</strong></li>
<li>gestione dei <strong>cookie</strong></li>
</ol>
<p>Le considerazioni finali spiegano come scrivere webbot che:</p>
<ul>
<li>non diano nell&#8217;occhio</li>
<li>siano <strong>affidabili </strong></li>
<li>possano gestire <strong>parsing </strong> di <strong>dati </strong> <strong>non </strong>ben <strong>formattati</strong></li>
<li><strong>considerazione legali</strong> sullo spidering</li>
<li>come realizzare <strong>siti web amichevoli</strong> per gli <strong>spider</strong> (considerazioni <strong>SEO</strong> e visione lato webmaster)</li>
</ul>
<p>La <a href="http://www.apogeonline.com/libri/9788850326587/scheda" rel="nofollow" target="_blank">scheda del libro sul sito Apogeo</a> dove sono presenti anche i codici sorgenti del libro (che sono anche sul sito dell&#8217;autore) e il link per leggere parte del libro su google books.</p>
<p>La pagina della versione americana: <a href="http://nostarch.com/webbots.htm" rel="nofollow" target="main">Webbots, Spiders, and Screen Scrapers</a></p>
<p>Il sito dell&#8217;autore: <a href="http://www.schrenk.com/" rel="nofollow" target="_blank">Micheal Schrenk</a></p>
<p>Related posts:<ol>
<li><a href='http://www.michelebraccini.com/2005/11/22/l-ascesa-della-nuova-classe-creativa-stile-di-vita-valori-e-professioni/' rel='bookmark' title='L&#8217; ascesa della nuova classe creativa. Stile di vita, valori e professioni'>L&#8217; ascesa della nuova classe creativa. Stile di vita, valori e professioni</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.michelebraccini.com/2010/01/29/un-libro-per-comprendere-le-problematiche-ed-imparare-a-scrivere-crawler-webbot-e-spider-i-ragni-della-rete/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

