12.19 robotparser -- Parser per robots.txt

Questo modulo fornisce un'unica classe, RobotFileParser, che risponde ad interrogazioni sulla possibilità o meno che un particolare user agent possa prelevare una URL sul sito Web che pubblica il file robots.txt. Per maggiori dettagli sulla struttura dei file robots.txt vedere http://www.robotstxt.org/wc/norobots.html.

class RobotFileParser( )

Questa classe fornisce un insieme di metodi per leggere, analizzare e rispondere ad interrogazioni su un singolo file robots.txt.

set_url( url)
Imposta l'URL che fa riferimento ad un file robots.txt.

read( )
Legge l'URL di robots.txt e lo passa al parser.

parse( lines)
Analizza l'argomento lines.

can_fetch( useragent, url)
Ritorna True se useragent è abilitato a recuperare l'url in base alle regole contenute nel file analizzato robots.txt.

mtime( )
Restituisce l'orario in cui il file robots.txt è stato recuperato l'ultima volta. Questa informazione è utile per programmi web spider che rimangono in esecuzione per molto tempo e che richiedono di verificare periodicamente eventuali nuovi file robots.txt.

modified( )
Assegna l'orario in cui il file robots.txt è stato recuperato per l'ultima volta all'ora attuale.

L'esempio seguente dimostra l'uso della classe RobotFileParser.

>>> import robotparser
>>> rp = robotparser.RobotFileParser()
>>> rp.set_url("http://www.musi-cal.com/robots.txt")
>>> rp.read()
>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
False
>>> rp.can_fetch("*", "http://www.musi-cal.com/")
True
Vedete Circa questo documento... per informazioni su modifiche e suggerimenti.