Questo modulo fornisce un'unica classe, RobotFileParser, che risponde ad interrogazioni sulla possibilità o meno che un particolare user agent possa prelevare una URL sul sito Web che pubblica il file robots.txt. Per maggiori dettagli sulla struttura dei file robots.txt vedere http://www.robotstxt.org/wc/norobots.html.
) |
Questa classe fornisce un insieme di metodi per leggere, analizzare e rispondere ad interrogazioni su un singolo file robots.txt.
url) |
) |
lines) |
useragent, url) |
True
se useragent è abilitato a recuperare l'url
in base alle regole contenute nel file analizzato robots.txt.
) |
robots.txt
è stato
recuperato l'ultima volta. Questa informazione è utile per programmi
web spider che rimangono in esecuzione per molto tempo e che
richiedono di verificare periodicamente eventuali nuovi file
robots.txt
.
) |
robots.txt
è stato recuperato
per l'ultima volta all'ora attuale.
L'esempio seguente dimostra l'uso della classe RobotFileParser.
>>> import robotparser >>> rp = robotparser.RobotFileParser() >>> rp.set_url("http://www.musi-cal.com/robots.txt") >>> rp.read() >>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco") False >>> rp.can_fetch("*", "http://www.musi-cal.com/") True