Questo modulo definisce una classe che può essere utilizzata come base per analizzare file di testo formattati in HyperText Mark-up Language (HTML). La classe non riguarda direttamente l'I/O -- gli deve essere inviato un input in forma di stringa attraverso un metodo, poi fa le chiamate ai metodi di un oggetto ``formatter'' in modo da produrre un output. La classe HTMLParser viene progettata per essere usata da classe base per altre classi con lo scopo di aggiungere funzionalità, infatti molti dei suoi metodi possono essere estesi o sovrascritti. Da parte sua, questa classe deriva dalla classe SGMLParser, definita in sgmllib e la estende. L'implementazione di HTMLParser supporta il linguaggio HTML 2.0 come descritto nell'RFC 1866. Il modulo formatter fornisce due implementazioni dell'oggetto formatter; ci si riferisca alla documentazione per quel modulo per informazioni sull'interfaccia formatter.
Il seguente è un sommario delle interfacce definite da sgmllib.SGMLParser:
Per esempio, per analizzare l'intero contenuto di un file, usare:
parser.feed(open('myfile.html').read()) parser.close()
<tag ...>
;
end_tag() viene chiamato quando troverà la chiusura del
tag nella forma <tag>
. Quando l'apertura di un tag
richiede una corrispondente chiusura, come
<H1>
... </H1>
, la classe dovrebbe definire il metodo
start_tag(); se il tag richiede un tag che non
necessita di chiusura, come <P>
, la classe dovrebbe definire il
metodo do_tag().
Il modulo definisce una singola classe:
formatter) |
Vedete anche: