13.3 htmllib -- A parser for HTML documents

Questo modulo definisce una classe che può essere utilizzata come base per analizzare file di testo formattati in HyperText Mark-up Language (HTML). La classe non riguarda direttamente l'I/O -- gli deve essere inviato un input in forma di stringa attraverso un metodo, poi fa le chiamate ai metodi di un oggetto ``formatter'' in modo da produrre un output. La classe HTMLParser viene progettata per essere usata da classe base per altre classi con lo scopo di aggiungere funzionalità, infatti molti dei suoi metodi possono essere estesi o sovrascritti. Da parte sua, questa classe deriva dalla classe SGMLParser, definita in sgmllib e la estende. L'implementazione di HTMLParser supporta il linguaggio HTML 2.0 come descritto nell'RFC 1866. Il modulo formatter fornisce due implementazioni dell'oggetto formatter; ci si riferisca alla documentazione per quel modulo per informazioni sull'interfaccia formatter.

Il seguente è un sommario delle interfacce definite da sgmllib.SGMLParser:

Il modulo definisce una singola classe:

class HTMLParser( formatter)
Questa è la classe di base della formattazione HTML. Questa supporta tutte le entità richieste per le specifiche XHTML 1.0 (http://www.w3.org/TR/xhtml1). Definisce anche i gestori per tutti gli elementi HTML 2.0 e molti degli elementi HTML 3.0 e HTML 3.2.

Vedete anche:

Modulo formatter:
Definizione di interfaccia per trasformare un flusso astratto di eventi di formattazione in specifici eventi di uscita su oggetti scrivibili.
Modulo HTMLParser:
Un parser HTML alternativo che offre una vista un po' più a basso livello dell'input, ma disegnato per lavorare con XHTML, non implementa alcune delle sintassi SGML usate in ``HTML as deployed'', che è illegale per XHTML.
Modulo htmlentitydefs:
Definizione del testo sostitutivo per le entità XHTML 1.0.
Modulo sgmllib:
Classe base per HTMLParser.



Subsections
Vedete Circa questo documento... per informazioni su modifiche e suggerimenti.