2. Analisi lessicale

Un programma Python viene letto da un parser. L'input da analizzare è una sequenza di token, generati dall'analizzatore lessicale. Questo capitolo descrive come l'analizzatore lessicale divide il file in token.

Python utilizza il set di caratteri ASCII a 7 bit per il testo del programma. Nuovo nella versione 2.3: può essere dichiarata una codifica per indicare che le stringhe costanti manifeste ed i commenti sono in una codifica diversa da ASCII. uer compatibilità con vecchie versioni, Python vi avvisa solo se trova caratteri ad 8 bit; questi avvertimenti devono essere corretti utilizzando una specifica codifica o utilizzando delle sequenza di escape (NdT: di protezione) se questi byte sono dati binari anziché caratteri.

L'insieme di caratteri a runtime dipende dal dispositivo di I/O connesso al programma, ma è generalmente un superinsieme di ASCII.

Note di compatibilità futura: si può essere tentati di assumere che l'insieme di caratteri per i caratteri ad 8 bit sia ISO Latin-1 (un superinsieme ASCII che copre la maggior parte dei linguaggi dell'ovest che usano l'alfabeto latino), ma è possibile che in futuro gli editor di testo Unicode diventino di uso comune. Questi generalmente utilizzano la codifica UTF-8, che è sempre un superinsieme ASCII, ma utilizza in modo diverso i caratteri con un valore numerico tra 128 e 255. Mentre non c'è ancora consenso su questo, è sconsigliabile dare per scontato Latin-1 o UTF-8, anche se l'implementazione corrente appare in favore di Latin-1. Questo si applica sia al codice sorgente che all'insieme di caratteri a runtime.



Subsections
Vedete Circa questo documento... per informazioni su modifiche e suggerimenti.