domenica 15 aprile 2012

Sul concetto di entropia

Prima di parlare del concetto di entropia, ecco una citazione di Shannon, cioè di colui che l'ha definita nell'ambito della teoria dell'informazione:

La mia più grande preoccupazione era come chiamarla. Pensavo di chiamarla informazione, ma la parola era fin troppo usata, così decisi di chiamarla incertezza. Quando discussi della cosa con John Von Neumann, lui ebbe un'idea migliore. Mi disse che avrei dovuto chiamarla entropia, per due motivi: "Innanzitutto, la tua funzione d'incertezza è già nota nella meccanica statistica con quel nome. In secondo luogo, e più significativamente, nessuno sa cosa sia con certezza l'entropia, così in una discussione sarai sempre in vantaggio".

Quindi l'entropia è una cosa misteriosa (alla fine, un numero) che rappresenta la quantità di informazione trasportata da un messaggio, o anche una misura dell'imprevedibilità con cui si susseguono i caratteri del messaggio stesso.

Mi spiego meglio: se il messaggio è "1111111111", non è che esso trasporti una gran quantità di informazione. Se una sorgente trasmette sequenzialmente dei caratteri, e io vedo che questi sono sempre degli 1, bé, non sarò sorpreso se, mettendomi in ascolto, osservo in continuazione degli 1. Detto in un altro modo: un libro in cui l'unico carattere utilizzato è 1 è un libro abbastanza noioso, e non ho problemi a immaginare come andrà a finire.

Se invece apro un libro e leggo "Il cielo sopra il porto aveva il colore della televisione sintonizzata su un canale morto", ecco che già faccio fatica a prevedere cosa succederà dopo, e mi vien voglia di andare avanti a leggere (poi cambierò idea dopo tre pagine, ma questa è un'altra storia). Il testo trasporta più informazione di quello banale composto solo dalla cifra 1, anche se in esso è presente ancora della ridondanza. Ad esempio, riconosco il fatto che si tratta della lingua italiana. So che se vedo una "q" è molto probabile che dopo ci sia una "u".

Se poi mi trovo davanti a un testo completamente disordinato, qualcosa del tipo "k853LhbzTF" (testo generato tramite il servizio random.org, che assicura di generare in modo davvero casuale i caratteri), ecco che esso è completamente irriconoscibile e imprevedibile. Non posso sapere quale sarà il prossimo carattere.

Bene, non dirò nient'altro sull'entropia, prima devo studiare… Però vorrei mostrare i risultati di un esperimento.

Ho preso un testo della lingua italiana (di cui non rivelerò ora il titolo), ed ho fatto una statistica sulle frequenze delle singole lettere. Dopodiché ho costruito un generatore casuale di testi che rispetti la statistica trovata: ecco il risultato:

h ban se;ldf lnam idecos ao uobuguceandoi rozin rt iiemPeoiadoroel:r tangvaaanitirnata n ie r aaoin lcrl iigmmprci,n'neriu eaìvrs dl n omgPruunnsed!ais e vrauaeabito va.' ennictu o h ie iso onemn c msfa ete eo ete.n'c oauaonreo asemi ae oszào, iie ef s o rrrihlie ePirgeoreunssad ioedatc arte,t ecal i olseo quiirom cp qia vram aiuhnr lesaanacponeaaho eìcnidcfo elsrenrtlcioaoauichis egoo.eevss fhspie lu ehenrbo gaodelnaomoo:oftpzitn oe uodacaau A qvtm àmlaa od na l,u aud romrudia d ai, etfcssinid s iunldanaouvi giuleer hngr io ouaanrncnoios vo,- oan iaaiscìutir:sn; rt ipp -i faeecqQseenhu btir cen aeetev mn spesoaot se ,sia mclnnuden eitn eascsnacpeet a tao nuaoe soreeecesig pò o o oe cctoiòiaiu' oaai cete ?,lfas p nlnl etrteria ersnoeaneaenaqrplen o reaangoileo'enrloeitltc aùittvnn ,qaussst-i i uuna r i oozitsptevcrinotgliiolnccpa aea;tv aiciEotnanoeoa clIcaepofeetttenaslin aeais ntrn c,o a o t rrt urn nbdvo eeel sne osmnartsg ùna-ignstzcr itcnu madom nn

Totalmente incomprensibile, ma se fate un'analisi delle frequenze, scoprite che l'andamento è quello della lingua italiana.

Questo generatore di testi è senza memoria: ogni lettera non dipende dalla precedente, il sistema non ricorda nulla. Se esce una "q", dopo potrebbe uscire qualunque lettera.

Ho allora provato a costruire un generatore diverso, a memoria 1, in cui ogni lettera dipende, in un qualche modo, dalla precedente. Ho insomma seguito la statistica delle coppie di lettere della lingua italiana. Ecco qua:

eno sutrtiaitrila fagugl è e ce ment'è APo, - che ssi a e'eri dia meva seroves' da Viniso enongntencomatuell'è E vina. rglunti, anunorelosì diuofono, ltel veradadi era guerd'aneverorina crove e sisare Laramen di d'e, liabrsici querirtttisuche le fenne pe.Litò, de, ciatrò no.Ini ater nn funnuti diguerovi emevamen a be pechemisto, spitto all'astenevera, cavenio bbernzimo ss'avamichen'etelllla chi Tri scenochemei io merso, duscranontade avelotò a'ive, de chanto. bin o, coratomo me a e quaronn pesue aruo devesté enzavò erte ve pprbavosego, n e ma inda. ma e cuia arva qungilantovavirinelche, cori din Ciù cinovi nto. i illì? to nderela po, enzi dò danzzidisuonacoi anelun del ua, dincheti; ceve spre Di - ccal stedopproste Indasase, lendosomia quore pe di, a pennta i apopomisccore enessere evantanzzaler cicia con iù a, co. esi che cigi si Avenzina chol'orone patrbendeli di l ginqunove le; ccassstolerca erolltrero. pittol di futerm'atti. che a, co. sa Ehe vevoran Ve tenca iarinonongl'i la, di F

Visto cosa succede? Vengono generate delle parole che assomigliano, in modo molto vago, a parole italiane. Se volete giocare, non andate avanti nella lettura e provate a capire quale romanzo è stato usato per istruire il generatore. Secondo me non ci si riesce ancora, ma forse passando a un generatore a memoria 2 (cioè che tenta di seguire la statistica delle terne di lettere della lingua italiana) si riesce a capire qualcosa di più:

iona mo, che, doti: no nella quessarle come posio, più corresta unoripore che che farete nonervi miluttibito cappessacomene diatto anombacch'eranombo più ra Ma segli spel che guil po' mi che, ogno diver tumio, se inta ner lui, mezza, e. Il se inato d'er darcio: le ogolo l'un l'alerse pe verla vogolortiremispersichione no l'ormoste quer unon quanda che par che fostitandissi più di me fato que' verobasciate suovermagio. Scaveneva po e ta, - E quai. E, diste, lì ano chiancato, il pregna che distrimaizion rangue rità. Ne alchigno inonnizio co a corsigna maccribenz'avederno lortava, ganch'esen tire che ra medesto pova quallegrassigo ce no vi menzabittero sappezzo si e da e lo c'essempada partudeverancorava lavate, ri paggiorio, - Si Maggianducambe alibrazi trosappere sciusome paglitano dole da suoi il no da Gettorsi tre; in in griver la pia in purlo, in crivò occoricenno, d'unavanchia luole do be te se ri ve; e Rodre chi soperani fato, né il co campiù mun posta, ci, e no fati, posennal 386.

Un indizio c'è… Ma è certamente più facile risolvere il quesito con un testo generato da un generatore con memoria 3:

dott'effensolla finessuno s'asperfino; e, non mondo, per la tale si racchie dunquella scoppo che gli e invano, com'è accorso, in que' tempossata. Perchessar non sonaria, 13 fero Renza convenion venti par raccio; e racchi ricava in quella.- La gli chi, acco! magine, perca ho tro, e ancorre i botto, le conte Amare ad astata il 1629, ricura sbravamo. Giovarolentivamente: voci parebbe con fuorecissi, zamportunni.- Zittigato ancia e picchiozze, quellire: il che rappensiemeri in cera, che sequillecielargo se prime nella cheneficinquelloquesta in creder che s'ace dopo, inari mando dal sorroratichie difest'invenece arri tire: a fiori, fino, vede col tempresumano don anza sta letervitazio: e tutto: una più per rimaste d'una farsi in quel parlò da l'altri, non la stella tava più precausa. Alloro pre a rimiti, in questamenturba, riposse essegrido che lontare o che una sta andettere di passigno, padre, figli anche ne diverso la l'uominare? Non celli amincorso della suo rimammele me stra quale, in

Qui si riconoscono intere parole. Vado avanti ancora un po', ecco quello con memoria 4:

rebbe far cosa?- Io stare non ha regoli. Avuto fermaron si povero. Renzo ebbe vitato parte megliamento quell'idee superfluo. Prestarsi tutte passarmi stessero di spasimo; lasciò a così che stare, affaccente a ogni porti, lascicantando, questa padrone; ha facesse addosson ne sospetta, si tutto proprivaron tutto. " Ha delle giorno tutte le pane si dànno del vicenda; ma e con un'inchino al privile aveva piazioni poteva, si diede a forse, gettò deferenico andavanti argo. - Ben preti, dà lui con gli stesso. Socchiamaron desto d'Agnescolta, eran facenzo, e con si ragazza tutto asse forza di può con gli era un altri. - Senza, facevamo poi posalità, come poueri d'estralascio; ma che, di boccettare in cui o gli riveste dall'aria disse: - mi causa, divere: diver aprir consonaggio d'esser avvicinò, e che, e più alla monache, sentì necessi, confuso che la viotto da essendo da poco, guardando signor del cominaccia; nessuno, e dondo della se niente a di no, insegnetto, d'avessero malgrado signore? C

Memoria 5:

mo che, o piuttosto a' suoi prova innanzi don Federigo Borromeo, dovesse verso sudice qui, e si storia, che tempo è...?Ma in visto, bisogno d'ubbidirla, come scappa la grazia, rimescolata: ora il cappello, a guardata, che una tese ben essersi trovale, una nuova partite qualche spinge in fretta loro un po' di...! - Meno aspo; e senza arrivava, che, forusciti ad imitava colui che mette comanda, una parte scorsi che noi, per buon se le farmi il passo fissato.- Un po' di sorte, che andato, distribuiti alla mezzo a intrappeso, al peggio che lì, per verità: giacché il carattenzione di venendo legittima.- Renzo tanti, in buona grande davanti nobile incontrasti. Gli atti, era solitudine, legati posto all'acquistata con una scellera, guardando furono di bene. Chi è dovere una presenza terrotte piccolo quotidi, " il conti, vederei. A nessuno di cosa, doveva sentì in mezzi a torbidandosela con quale s'appagorgia, si volesse; e sarebbe a un tempo. Vinse la bianchi degni di corpo, bisogna pecorelle

E infine memoria 6:

mpo aspettata racconterò poi s'avveda.- Basta, aumentaneamenti, d'aspettava in vece vi desideri, l'immaginazioni, ai sacchi, e d'osteri, l'incarico. Una di quelli arruffate, dicendo: - è qui apposta a' monatti, il più fitti che s'avesse più alieni da dove fosse un po' dall'altra parola, arrivasse immoto; spoglia, s'alzò mezzo della morte mia, dal suo paese, avendo risaputo tenere provar la vedremo lasciar andar loro facesse ora che passeggiero era di nuovo in colloquio che credeva quindi disse, con un parentado: dice uno; onde l'orrore, figliuola; e si potesse di protezione, non provare. Ma vogliam crederlo lì quel desiderio, aveva infatti... coll'aiuto m'accorgersi e fautorità spontanetto, che potesse alla carità... gran fatti, alcuno di colui?- Sì, signoria inediti, e spediti e a male prode nelle stanza trovando pur dare avanti, il povero. - Brava gli animi alternativamento di fare una parte, più esperimento che non s'era poi, qualche di sopra questo Raccolse questi momento? - domand

Se non avete ancora capito (impossibile), vi dirò che in una prova che ho fatto mentre mettevo a punto il programma che ho usato per generare tutti questi testi è saltato fuori un certo Don Abbondanza…

14 commenti:

M. ha detto...

Bel post! Ti segnalo anche la puntata su soft computing di Digito Ergo Sum http://digitoergosum.unimi.it/ottava-puntata-soft-computing.html

Massimo ha detto...

potresti postare i programmi che hai usato, sarebbe interessante

zar ha detto...

Lo sistemo e lo ripulisco un po', è troppo indecente adesso :-)

Juhan ha detto...

Mi sta venendo un'idea...
No, come non detto.
Ma forse...
No

zar ha detto...

Dai, dai.

aaqui ha detto...

Un post appassionante, complimenti.

Popinga ha detto...

Articolo interessante e divertente. Trattandosi dell'odiato Manzoni, le versioni generate con memoria 0, 1 e 2 sono le migliori.

zar ha detto...

Ma dai, povero Manzoni! :-)

Marcoscan ha detto...

Hai mai sentito parlare di "Dissociated press" e "Mark V Shaney"? :-) Roba interessante...

zar ha detto...

Marcoscan: !! Non li conoscevo, fantastico... E' proprio questa roba qua.

Marcoscan ha detto...

Ero sicuro che avresti apprezzato! :-)

Anonimo ha detto...

Così a istinto senza pensarci troppo, la memoria 1 mi ricorda il latino, la memoria 2 mi ricorda Dante, la memoria 3 Manzoni.

Al

Anonimo ha detto...

Bell'articolo, però l'incipit perfetto da usare nell'esempio sarebbe stato "L'Universo, chiamato anche Biblioteca, si compone di un numero indefinito, forse infinito, di stanze esagonali.."
A proposito di entropia di Shannon, avevo un professore che ricavò le basi per tutto il corso di meccanica statistica basandosi sulla definizione di Shannon, salvo poi dopo diverse lezioni accennare al fatto che di solito in fisica si usava la definizione equivalente data da Boltzmann..!

Marco

zar ha detto...

Marco, hai ragione sull'incipit perfetto :-)