duminică, 4 decembrie 2016

Codificare textelor


Este un lucru cunoscut că pentru măsurarea lungimii, temperaturii, masei, timpului etc au fost inventate aparate şi metode de măsurare. De exemplu, lungimea unui creion se determină cu ajutorul riglei, temperatura aerului - cu ajutorul termometrului, masa unui corp - cu ajutorul cântarului. Valorile concrete ale acestor mărimi se exprimă în anumite unităţi de măsură: lungimea - în metri, centimetri sau milimetri; temperatura - în grade; masa - în miligrame, grame sau kilograme.
Apare întrebarea, cum putem afla cantitatea de informaţie a unui text, a unei imagini sau a unei secvenţe sonore şi care sînt unităţile ei de măsură? Întrucât în calculator informaţia
de orice natură este reprezentată prin secvenţe de cifre binare, ca unitate de măsură a cantităţii de informaţie se foloseşte bitul. Amintim că bit este un acronim al cuvintelor .engleze binary digit "cifră binară".
Cantitatea de informaţie exprimă numărul minim de cifre binare necesare pentru codificarea şi decodificarea univocă a informaţiei
In cazul informaţiei textuale, fiecărui din cele 256 de simboluri (vezi tabelul 1.2) îi corespunde un cod unic format din 8 cifre binare. Este oare numărul de 8 cifre binare minimal? Răspunsul la această întrebare este afirmativ, întrucât utilizând 7 cifre binare putem reprezenta numai 27=128 de simboluri. Prin urmare, cantitatea de informaţie a unui simbol din codul ASCII este de 8 biţi.
în informatică, pentru măsurarea cantităţii de informaţie deopotrivă cu bitul se foloseşte şi octetul:
loctet = 23=8biţi.
Cantitatea de informaţie a unui text format din N simboluri este
/ = N (octeţi) sau / = 8 N (biţi).
De exemplu, cantitatea de informaţie în cuvîntul START este
I = 5 octeţi = 40 biţi.
O pagină de ziar conţine circa 10 mii de simboluri. Cantitatea de informaţie a unui ziar de 4 pagini este:
/ = 4 • 10 000 = 40 000 octeţi = 320 000 biţi.
Cantităţile mari de informaţie se exprimă prin multiplii bitului sau octetului:
l Kbit = 210 * IO3 biţi (l Kilobit, l mie biţi); l Mbit = 220 - IO6 biţi (l Megabit, l mln biţi); l Gbit = 230 « IO9 biţi (l Gigdbit, l mlrd biţi);
l Koctet = 210 « IO3 octeţi (l Kilooctet, l mie octeţi); l Moctet = 220 ~ IO6 octeţi (l Megaoctet, l mln octeţi); l Goctet = 230 ~ IO9 octeţi (l Gigaoctet, l mlrd octeţi).

în cazul exemplului de mai sus, cantitatea de informaţie a unui ziar este: / = 40 000 octeţi * 40 Kocteţi = 320 Kbiţi.

Niciun comentariu:

Trimiteți un comentariu