Vés al contingut

Caràcter (tipus de dada)

De la Viquipèdia, l'enciclopèdia lliure

En terminologia informàtica i de telecomunicacions, un caràcter és una unitat d'informació que es correspon aproximadament amb una grafema o amb una unitat o símbol semblant, com els d'un alfabet o sil·labari de la forma escrita d'un llenguatge natural.

Un exemple de caràcter és una lletra, un nombre o un signe de puntuació. El concepte també comprèn als caràcters de control, que no es corresponen amb símbols del llenguatge natural sinó amb altres fragments d'informació usats per processar textos, tals com el retorn de carro i el tabulador, així com instruccions per a impressores i altres dispositius que mostren els esmentats textos.

Codificació de caràcters

[modifica]

Els ordinadors i els equips de comunicacions representen caràcters mitjançant l'ús d'una codificació que assigna un valor a cada caràcter (normalment un valor enter representat per una seqüència de bits) que pot ser emmagatzemat o transmès per una xarxa. La codificació més comuna era fins fa poc l'ASCII, però actualment s'està fent més popular l'Unicode. Un exemple de codificació no digital pot ser el codi Morse, que en lloc d'usar bits representa els caràcters mitjançant una sèrie d'impulsos elèctrics de longitud variable (punts i ratlles).

Terminologia

[modifica]

Històricament, el terme «caràcter» ha estat usat àmpliament pels professionals de la indústria per referir-se a un «caràcter codificat» (exposat sovint només mitjançant l'API d'un llenguatge de programació). De la mateixa manera, el terme conjunt de caràcters (character set) ha estat usat generalment per al·ludir a un repertori específic de «caràcters abstractes» que havien estat codificats mitjançant seqüències de bits específiques.

En alguns contextos és important fer la distinció que un caràcter és una unitat d'informació i per tant no implica cap manifestació visual particular. Per exemple, la lletra hebrea àlef (א) és usada sovint pels matemàtics per denotar certs tipus d'infinit, però també s'usa en textos hebreus corrents. En l'Unicode, ambdós usos tenen caràcters diferents als quals corresponen dos codis diferents, encara que puguin ser representats exactament igual. En canvi, el logograma xinès per l'aigua (水) pot tenir una aparença lleugerament diferent en textos xinesos i japonesos, la qual cosa pot veure's reflectida en els tipus de lletra locals, però representen, malgrat això, la mateixa informació, pel que es considera un únic caràcter.

El terme «glif» s'usa per descriure una aparença física particular d'un caràcter. Moltes fonts d'ordinador consisteixen en glifs indexats segons el codi Unicode del caràcter que cada un d'ells representa.

La definició de «caràcter» o «caràcter abstracte» és, segons l'estàndard Unicode i l'ISO/IEC 10646, «un membre d'un conjunt d'elements usat per a l'organització, control o representació de dades». La definició d'Unicode afegeix una sèrie de notes explicatives animant el lector a distingir entre caràcters, grafemes i glifs, entre altres coses. L'estàndard també distingeix entre aquests caràcters abstractes i els «caràcters codificats» que ja han estat aparellats amb codis numèrics per facilitar la seva representació en sistemes informàtics.

Vegeu també

[modifica]

Enllaços externs

[modifica]
  • ISO/IEC TR 15285:1998, Arxivat 2008-02-16 a Wayback Machine. resum del model de caràcters ISO/IEC, centrat en les definicions terminològiques i la diferència entre caràcters i glifs (anglès)