Archivo de texto

De El Museo de los 8 bits
(Redirigido desde «TXT»)
Saltar a: navegación, buscar

Como archivos de texto debemos considerar dos grandes subconjuntos : los archivos de texto plano y los archivos de texto de propósito especial.

Archivos de texto plano

Los archivos de texto plano (en inglés plain text) son aquellos que están compuestos únicamente por caracteres imprimibles, espacios, retornos de carro (en cualquiera de las tres implementaciones existentes DOS/MAC/Unix), y tabuladores. En cualquier sistema informático desde el principio se ha distinguido siempre entre este tipo de ficheros y el archivo binario, donde los bytes no representan caracteres sino valores binarios.

Aunque han existido microprocesadores de menos de 8 bits, se adoptó al principio el formato ASCII de 7 bits, utilizando un byte completo para representar cada carácter, despreciándose el restante. La expansión de la informática fuera de los países que utilizan el idioma inglés, trajo la ampliación a 8 bits para poder representar más caracteres y a su vez un período de caos en los equipos de 8 bits, donde muchos fabricantes (como Atari con su ATASCII) se pusieron a reinventar la rueda dificultando el intercambio de archivos de texto con caracteres por encima del 127 ASCII (única parte respetada por casi todos). El triunfo del IBM PC permitió que se establecieran diferentes juegos de caracteres de su DOS (como el 437, 850, etc) que lograron representar incluso ficheros en alfabeto cirílico o Kanji (aunque en varios casos se tuvo que pasar a utilizar 16 bits). La compatibilidad con los ascendentes compatible IBM PC y el dominio de IBM en los grandes sistemas informáticos, tanto con sistemas propietarios como ejecutando variantes de Unix, contribuyeron a que sus competidores incluyeran el soporte de esos juegos de caracteres en sus sistemas operativos.

El uso de secuencias de escape en las impresoras iniciales creó un tipo de archivo binario, llamado archivo de impresora, compuesto principalmente por texto plano y caracteres de control de la impresora. Algo parecido ocurre en los terminales informáticos, donde se crean ficheros con texto plano y caracteres de control del terminal (el más extendido es llamado fichero ANSI y permite incluso animaciones limitadas). Pero aunque estos ficheros son editables con editores de texto capaces de representar esos caracteres, son archivos binarios.

Con el tiempo se estandarizan varios de esos formatos propietarios en ISO/IEC 8859, y la llegada de las interfaces visuales provoca una expansión de los juegos de caracteres. Sobre todo en Unix se comienza a usar Unicode y algunos de sus subconjuntos, como UTF-8, que sobre todo gracias a Internet logrará soporte por defecto en todos los sistemas operativos. La razón de su expansión es que logra representar caracteres latinos, cirílicos, árabe, y un subset de los caracteres orientales más frecuentes. Para lograr esto emplea dos bytes en los caracteres por encima del 127 ASCII, lo que causa que si se abre un fichero de texto UTF-8 en un viejo sistema informático aparezca como un fichero binario, similar a los anterioes. Para lograr diferenciar estos ficheros, vienen con una pequeña cabecera que indica el juego de caracteres empleados (en contraposición a los ficheros de DOS que no indicaban de ningún modo su codificación).

Pese a ello, se acepta en la definición de archivos de texto plano a estos ficheros, pues su finalidad es sólo representar caracteres, sin ningún tipo de información de formateo.

Mayoritariamente usan la extensión .txt aunque no es obligatoria. Antes de la aparición de Microsoft Word era también habitual emplear la extensión .doc para indicar que eran documentos de texto, pero esta ha quedado reservada de facto

Archivos de texto

Los archivos de texto de propósito especial son archivos de texto plano si nos atenemos a la definición física dada inicialmente, pero que en ese texto plano pueden contener órdenes de formateo de texto, como los presentes en HTML y XML. Se les suele denominar archivos de texto a secas, reservando el apellido plano para aquellos ficheros destinados a tener sólo texto.

Estos ficheros no tienen uan terminación reservada aunque suelen usar una que los identifique. Por ejemplo, los ficheros de código fuente suelen usar una terminación que indique su lenguaje de programación, como .c .cpp .php .pl ect. Los ficheros de configuración suelen usar también terminaciones reservadas como .ini .inf y otros. Los ficheros de ejecución de lotes sueles también tener sus propias terminaciones, como los .bat de MS-DOS

Convenciones de nombres de archivos texto en sistemas Unix

En sistemas Unix las convenciones de nombres de archivos son más relajadas. La extensión .txt se ha hecho popular en los últimos tiempos, pero habitualmente el contenido del archivo se determina con programas que examinan los primeros bytes, como por ejemplo el comando file.

Enlaces externos

Descripción del formato en FILExt