Raw2Ent 1.9 Dokumentation - EINFÜHRUNG

[ Grundlagen | Zielsetzung ]

[ Inhalt | zurück | vorwärts ]

Einführung


Grundlagen

Das ASCII (American Standardisation Commitee for Information Interchange)-Format wurde in den USA festgelegt, um Textinformationen austauschen zu können. Das Komitee wagte jedoch nicht, die Zeichen für die nicht-amerikanischen Sprachen festzulegen. So ist das ASCII-Format bis heute nur für 128 Zeichen standardisiert. Unsere speziellen Umlaute oder die französischen, schwedischen oder türkischen Akzente sind nicht standardisiert. Jedes gängige Betriebsystem stellt je einem Zeichen ein Byte zur Verfügung. Mit einem Byte lassen sich 256 (28) Zeichen darstellen - das sind genau doppelt soviele, wie im ASCII-Format definiert sind [128 (27)]. Genau im nicht-standardisierten Bereich liegen die Umlaute und anderen Sonderzeichen. In fast jedem Betriebssystem ist dieser Bereich anders definiert. Komplikationen im Austausch von Textinformationen über Betriebsysteme hinweg sind unausweichlich, sofern man nicht in Englisch schreibt oder die Umlaute "ä", "ü", "ö", "ß" in "ae", "ue", "oe", "ss" umwandelt [Nebenbeibemerkt: Die Problematik ist seit der Zeit der ersten Schreibmaschinen bekannt].

Eine erweiterte Fassung der Kodierung wurde mit dem Unicode (2 Byte => 216=65536 Zeichen) eingeführt, der sich jedoch lange Zeit wegen des hohen Speicherbedarfs nicht durchsetzen konnte. Überarbeitet wurde diese Problematik, während der Entwicklung des "World Wide Web" (WWW). Eines der höchsten Ziele bei der Entwicklung vom WWW war es, plattformübergreifende Standards zu gebrauchen. Ein x-beliebiges HTML-Dokument auf einer x-beliebigen Plattform sollte im WWW von jedem Rechner aus erreichbar und verwendbar sein. Da jedoch die Beschreibungssprache "Hypertext Markup Language" (HTML) auf der Grundlage von ASCII-Zeichen beruhte und der Informationsaustausch auch mit nationalen Sonderzeichen erwünscht war, definierten die Entwickler die sogenannten "Character Entity Codes". Für HTML ansich sind sie nicht notwendig, jedoch für den nicht-englischen Textinhalt. Logischerweise muß man irgendwie versuchen die im ASCII-Code nicht-standardisierten Zeichen mithilfe des standardisierten ASCII-Codes darzustellen. Dies gelang auf Grundlage einer speziellen Schreibweise. Man nahm zunächst den Zeichensatz des Unix-Betriebssystems zur Grundlage. Der Code wird durch ein "&" eingeführt und durch ein ";" beendet. Zwischen "&" und ";" wird nun einfach die Codenummer des erwünschten Zeichens mit einem "#" davor geschrieben. Da man dazu eine ausgedruckte Tabelle des Unix-Zeichensatzes haben mußte, war dies etwas zu umständlich und verwirrend. Dazu wurden die "Character Entity Code-Names" eingeführt, die nichts anderes sind, als Namen für bestimmte Zahlen. So kann man den Umlaut von "u" also "ü" einfach als "ü" schreiben - was heißt "u-umlaut". Zu "ö" wäre der Code "ö". Ein Beispielstext:

Original:
Hallöchen! Haste Spaß!?
Kodiert:
Hallöchen! Haste Spaß!?

Leider ist diese Regelung sehr jung. Vielleicht wird dies künftig eine weitere Möglichkeit sein mit etwas weniger Konflikten Texte auszutauschen.

Solange sich dieser Standard jedoch auf das WWW beschränkt, werden solche Programme wie Raw2Ent benötigt, welche die Kodierung und Entkodierung automatisch vornehmen.

Ziel von Raw2Ent

Das Ziel von Raw2Ent ist es, dem Anwender den Umgang mit 8-Bit- zu 7-Bit-ASCII-Texten zu erleichtern. Das schließt die Kodierung über "Character-Entity-Codes" genauso ein, wie über die schriftliche Umwandlung der Umlaute ("ü" -> "ue") oder irgend-eine andere Art der Umwandlung, welche vom Anwender selbst bestimmt werden kann. Raw2Ent kann sogar dazu verwendet werden MS-DOS-ASCII oder MAC-ASCII in Latin-1-ASCII umzuwandeln und umgekehrt.

Da die Zielsetzung von Raw2Ent nach wie vor nahe an der HTML-Entwicklung liegt, wurde direkt eine HTML-Farb-Namen/-Code Umwandlung eingebaut, die es dem Anwender erleichtert mit HTML-Farben umzugehen.

Primärziel von Raw2Ent ist es 7-Bit-ASCII zu erzeugen. So ist auch zur Kontrolle von ASCII-Texten eine Überprüfungsfunktion implementiert, die in Zusammenarbeit mit einem Text-Editor - wie z.B. CygnusEd - sogar direkt die 8-Bit-Stelle anspringt. Überhaupt ist die Verbindung Raw2Ent und CygnusEd eine gute Wahl, da ein spezieller CED-Skript dafür sorgen kann, daß Texte auch nur partiell - und damit kontrollierter - umgewandelt werden können.


Raw2Ent © 1996-98 Tamio Patrick Honma (BätchWare)
software@honma.de - http://www.honma.de/software/