From: Boris Kraut Date: Tue, 19 Sep 2006 00:00:00 +0000 Category: Sender: Message-ID: <20060919000000.vWh08w@silberbruch> References: Keywords: Comments: To: undisclosed-recipients: ; Subject: Das Internetaustauschformat Sinn und Zweck des Internets ist ja bekanntlich der Austausch von Inhalten -frueher haette ich an dieser Stelle nicht von Inhalte, sondern von Informationen gesprochen, aber ich moechte wirklich bewusst auch solche Inhalte einschliessen, die ich fuer wenig informativ oder unwichtig halte- , doch wie soll dieser Austausch stattfinden? Welche Formate sollen dafuer verwendet werden und worin liegen die Staerken der einzelnen Formate? Mit solchen und aehnlichen Fragen habe ich mich in den letzten Wochen sehr intensiv beschaeftigt und moechte hier eine kleine Zusammenfassung meiner Gedankengaenge als Diskussionsanstoss anbieten. Zuerst moechte ich auf eine Unsitte eingehen, die sich in den vergangenen Jahren explosionsartig im Internet verbreitet hat. Ich weiss, dass darueber schon viel zu oft -ohne Ergebnis- diskutiert wurde, deshalb moechte ich mich hier sehr kurz fassen. Es geht um den richtigen Einsatz von PDF. PostScript- oder PortableDocumentFormat-Dateien haben durchaus ihre Berechtigung, doch werden sie oft all zu leichtfertig eingesetzt. Solche Dateien sind als virtuelle Druckvorstufe gedacht, als Moeglichkeit das Ergebnis eines Drucks schon vorab am Bildschirm zu sehen und eventuell noch rechtzeitig eingreifen zu koennen - fuer den Heimanwender mag das vielleicht nicht ganz so einfach vorstellbar zu sein, aber Drucke sind gerade bei groesseren Dokumenten eine sehr teure Angelegenheit. Sie sind daher meist so aufgebaut, dass ein normaler Mensch mit guten Augen die gedruckte Version auch lesen kann. Doch leider ist das Lesen am Computer eine voellig andere Taetigkeit als das Lesen eines Prospekts oder eines Buches. So ist beispielsweise das Umblaettern -das im eigentlichen Druck eventuell durch geschicktes Falten erleichtert wird- am PC voellig anders geloest. Auch sollte man bedenken, dass Menschen mit einer Sehschwaeche solche Dateien genau wie ihre real gedruckten Pendants nicht oder nur sehr schwer lesen koennen. Ist man sich dieser Punkte bewusst, so kann man PS und PDF durchaus sinnvoll einsetzen. Doch leider haben sich viele Hard- und Softwarehersteller dazu entschlossen Informationen nicht mehr auf ihrer Webseite direkt anzubieten, sondern veroeffentlichen dort -wahrscheinlich aus Kostengruenden- nur noch einen Verweis auf eine solche virtuelle Kopie des Handbuches. Gerade in Zeiten wo nur noch wenige Hersteller Handbuecher in gedruckter Form ihren Produkten beilegen stellt sich doch die Frage, warum der Umweg ueber PDF? Waere es nicht viel sinnvoller die Daten direkt in einem universell lesbaren Format anzubieten? Man sollte also darauf achten, dass die wichtigen Informationen in einem am Rechner gut nutzbaren Format vorliegen. Zusaetzlich kann man gerne auch die PDF zum Download bereitstellen, denn es gibt ja durchaus auch Leute, die sich dieses dann ausdrucken, da sie lieber etwas "richtiges" in der Hand haben und lesen wollen, als stundenlang vor dem Rechner zu versumpfen. Leider ist PDF auch nicht mehr ganz so unabhaengig von der verwendeten Plattform wie sein Vorgaenger PS, viele schlecht oder gar nicht dokumentierte AEnderungen am Format haben dazu gefuehrt, dass PDF auf einem Rechner nicht unbedingt gleich aussieht wie auf einem zweiten Rechner. Zudem haben viele der frei verfuegbaren PDF-Reader Probleme mit diesen Erweiterungen. Sie zeigen zwar die PDF so gut es geht an, aber wie gesagt, man kann nicht mehr sicherstellen, dass der Inhalt ueberall gleich angezeigt wird. Wer weitere Informationen zum Thema will, sollte sich Fabian Keils Artikel [1] durchlesen. Auch das in Microsofts Office Suite verwendete DOC-Format wird oft zum Datenaustausch verwendet. Doch man kann auch heute noch nicht davon ausgehen, dass jeder Anwender Zugriff auf eben diese Office Suite - eventuell sogar in der selben Version - hat oder ueber ein Programm verfuegt, welches diese Daten einigermassen korrekt importieren kann. Selbst wenn man genau weiss, dass die Zielgruppe mit diesem Format klarkommt, sollte man es nicht nutzen. Da Microsoft Informationen ueber dieses Dateiformat der OEffentlichkeit vorenthaelt und mit jeder neuen Office-Version weitere undokumentierte AEnderungen einfliessen, ist es schwer eine frei verfuegbare Alternative zum Produkt der Redmonder zu entwickeln, obwohl zum Beispiel die Leute hinter OpenOffice.org das zwischenzeitlich ziemlich gut hin bekommen haben. Man macht sich also damit auf lange Sicht abhaengig von Microsoft, welches uebrigens selbst mit ihrem diesem Format zu kaempfen hat, denn sie scheinen es nicht gewaehrleisten zu koennen, dass ein in diesem Format gespeichertes Dokument unabhaengige von der verwendeten Office-Version immer korrekt angezeigt wird. Gerade zum Archivieren von wichtigen Daten sollte man daher dieses Format nicht verwenden. Auch das ebenfalls von Microsoft entwickelte RichText-Format sollte, obwohl seine Funktionsweise relativ gut der OEffentlichkeit zugaenglich ist, nicht zum Informationsaustausch genutzt werden. Selbst in einem auf der Webseite von O'Reilly veroeffentlichen Artikel [2], dessen Autor sich eigentlich klar fuer das RTF-Format ausspricht, heisst es: > Any real-world RTF you're unlucky enough to encounter will be anything but > human-readable. It's not structured like XML, and much of the markup is > years out of date. > > We all know that if you really want to be sure of cross-platform simplicity, > plain text is the way to go. > > Some might even argue that RTF no longer has a place in modern word > processing. HTML could be considered a better choice for cross-platform > formatted documents, especially those that need to include some of the > elements RTF does not support. In letzter Zeit wird auch immer haeufiger das OASIS OpenDocument Format als der neue Standard angesehen. Oft wird dabei allerdings vergessen, dass man mit (X)HTML bereits ein offenes, weit verbreitetes Format hat, dass aehnliche Vorteile sowie aehnliche Schwaechen hat und sogar etwas weiter, allgemeiner gefasst ist. Den einzigen nennenswerten Vorteil den ich bei ODF erkennen kann ist, dass man sich auf einen Standard geeinigt hat, wie und wo man mehrere zu einem Dokument gehoerige Daten ablegt. Auch wenn sich diese Format grundsaetzlich durchaus sehr gut als Austauschformat eignen wuerde, so kommt es doch etwas zu spaet. Wir haben mit (X)HTML bereits ein entsprechend gut geeignetes Austauschformat. Welches Format sollte man also verwenden? Im Laufe der Jahre haben sich zwei Formate in besonderer Hinsicht hervorgetan, Klartext und (X)HTML. Waehrend einem (X)HTML um einiges mehr Moeglichkeiten bietet um den Text zu formatieren oder mit zusaetzlichen Informationen anzureichren, bietet TXT als einziges Format wirklich Portabilitaet. Auch wenn es eventuell Probleme mit dem Zeichensatz oder mit bestimmten Steuerzeichen gibt, so kann jedes der mir bisher untergekommenen Systeme reine Textdateien lesen und verarbeiten. Auch bei (X)HTML sieht es aehnlich gut aus, da es fuer die gaengigsten Systeme eine Vielzahl an (X)HTML-Readern/Browsern gibt. Leider werden die Moeglichkeiten von (X)HTML oft missbraucht, um Portabilitaetshuerden aufzubauen (JavaScript, Einbetten von proprietaeren Formaten, Verwenden von expliziten Groessenangaben). Doch sollte man bedenken, dass es irgendwann mal ein neues Format geben wird, dass (X)HTML abloest und nicht kompatibel ist. Dann wuerden langsam aber sicher auch die zum Betrachten und Verarbeiten benoetigten Programme von der Bildflaeche verschwinden, so dass man sich die Daten nur noch in roher, nicht aufbereiteter Form anzeigen lassen koennte. Ein weiteres Format, das sehr gut zum Datenaustausch geeignet ist, aber leider den meisten Anwendern unbekannt ist, ist das Textsatzsystem TeX. John G. Faughnan verweist auf seiner Webseite in einem Artikel zum Thema Word [3] auf eine eMail von Jim S., der LyX als ein Einsteiger freundliches Programm zum Einstieg in die Textverarbeitung mit TeX beziehungsweise LaTeX anpreist: > Lately for large structured documents I have gone to LyX which is a WYSIWYG > (sort of) version of LaTeX. You mentioned that you might be interested in > LaTeX. This is a tool that lets you create documents in LaTeX, but you don't > need a knowledge LaTeX to use it. You can be blissfully ignorant of LaTeX > and still produce documents in it and have it then create nice PDF's. > > LyX has an excellent tutorial which shows why it is NOT a word processor > but rather a tool to create documents. The distinction is important and > once you get used to it the tool is nice to use and most important it DOES > NOT DO ODD THINGS to your text. Mein Standpunkt ist der, dass man (X)HTML einsetzten sollte, falls es keine andere Moeglichkeit gibt. Wenn man es dagegen nicht unbedingt benoetigt, dann sollte man -wie es eigentlich allgemein hin ueblich ist- auf den kleinsten gemeinsamen Nenner zurueckfallen: text/plain. Ein gesonderter Fall ist das Thema eMail. Inzwischen sollte jedem klar sein, dass man auf DOC- oder PDF-Dateien als Mailanhang verzichten sollte. Die meisten Information lassen sich naemlich sehr gut in der eigentlichen Mail selbst wiedergeben. Nur wenn man wirklich unbedingt eine Datei anhaengen muss, sollte man dies auch tun. Als ideales Format fuer einen solchen Anhang wuerde ich (X)HTML waehlen, aber wie gesagt, nur als Anhang, nicht in der Mail selbst. Aber selbst wenn man sich fuer (X)HTML entscheidet, gilt es noch einige Dinge zu beachten. So sollte man von sinnlosen Formatierungen, wie zum Beispiel Hintergrundbilder, unveraenderbare Groessenangaben und so weiter, absehen. [1] http://www.fabiankeil.de/pdf-sucks.html [2] http://www.oreillynet.com/pub/a/mac/2005/10/18/rtf.html [3] http://www.faughnan.com/msword.html [4] http://www.dante.de [5] http://www.lyx.org [6] http://www.ietf.org/rfc/rfc2822.txt [7] http://www.ietf.org/rfc/rfc2045.txt [8] http://www.ietf.org/rfc/rfc2046.txt [9] http://www.ietf.org/rfc/rfc2048.txt [10] http://www.ietf.org/rfc/rfc2049.txt