![]() ![]() ![]() ![]() |
|||||||||||||||||||||||||||
![]() |
|||||||||||||||||||||||||||
![]()
65th IFLA Council
and General |
Schrift | Zeichenart | USMARC/ UNIMARC | JIS X 0208 7 | Unicode Standard Version 3.0 |
---|---|---|---|---|
Kyrillisch | Buchstaben | 102 | 66 | 237 |
Latein | Zusätzl. nichtakzentuierte Buchstaben | 21 | 0 | 163 |
Arabisch | Buchstaben | 124 | --- | 141 |
Asiatische Ideogramme | Ideogramme | 13,469 (86% of EACC 8) | 6,353 | 27,484 |
Erwarten Sie aber dennoch bitte nicht, daß Unicode und ISO/IEC 10646 für die Transkription nun schlichtweg alles leisten können:
Das Repertoire hat nicht aufgehört zu wachsen: verschiedene Schriften von Minderheitensprachen stehen noch aus, noch mehr Symbole könnten aufgenommen werden, und bedeutende ausgestorbene Schriften, wie Hieroglyphen und Keilschrift, sind noch in Bearbeitung. (Es mag nur wenige Bibliotheken geben, die Papyri und tontäfelchen sammeln und katalogisieren, aber die ausgestorbenen Schriften sind allgemein bedeutsam für die Wissenschaft und speziell für gewisse Museen.
Ein umfassender Font auch nur für den momentanen Unicode Zeichensatz
wäre sehr groß, und es ist praktischer, nur Fonts zu verwenden
für die Schriften, die im Bestand Ihrer Bibliothek vertreten sind.
Sie werden wahrscheinlich nicht das Fehlen einer bestimmten Schrift
bemerken, sondern eher eines bestimmten Zeichens, so z.B. wenn im Titel
eines Mathematikbuches ein Symbol vorkommt, das im Block für mathematische
Operatoren nicht vertreten ist. Gelegentlich werden Sie also immer noch
nicht alles 100%ig transkribieren können, was in der Informationsquelle
steht.
Aber, protestieren Sie jetzt, ich dachte, Unicode hätte alles,
was ich jemals brauchen würde!
Aus mehreren Gründen ist die Antwort Nein:
Zeichen, nicht Zeichenformen bedeutet, daß einige
typographische Aspekte höherer Ebene unbedeutsam sind, wenn der Umfang
des Zeichensatzes festzulegen ist.
Beispiele für typographisches Aspekte sind:
Der ursprüngliche Ansatz zur Darstellung von Text in maschinenlesbarer Form war, jedem unterscheidbaren Zeichen auf dem Papier einen eigenen Code zu geben, obwohl man einige allgemein akzeptierte Fälle vereinheitlichte (z.B. die unterschiedlichen Formen der Kleinbuchstaben a und g).
Zeichensätze für asiatische Sprachen verwendeten manchmal individuelle Codes für unterschiedliche Schreibweisen desselben Symbols.Bibliothekarische Zeichensätze haben nicht selten auch diesen Ansatz des "Codiere was du siehst", abgesehen von dem Gebrauch von nicht-vorrückenden Zeichen zur Codierung akzentuierter lateinischer Buchstaben, wobei ein Buchstabe mit Diakritikum durch zwei Zeichen dargestellt wird. (Kritiker würden sagen, daß der Buchstabe "auseinandergebrochen" wird.)
Der Unicode-Standard führte einen mehrschichtigen Ansatz zur Darstellung
von Text ein. "Das Design einer Zeichensatz-Codierung muß genau diejenigen
Codeelemente bereitstellen, die es Programmierern ermöglichen, Anwendungen
zu entwerfen, die eine Vielzahl von Textoperationen in den gewünschten
Sprachen umfassen können."9
Das hat u.a. zur Folge, daß die codierten Zeichen des Textes
nicht unbedingt 1:1 mit den Zeichen korrespondieren, die das Auge wahrnimmt.
Die einfachste Art der Textdarstellung ist schlichter Text, eine
bloße Folge von Zeichencodes.
Unicode Daten sind schlichter Text. Um aber exakt das hervorbringen
zu können, was gewünscht wrd, müssen manchmal höhrere
Protokolle verwendet werden, wie z.B. eine Identifizierung der Sprache
oder explizite Layout-Anweisungen, damit man "hübschen" Text oder
angereicherten
Text erhält. USMARC und UNIMARC verwenden auch nur schlichten
Text, die Zeichensätze halten aber möglicherweise separate Codierungen
bereit für Dinge, die in Unicode/ISO 10646 vereinheitlicht sind.
Wir müssen daher die folgenden Fragen betrachten:
Exaktheit der Ttranskription ist nötig, um die zu beschreibende
Vorlage eindeutig zu beschreiben und dadurch zuverlässig zugänglich
zu machen. Allerdings transkribieren wir die Angaben der Vorlage nicht
in jedem Fall 100% getreu.
Ein Grund dafür ist, daß die Katalogisierungsregeln oder
ihre Interpretation durch die katalogisierende Institution nicht immer
verlangen, manchmal sogar nicht gestatten, daß bestimmte Daten transkribiert
werden. Hier ein Beispiel: Die hebräische Sprache wird normalerweise
unvokalisiert geschrieben, d.h. ohne Vokalpunkte und andere Aussprachezeichen.
Manchmal sind diese Aussprachehilfen aber in der Vorlage vorhanden; z.B.
wenn der Verfasser oder Verleger anzeigen möchte, daß ein Wort
in ungewöhnlicher Weise ausgesprochen wird. Die Library of Congress
jedoch, in ihren Richtlinien für hebräische Katalogisierung 10,
stützt sich auf AACR-Regel 1.0G, Akzente und andere Diakritika,
und interpretiert diese (wie ich meine, inkorrekt) so, daß sie die
Übernahme von Vokalisierungszeichen ausdrücklich verbietet.
Eine Ausnahme von der Genauigkeit wird notwendig, wenn die typographischen Mittel dafür fehlen; ein Problem, das durch Regel 1.0E ausdrücklich anerkannt wird. Diese Regel bietet als Lösung an, das nicht verfügbare Textelement zu beschreiben. Dies erzeugt ein Problem für das systemübergeifende Suchen - sollte die eingefügte Beschreibung beim Suchen ignoriert werden, sollte man sie als "Joker"-Zeichen behandeln, das mit allem übereinstimmt, oder ...? Unmöglich kann der Endnutzer erraten, welche Umschreibung der katalogisierer gewählt hat.
Es gibt auch ungeschriebene Regeln für Ausnahmen von der Genauigkeit.
Außer bei sehr alten und anderen wertvollen Büchern ignorieren
wir routinemäßig den Schriftschnitt, kalligraphische Besonderheiten
usw., wenn wir Angaben aus der Vorlage übernehmen, ohne solche Eigenheiten
in irgendeiner Weise zu notieren. Das geschieht aus pragmatischen Gründen,
da für die meisten Werke die Unterscheidung der genannten Eigenheiten
nicht gebraucht wird.
[Anm. d. Übers.: Hierher gehören wohl auch Spielereien
auf dem Titelblatt wie seitenverkehrte oder kopfstehende Buchstaben, z.B.
ein umgedrehtes 'R', um dem Titel einen russischen Touch zu geben. Auch
wenn man kyrillische Zeichen hätte, würde man an dieser Stelle
dennoch das korrekte R einsetzen, und keinesfalls würde man den pseudo-kyrillischen
Buchstaben als "Ja" transliterieren.]
Wenn eine ganze Schrift nicht dargestellt werden kann, gibt es verschiedene Möglichkeiten. Wird in lateinischer Schrift katalogisiert, ist die Lösung meistens "Romanisierung": Transliteration oder Transkription des Originaltextes in lateinische Schrift. Wellisch11 fand 1976, daß die "romanization tables" der LC (jetzt ALA/LC) am meisten verbreitet waren, gefolgt von denen der ISO. Ist Russisch oder eine andere kyrillisch geschriebene Sprache die Katalogisierungssprache, wird manchmal der Fremdtext "kyrillisiert". Aber nicht alle Sprachen benutzen ein Alphabet oder eine Silbenschrift, und andere Lösungen sind, die Angaben in die lokale Sprache zu übersetzen, oder einen handgeschriebenen Zettelkatalog zu führen.
Alle diese Alternativen erschweren den Zugriff. Wird mit Romanisierung
oder Kyrillisierung gearbeitet, muß der Nutzer dieses wissen und
das für eine bestimmte Sprache angewendete Schema kennen und dieses
Schema anwenden können, um einen korrekten Suchbegriff bilden zu können.
Ein Nutzer weiß oftmals nichts von der Praxis der
Bibliothek und wendet ein ganz anderes Schema an. Im Falle von Übersetzungen
stimmt womöglich die des Nutzers nicht mit der des Katalogisierers
überein. Zettelkataloge, falls nicht in Buchform veröffentlicht,
können nicht mit Fernzugriff durchsucht werden.
Historisch gesehen war ein Hauptgrund für exakte Transkription der, daß man ein Surrogat für die bibliograpische Einheit erstellen mußte, mit soviel Detailtreue wie möglich. Man hatte keine andere Möglichkeit, die Vorlage in einem Zettel- oder Bandkatalog zu repräsentieren.
Als problematisch für exakte Transkription wird meistens auf Ideogramme hingewiesen, jedoch ist das nicht das einzige. Wenn man Tonträger katalogisiert, was macht man mit dem Namenssymbol, das von dem "früher als Prince bekannten Künstler" benutzt wird?
Ein weiterer Problembereich ist die Mathematik, wo man 2dimensionale Formeln in eine eindimensionale Zeichenfolge bringen muß. Sargent hat beschrieben, wie man mathematische Formeln mit Unicode wiedergeben kann.
Probleme mit Ideogrammen entstehen entweder, weil das Ideogramm noch keinen Code besitzt, oder wenn unterschiedliche Formen des Ideogramms durch nur einen Code repräsentiert werden (wie von Zhang & Zhen festgestellt).12 Zu den nicht verfügbaren Ideogrammen gehören sowohl die wirklich einmaligen Ideogramme (für persönliche Namen) und solche, die in einer bestimmten Umgebung allgemein gebräuchlich sind, aber noch nicht im Vereinheitlichten Han (z.B. einige der offiziell sanktionierten Ideogramme in Hong Kong, oder Ideogramme, die in geographischen Namen vorkommen.) In solcher Situation kann man folgendes tun:
Eine denkbare allgemeine Lösung des Problems der ungenauen Transkription in bibliographischen Daten ist der Gebrauch von Hyperlinks. In einem WWW-Katalog können wir zu einem eingescannten Bild der Informationsquelle verzweigen. Der Nachteil eines gescannten Bildes ist, daß keine Suche möglich ist nach dem Vorkommen einer speziellen Zeichenform, doch eine solche Operation wird wohl eher von einer Volltextsuche erwartet als von der Katalogisierung.
Die Verantwortlichen für die verschiedenen MARC-Formate müssen
mit Katalogisierern zusammenarbeiten, um herauszufinden, ob man das Konzept
des "schlichten Textes" der gegenwärtigen Formate revidieren sollte.
Es geht nicht einfach darum, Unicode/ISO 10646 als zulässigen Zeichensatz
zu erklären (wie man es für UNIMARC 14
gemacht hat) oder die notwendigen Änderungen im Detail zu spezifizieren
(Was sowohl für USMARC15
und UNIMARC im Gange ist).
Das ist ein erster und notwendiger Schritt, aber die Erfordernisse
der Katalogisierung verlangen vielleicht doch etwas jenseits des "schlichten
Textes" der Unicode/ISO/IEC 10646 Normen.
Wenn das so ist, müssen die verschiedenen MARC-Formate eine Verfahrensweise
entwickeln, um das zu ermöglichen.
Zu beantworten ist die Frage: Sind Katalogdaten "schlichter Text", oder
müssen sie etwas mehr sein?
2 Der Unicode-Standard, Version 2.1, besteht aus::
3 International Organization for Standardization. Information Technology -- Universal Multiple-Octet Coded Character Set (UCS), Part 1: Architecture and Basic Multilingual Plane, Geneva, 1993. (ISO/IEC 10646-1:1993).
5 USMARC Specifications for Record Structure, Character Sets, and Exchange Media, prepared by Network Development and MARC Standards Office, 1994 ed., Cataloging Distribution Service, Library of Congress, Washington, D.C, 1994.
USMARC Format for Bibliographic Data, including Guidelines for Content Designation, prepared by Network Development and MARC Standards Office, 1994 ed., Cataloging Distribution Service, Library of Congress, Washington, D.C, 1994 -
USMARC Format for Authority Data, including Guidelines for Content Designation, prepared by Network Development and MARC Standards Office, 1993 ed., Cataloging Distribution Service, Library of Congress, Washington, D.C, 1993 -
For additional USMARC documentation see the Library of Congress' Web site.
6 UNIMARC Manual: Bibliographic Format, B. P. Holt and S. H. McCallum, eds., 2d ed., Saur, Munich, 1994.
UNIMARC/Authorities: Universal Format for Authorities, Saur, Munchen, 1991. (ISBN 3-598-10986-5)
7 Japanese Standards Association. Code of the Japanese Graphic Character Set for Information Interchange. [English translation of JIS X 0208-1983] Tokyo, 1987. (JIS X 0208-1983)
8 American National Standards Institute, East Asian Character Code for Bibliographic Use, Transaction, New Brunswick, NJ, 1990. (ANSI Z39.64-1989).
9 The Unicode Standard, Version 2.0, p. 2-2.
10 Library of Congress. Descriptive Cataloging Division. Hebraica Cataloging: a guide to ALA/LC Romanization and Descriptive Cataloging, prepared by Paul Maher (Descriptive Cataloging Division). Cataloging Distribution Service, Library of Congress, Washington, D.C, 1987.
11 Wellisch, Hans H., "Script Conversion Practices in the World's Libraries," International Library Review 8:55-84 (1976).
12 Zhang, Foster J. and Zeng, Marcia Lei , Multiscript information processing on crossroads: demands for shifting from diverse character code sets to the Unicode Standard in library applications (Paper at 64th IFLA General Conference, 1998) http://www.ifla.org/IV/ifla64/058-86e.htm
13 International Organization for Standardization. Information processing -- Text and office systems -- Standard Generalized Markup Language (SGML), Geneva, 1986. (ISO 8879:1986)
15 Unicode Identification and Encoding in USMARC Records, submitted by MARBI Unicode Encoding and Recognition Technical Issues Task Force, 1998. (MARBI Proposal No: 98-18) http://lcweb.loc.gov/marc/marbi/1998/98-18.html