Newsgroups: at.usenet.announce,at.usenet.sonstiges,at.sonstiges From: Ingo Ließegang Subject: 2. RfD Einfuehrung von Regeln fuer Newsgroupnamen Message-ID: <969304817/8215@usenet.backbone.at> Approved: announce@usenet.backbone.at Sender: mike+aua@cluon.priv.at Followup-To: at.usenet.gruppen Date: 18 Sep 2000 21:20:16 +0200 MIME-Version: 1.0 Content-Type: text/plain; charset=iso-8859-1 Content-Transfer-Encoding: 8bit Lines: 331 Path: tahina.priv.at!ictas.tu-graz.ac.at!newshunter!cosy.sbg.ac.at!nudes.cluon.priv.at!backbone.at!hackhack Xref: tahina.priv.at at.usenet.announce:314 at.usenet.sonstiges:178 at.sonstiges:4954 Newsgroups: at.usenet.announce,at.usenet.sonstiges,at.sonstiges Subject: 2. RfD Einfuehrung von Regeln fuer Newsgroupnamen Followup-To: at.usenet.gruppen REQUEST FOR DISCUSSION (RFD) EINLADUNG ZUR DISKUSSION zur Einführung von Regeln für Newsgroupnamen Dies ist eine formelle Einladung zur Diskussion über die Einführung von Regeln für Newsgroupnamen. Dies ist kein Aufruf zur Stimmabgabe (CfV). Eine Abstimmung ist zu diesem Zeitpunkt nicht möglich. Für weitere Angaben zum Ablauf siehe unten. Anmerkungen: Änderungen zum 1. RfD: Modifizierter Wahlvorschlag; es werden mehrere Alternativen zur Länge der Newsgroupnamenskomponenten zur Wahl gestellt, die Proponenten bleiben aber grundsätzlich bei ihrer Empfehlung von 30 Zeichen. Dieser RfD basiert auf dem '1. RfD: Einfuehrung von Regeln fuer Newsgruppennamen' für die de.*-Hierarchie. Der CfV wurde mit deutlicher Mehrheit angenommen, so daß sich die Proponenten auch für diese Diskussion aufgrund der nahezu identischen Thematik und Anwendbarkeit einen Erfolg versprechen. Der Text wurde in großen Teilen übernommen. Message-IDs: RfD: CfV: Ergebnis: Die Proponenten bedanken sich dafür bei ihren Kollegen Bettina Fink, Vera Heinau, Andreas M. Kirchwitz und Heiko Schlichting. Vorschlag: ---------- Einführung von Regeln für Newsgroupnamen. ----------------------------------------- Hintergrund ----------- Mit diesem Wahlverfahren sollen Anforderungen an Newsgroupnamen innerhalb der Hierarchie at.* festgelegt werden. Dazu gehören Zeichenvorrat, maximale Länge eines Newsgroupnamens insgesamt und die maximale Länge einer durch Punkte abgetrennten Komponente eines Newsgroupnamens. Für Lesefaule, die den langen erklärenden Abschnitt nicht lesen wollen: Der eigentliche Vorschlag findet sich am Ende des Artikels. Aber es gibt doch ein "14-Zeichen-Limit"? ----------------------------------------- Bislang wird in at.* eine Begrenzung auf maximal 14 Zeichen für eine Newsgroupkomponente angewendet. Allerdings wurde diese Regelung nie beschlossen, nicht in das at.*-Regelwerk aufgenommen und ist auch nicht Bestandteil von RFC1036, dem derzeit gültigen RFC für NetNews. Dennoch wurde das "14-Zeichen-Limit" in der Vergangenheit von vielen Teilnehmern als bindend angesehen. In den 80er Jahren viele Systeme aufgrund der eingesetzten Technik nicht in der Lage, längere Namen zu verarbeiten. Als die Verbreitung von Systemen, die längere Namen verarbeiten konnten, zunahm, wurde die Begrenzung auf 14 Zeichen in den Big7-Regeln aufgenommen, um die Funktionsfähigkeit der alten Systeme für eine Übergangszeit zu schützen. Eine Anpassung an die internationale Fassung hat für at.* nie stattgefunden. Dies soll hiermit nachgeholt werden. Aber wird nicht durch die RFCs das 14-Zeichen-Limit festgelegt? --------------------------------------------------------------- Der neueste das Usenet beschreibende Text, der zu einem RFC geworden ist, ist RFC1036 aus dem Jahre 1987, der damals den mehr als vier Jahre älteren RFC850 ersetzte. Eine ausdrückliche Längenbegrenzung für Komponenten in Newsgroupnamen kennen weder RFC850 noch RFC1036, allerdings muß dabei berücksichtigt werden, daß in den 80er Jahren technikbedingt viele Systeme längere Namen nicht richtig verarbeiten konnten und daher längere Namen nicht verwendet wurden. Ein Entwurf eines Textes, der RFC1036 ersetzen sollte ("Son-of-1036", s-o-1036), enthielt eine ausdrückliche Beschränkung auf 14 Zeichen: A newsgroup name consists of one or more components, which may be plain components or (except for the first) encoded words. A plain component MUST contain at least one letter, MUST begin with a letter or digit, and MUST not be longer than 14 characters. The first component MUST begin with a letter; subsequent components SHOULD begin with a letter. Newsgroup names MUST not contain uppercase letters, except where required by encodings in encoded words. The sequences "all" and "ctl" MUST not be used as components. Der Text s-o-1036 hat allerdings nie das Entwurfsstadium verlassen, wurde nie zu einem RFC und hat RFC1036 daher auch nicht abgelöst. Trotzdem beschreibt s-o-1036 das heute gebräuchliche Usenet insgesamt besser als RFC1036. In s-o-1036 gibt es bezüglich der Begrenzung von Komponenten in Newsgroupnamen noch folgenden Zusatz: NOTE: The same storage technique is the reason for the 14-character limit. The limit is now largely historical, since most modern systems have much larger limits on the length of a directory entry's name, but many old systems are still in use. Sys- tems with shorter limits also exist, but news software on such systems has had to deal with the problem already, since there are several widespread newsgroups with 14-character components in their names. Implementors are warned that it is intended that the successor to this Draft will increase the 14-character limit, and are urged to fix their software to handle longer names grace- fully (if such fixes are necessary, given the intended domain of application of the particular software). Die letzte Fassung dieses Textes stammt von 1994. Danach wurde an diesem Entwurf eines potentiellen RFC1036-Nachfolgers nicht weiter gearbeitet. In den letzten Jahren wurde mit einer eigens dafür eingerichteten IETF-Working-group ein neuer Versuch unternommen, einen Nachfolger für den veralteten RFC1036 zu erstellen ("USEFOR"). Diese Arbeitsgruppe hat ihre Arbeit noch nicht abgeschlossen, allerdings gibt es schon umfangreiche Entwürfe für Texte, die RFC1036 oder Teile davon ersetzen könnten. In dem letzten bei der IETF eingereichten Entwurf vom Februar 2000 heißt es zu diesem Thema: Whilst there is no longer any technical reason to limit the length of a component (formerly, it was limited to 14 characters) nor to limit the total length of a newsgroup-name, it should be noted that these names are also used in the newsgroups line (7.1.2) where an overall policy limit applies, and moreover excessively long names can be exceedingly inconvenient in practical use. Agencies responsible for individual hierarchies SHOULD therefore, as a matter of policy, set reasonable limits for the length of a component and of a newsgroup- name. In the absence of such explicit policies, the default figures are 30 characters and 71 characters respectively. Als Fazit bleibt festzuhalten, daß es keinen RFC gibt, der ein Limit festsetzt. Der vielbeachtete Entwurf s-o-1036 warnt bereits seit der ersten öffentlichen Fassung aus dem Jahre 1992 davor, daß zukünftig ein in diesem Text erstmals erwähntes 14-Zeichen-Limit aufgehoben werden wird und Softwareautoren dieses berücksichtigen sollten. Folgerichtig kennt der aktuelle USEFOR-Entwurf, der als Ersatz von RFC1036 vorgesehen ist, diese Begrenzung nicht. Sind denn mehr als 14 Zeichen technisch möglich? ------------------------------------------------ Die Begrenzung auf 14 Zeichen entstammt der Frühzeit des Usenet. Damals (und zum Teil auch noch heute) war es üblich, Newsartikel in einzelnen Dateien im Filesystem abzulegen und die Unterteilung in Newsgroups durch Verzeichnisse nachzubilden ("traditional spool"). Desweiteren waren frühe Filesysteme unter Unix, dem weit vorherrschenden Betriebssystem im Usenet, meist nicht in der Lage, Datei- und Verzeichnisnamen zu verarbeiten, die aus mehr als 14 Zeichen bestehen. Es ist nur eine Variante eines sehr alten Betriebssystems bekannt, bei der das zu Störungen der News-Software führt (SCO Unix mit extrem scharf konfiguriertem Security-Kit). Ansonsten behilft sich die Newssoftware auf solchen Systemen damit, die Komponente, die mehr als 14 Zeichen aufweist, auf 14 Zeichen zu kürzen. Dieses Verhalten kann nur dann zu Problemen führen, wenn sich in zwei Gruppennamen die entsprechenden Komponenten erst nach dem 14. Zeichen unterscheiden. Solche Systeme haben heute allerdings nur noch historischen Wert und werden für tatsächliche Newsserver nicht mehr eingesetzt, was auch an anderen Nachteilen der damaligen Betriebs- und Filesysteme (Performance, inode-Festlegung Skalierbarkeit, Sicherheit, Y2K-Probleme usw.) begründet ist. Desweiteren ist heutzutage eine Abbildung von Newsgroups auf Verzeichnisse nicht mehr zwingend und es gibt viele Alternativen dazu. Kann die Software mit längeren Namenskomponenten umgehen? --------------------------------------------------------- Die allgemein eingesetzte Software kann mit längeren Namenskomponenten umgehen. Die Software CNews enthält allerdings ein Zusatzprogramm namens util/namecheck.awk, welches die Komponentenlänge von Newsgroupnamen prüft und bei einer Länge von mehr als 14 Zeichen den Betreiber des Servers mit der Meldung "name component longer than 14 characters" informiert. Dieses Verhalten ist harmlos und mit einer geringfügigen Änderung abschaltbar. Desweiteren gibt es ein von L. Donnerhacke geschriebenes Hilfpsrogramm (docheckgroups), durch das man das INN-eigene Tool ersetzen kann und das erst in einer neuen Version längere Namen verarbeiten kann. Auch dieses Verhalten ist harmlos. Aus anderen Hierarchien, die seit Jahren längere Namenskomponenten verwenden, sind keine (weiteren) Probleme bekannt geworden. Wie sieht es mit anderen Hierarchien aus? ----------------------------------------- Die internationalen Usenet-Hierarchien Big8 haben die Begrenzung auf 14 Zeichen je Komponente vor kurzem aufgehoben. Derzeit gibt es zwar noch keine Gruppe mit einer längeren Komponente, es laufen aber zwei entsprechende CfV-Verfahren. Viele andere sprachenorientierte, regionale oder nationale Hierarchien verwenden längere Namenskompo- nenten, u.a. fr.* (französisch), bln.* (Berlin), uk.* (Großbritannien), dk.* (Dänemark), it.* (Italien), no.* (Norwegen), se.* (Schweden) und japan.*. Warum überhaupt eine Begrenzung? -------------------------------- Es ist sinnvoll, die Länge eines Newsgroupnamens und einer einzelnen Komponente zu begrenzen, um weiterhin die Vielfalt von Newsreadern zu gewährleisten und den Zugang zu Usenet nicht einzuschränken. Es soll verhindert werden, daß Usenet nur noch mit bestimmter Software komfortabel genutzt werden kann. Während in Point&Click-Programmen sehr lange Namen in der Regel nur von geringem Nachteil sind, kann dieses in textorientierer Software zu einem deutlichen Mehraufwand führen, sofern man dort die Namen über die Tastatur eingeben muß. Desweiteren soll verhindert werden, daß durch extreme Newsgroupnamen Probleme bei den Servern, den Nutzern oder bei dem Gruppeneinrichtungsverfahren entstehen. Warum ausgerechnet die Begrenzung auf 30/71 Zeichen? ---------------------------------------------------- Die Längenbegrenzung einer Namenskomponente auf 30 Zeichen und die Begrenzung von Newsgroupnamen auf 71 Zeichen entspricht dem aktuellen Entwurf ("USEFOR") für den Nachfolger von RFC1036. Die englisch- sprachigen Big8-Gruppen begrenzen eine Komponente auf 20 Zeichen, bln.* (Regionalgruppen für Berlin) auf 30 Zeichen. Beim Vergleich mit den Big8 ist auch zu berücksichtigen, daß deutsche Worte oftmals etwas länger sind als englische und Umlaute als zwei Zeichen geschrieben werden müssen. Die Begrenzungen sollten für die heute üblichen Namen in at.* deutlich ausreichend, aber so einschränkend sein, daß es bei der Gesamtlänge der Newsgroups-Zeile in der Regel nicht zu Problemen kommt. Werden Newsgroupnamen jetzt unerträglich lang? ---------------------------------------------- Nicht zwingend. Auch in Zukunft werden Newsgroups nach dem üblichen Verfahren eingerichtet und es ergibt sich gar keine Veränderung, wenn vom Proponenten keine längeren Namen vorgeschlagen werden. Desweiteren besteht natürlich auch weiterhin die Möglichkeit, die Einrichtung einer Gruppe aufgrund des Namens abzulehnen oder alternative Vorschläge in der RfD-Phase zu machen. Wie oben dargestellt, ist auch der aktuelle Zustand nicht vollständig geklärt und eine Berufung auf eine für at.* gültige, niedergeschriebene 14-Zeichen-Regelung nicht möglich. Auch zukünftig sollte man sich um kurze und aussagekräftige Namen bemühen, wenn solche Begriffe existieren ("So kurz wie möglich, aber so aussage- kräftig wie nötig"). Warum ist der Unterstrich kein erlaubtes Zeichen bei den Newsgroupnamen? ------------------------------------------------------------------------ Dieses Zeichen wird in Newsgroupnamen der Hierarchie at.* bislang nicht verwendet. Stattdessen ist es üblich, zur Trennung von Worten das Zeichen "-" (Minus, Bindestrich) zu verwenden. Da es sehr verwirrend wäre, für diesen Zweck einmal "_" und ein anderes Mal "-" zu verwenden (wie dieses bei alt.* zum Teil der Fall ist), wird das unbenutzte Zeichen "_" (Unterstrich) nicht als zulässiges Zeichen für at.* vorgeschlagen. Der Entwurf für den RFC1036 Nachfolger rät von der Verwendung dieses Zeichens ausdrücklich ab. Würde ein Beschluß dieser Begrenzungen in die Regeln aufgenommen? ----------------------------------------------------------------- Eine Veränderung der Einrichtungsregeln ist nicht zwingend erforderlich. Ein mit 2/3-Mehrheit nach den üblichen Regeln gefaßter Beschluß ist auch gültig, wenn er nicht Teil des Einrichtungsregel-Textes wird. Eine Erweiterung des Regelwerkes erscheint in diesem Fall nicht unbedingt notwendig - der Beschluß kann durchaus getrennt archiviert werden. Allerdings sollten ggf. die Texte, die Hilfestellungen zur Einrichtung von Newsgroups in at.* geben, auf die Begrenzungen hinweisen. Abschließend der Vorschlag, der zur Wahl gestellt werden soll: ======================================================================= Für die Hierarchie at.* gelten folgende Regeln für Newsgroupnamen: - Die Maximallänge eines Newsgroupnamens beträgt 71 Zeichen einschließ- lich der Punkte, die einzelne Namenskomponenten voneinander trennen. - Eine einzelne Namenskomponente ist maximal [ ] 35 Zeichen [ ] 30 Zeichen [ ] 25 Zeichen [ ] 14 Zeichen lang. Bei einer Länge von 25, 30 oder 35 Zeichen unterscheidet sie sich von anderen Komponenten in der gleichen Unterhierarchie vor dem 15. Zeichen. - Zulässige Zeichen für Newsgroupnamen sind Kleinbuchstaben, Ziffern sowie die Zeichen Plus und Minus: abcdefghijklmnopqrstuvwxyz01234567890+- Namenskomponenten werden durch einen Punkt voneinander getrennt. - Jede Namenskomponente muß mindestens einen Kleinbuchstaben [a...z] enthalten. Wenn ein von der IETF veröffentlichtes RFC-Dokument (nur Standards Track oder Best Current Practice) für Usenet gegenüber dem letzten gültigen Beschluß für at.* weitergehende Einschränkungen macht, so gelten diese automatisch auch für die Hierarchie at.*. Ist der RFC weniger ein- schränkend als der letzte gültige Beschluß für at.*, so bedarf es eines Änderungsbeschlusses vor der Anwendbarkeit für at.*. Die unterschied- lichen Regeln (Gesamtlänge, Namenslänge für Komponenten, erlaubte Zeichen) sind dabei jeweils einzeln mit dem RFC zu vergleichen. Ablauf: Dies ist eine Einladung zur Diskussion, kein Aufruf zur Stimmabgabe. Alle potentiellen Probleme mit der vorgeschlagenen newsgroup sollten in dieser Phase angeschnitten und geloest werden. Die Diskussionsphase wird mindestens 14 Tage dauern (gerechnet vom Zeitpunkt des Erscheinens des ersten RfDs in at.usenet.announce). Die Diskussion sollte ausschliesslich in at.usenet stattfinden. Am Ende der Diskussionsphase wird ein Aufruf zur Stimmabgabe (CfV) von einem unabhaengigem Wahlleiter in at.usenet.announce gepostet. Dieser RfD versucht sich an die "Richtlinien fuer die Einrichtung und Entfernung von Newsgruppen in at.*" zu halten. Bei Fragen zum Ablauf ist zuerst dieses Dokument zu konsultieren. Es wird regelmaessig in at.usenet gepostet und kann auch unter dem URL eingesehen werden. Verteiler: Dieser RfD wurde in folgende newsgroups gepostet: at.usenet.announce, at.usenet.sonstiges, at.sonstiges Proponenten: Ingo Ließegang Gerhard Wrodnigg