Loading ...
Sorry, an error occurred while loading the content.

3932Re: [pro-gen] Karakterset van PRO-GEN GEDCOM-bestand

Expand Messages
  • Jean De Keyzer
    Oct 4, 2005
      ASCII is een 7-bits code. Bij gebruik in een 8 bits omgeving krijgt de
      eerste bit (de meest linkse) de waarde nul. Het detail kam men zien op
      http://www.georgehernandez.com/xComputers/CharacterSets/ASCII.htm
      (er bestaan een aantal 'natiolale' variantes voor het gebruik van een
      beperkt aantal 'west-europese' lettertekens).

      ANSI is een 8 bits code. De eerste 128 tekens stemmen overeen met het ASCII
      tekenset (dus ASCII is een subset van ANSI). Uitleg en een aantal variantes
      vindt men onder andere op:
      http://www.georgehernandez.com/xComputers/CharacterSets/ANSI.htm

      UTF-8 is een unicode codering. Dit betekent dat het woord Unicode op
      zichzelf geen éénduidige aanduiding is voor een bepaalde codering.
      Doorgaans wordt wel de 16 bits codering bedoelt of UTF-16. Daarnaast is er
      ook de 32 bit variante (UTF-32). Voor Unicode zie:
      http://www.georgehernandez.com/xComputers/CharacterSets/Unicode.htm

      Bij codering over meerdere octades (bytes), moet bovendien rekening gehouden
      worden met de volgorde (eerst de linkse en dan de rechtse, of eerst de
      rechtse en dan de linkse (Unicode Low-endian versus unicode big-endian).

      Windows XP gebruikt windows 1252, hetgeen ongeveer overeenstemt met
      iso-8859-1.
      Pro-Gen is nog een Dos programma. Aanbevolen wordt om het characterset
      (code page) 437 te gebruiken. Dit set werd aangepast en de 'line draw'
      tekens met combinaties tussen enkel en dubbele lijn werden vervangen door
      andere tekens om aldus de code page 850 te bekomen. Allicht werken de
      meeste Nederlandrs met Code page 437 (zelfs onder Windows). Vele Belgen
      gebruilken echter code page 850, dit als gevolg van de verstek (by default)
      instellingen van Windows (voor Dos programma's) als het land BE opgegeven
      wordt. Zie: http://www.georgehernandez.com/xComputers/CharacterSets/OEM.htm

      Als er geen bijzondere letters gebruikt worden (andere dan de 26 letters, of
      letters met tekens) gebruikt worden, mag men ASCII opgeven. In het andere
      geval gebruike men Ansi.


      mvg,

      Jean De Keyzer







      ----- Oorspronkelijk bericht -----
      Van: "Erik Groenhuis" <e.groenhuis@...>
      Aan: <pro-gen@yahoogroups.com>
      Verzonden: zondag 2 oktober 2005 0:34
      Onderwerp: Re: [pro-gen] Karakterset van PRO-GEN GEDCOM-bestand


      > As "franshuits2000" <franshuits@...> wrote:
      >
      > > Bij het aanmaken van een Gedcom-uitvoer is een keuze-instelling voor
      > > een karakterset.
      > > Het programma waarin ik het Gedcom-bestand importeer (PHP GedView)
      > > geeft aan dat UTF-8 de standaard is en moet voor bijna alle sites
      > > werken.
      > >
      > In GEDCOM 5.5, de laatste gepubliceerde versie van de standaard
      > (januari 1996), zijn er maar drie charactersets mogelijk: ANSEL, UNICODE
      > en ASCII. Uit de beschrijving in de standaard (in hoofdstuk 3) blijkt
      > dat met UNICODE de codering UTF-16 bedoeld wordt. Daarin worden 16 bits
      > (2 bytes) codes gebruikt om ieder character te coderen. Dat dekt de
      > 63000 meest voorkomende characters. Voor de overige 1 miljoen characters
      > worden speciale 16 bit codes gebruikt gevolgd door nog een 16 bits code.
      >
      > In UTF-8 worden 8 bits gebruikt in een handige codeer methode waarbij
      > het aantal nodige bytes per te coderen character varieert.
      >
      > UTF-8 is dus geen standaard codering voor GEDCOM.
      >
      > ALs PHP GedView alleen UTF-8 gecodeerde GEDCOM als invoer accepteerd,
      > dan is dat een fout van PHP GedView.
      >
      > Maar de tijd schrijdt voort. Het programma PAF, waarvan de uitvoer de
      > basis vormt van de GEDCOM definitie, schijnt ondertussen ook UTF-8 te
      > produceren.
      >
      > Merkwaardig is dat de informatie over PHP GedView zwijgt over de ANSEL
      > codering (zie http://www.phpgedview.net/faq.php onder "Questions about
      > Languages and Character Sets"). Waarschijnlijk bedoelen ze daar ANSEL
      > wanneer ze het over ANSI hebben. ANSEL staat namelijk ook bekend als
      > ANSI Z39.47-1985. (Niet te verwarren met ASCII, waarbij alleen de codes
      > 0x0 t/m 0x7f, ofwel 0 t/m 127 gebruikt worden.)
      >
      > Het blijkt maar weer eens dat er niet zoiets bestaat als "de GEDCOM
      > standaard". Het enige waar rekening gehouden kan worden is hoe de
      > uitvoer van PAF er uit ziet.
      >
      > De beschreven conversie via Word of in Windows Notepad lijkt de beste
      > optie. Exporteer daarbij vanuit Pro-Gen in ANSEL codering.
      >
      > --- STOP PRESS ---
      >
      > Ik heb net een recentere versie van het document dat
      > GEDCOM beschrijft ontdekt: "The Gedcom Standard, Draft Release 5.5.1, 2
      > October 1999" (http://www.phpgedview.net/ged551-5.pdf) .
      >
      > Daarin wordt naast ANSEL, ASCII en UNICODE, ook expliciet UTF-8 genoemd.
      >
      > Het ziet er naar uit dat UTF-8 codering in de GEDCOM uitvoer een plaats
      > op het wensenlijstje van Pro-Gen verdient.
      >
      > --
      > Erik Groenhuis
      >
      >
      >
      > Om uzelf uit te schrijven van deze groep, stuur een mailtje naar:
      > pro-gen-unsubscribe@yahoogroups.com
      >
      >
      > Yahoo! Groups Links
      >
      >
      >
      >
      >
      >
    • Show all 7 messages in this topic