Loading ...
Sorry, an error occurred while loading the content.

Karakterset van PRO-GEN GEDCOM-bestand

Expand Messages
  • franshuits2000
    Het gesignaleerde probleem is opgelost. Belangstellenden die PHP GedView gebruiken kunnen een beschrijving van de oplossing toegezonden krijgen. (Voor anderen
    Message 1 of 7 , Oct 1, 2005
    View Source
    • 0 Attachment
      Het gesignaleerde probleem is opgelost. Belangstellenden die PHP
      GedView gebruiken kunnen een beschrijving van de oplossing
      toegezonden krijgen. (Voor anderen is de oplossing niet relevant).

      Ieder die meegedacht heeft van harte bedankt voor de hulp.

      Met vriendelijke groet,

      Frans Huits
      stamboomonderzoeker en webmaster van
      http://www.dit-is-onze-stamboom.nl
    • Erik Groenhuis
      ... In GEDCOM 5.5, de laatste gepubliceerde versie van de standaard (januari 1996), zijn er maar drie charactersets mogelijk: ANSEL, UNICODE en ASCII. Uit de
      Message 2 of 7 , Oct 1, 2005
      View Source
      • 0 Attachment
        As "franshuits2000" <franshuits@...> wrote:

        > Bij het aanmaken van een Gedcom-uitvoer is een keuze-instelling voor
        > een karakterset.
        > Het programma waarin ik het Gedcom-bestand importeer (PHP GedView)
        > geeft aan dat UTF-8 de standaard is en moet voor bijna alle sites
        > werken.
        >
        In GEDCOM 5.5, de laatste gepubliceerde versie van de standaard
        (januari 1996), zijn er maar drie charactersets mogelijk: ANSEL, UNICODE
        en ASCII. Uit de beschrijving in de standaard (in hoofdstuk 3) blijkt
        dat met UNICODE de codering UTF-16 bedoeld wordt. Daarin worden 16 bits
        (2 bytes) codes gebruikt om ieder character te coderen. Dat dekt de
        63000 meest voorkomende characters. Voor de overige 1 miljoen characters
        worden speciale 16 bit codes gebruikt gevolgd door nog een 16 bits code.

        In UTF-8 worden 8 bits gebruikt in een handige codeer methode waarbij
        het aantal nodige bytes per te coderen character varieert.

        UTF-8 is dus geen standaard codering voor GEDCOM.

        ALs PHP GedView alleen UTF-8 gecodeerde GEDCOM als invoer accepteerd,
        dan is dat een fout van PHP GedView.

        Maar de tijd schrijdt voort. Het programma PAF, waarvan de uitvoer de
        basis vormt van de GEDCOM definitie, schijnt ondertussen ook UTF-8 te
        produceren.

        Merkwaardig is dat de informatie over PHP GedView zwijgt over de ANSEL
        codering (zie http://www.phpgedview.net/faq.php onder "Questions about
        Languages and Character Sets"). Waarschijnlijk bedoelen ze daar ANSEL
        wanneer ze het over ANSI hebben. ANSEL staat namelijk ook bekend als
        ANSI Z39.47-1985. (Niet te verwarren met ASCII, waarbij alleen de codes
        0x0 t/m 0x7f, ofwel 0 t/m 127 gebruikt worden.)

        Het blijkt maar weer eens dat er niet zoiets bestaat als "de GEDCOM
        standaard". Het enige waar rekening gehouden kan worden is hoe de
        uitvoer van PAF er uit ziet.

        De beschreven conversie via Word of in Windows Notepad lijkt de beste
        optie. Exporteer daarbij vanuit Pro-Gen in ANSEL codering.

        --- STOP PRESS ---

        Ik heb net een recentere versie van het document dat
        GEDCOM beschrijft ontdekt: "The Gedcom Standard, Draft Release 5.5.1, 2
        October 1999" (http://www.phpgedview.net/ged551-5.pdf) .

        Daarin wordt naast ANSEL, ASCII en UNICODE, ook expliciet UTF-8 genoemd.

        Het ziet er naar uit dat UTF-8 codering in de GEDCOM uitvoer een plaats
        op het wensenlijstje van Pro-Gen verdient.

        --
        Erik Groenhuis
      • Jean De Keyzer
        ASCII is een 7-bits code. Bij gebruik in een 8 bits omgeving krijgt de eerste bit (de meest linkse) de waarde nul. Het detail kam men zien op
        Message 3 of 7 , Oct 4, 2005
        View Source
        • 0 Attachment
          ASCII is een 7-bits code. Bij gebruik in een 8 bits omgeving krijgt de
          eerste bit (de meest linkse) de waarde nul. Het detail kam men zien op
          http://www.georgehernandez.com/xComputers/CharacterSets/ASCII.htm
          (er bestaan een aantal 'natiolale' variantes voor het gebruik van een
          beperkt aantal 'west-europese' lettertekens).

          ANSI is een 8 bits code. De eerste 128 tekens stemmen overeen met het ASCII
          tekenset (dus ASCII is een subset van ANSI). Uitleg en een aantal variantes
          vindt men onder andere op:
          http://www.georgehernandez.com/xComputers/CharacterSets/ANSI.htm

          UTF-8 is een unicode codering. Dit betekent dat het woord Unicode op
          zichzelf geen éénduidige aanduiding is voor een bepaalde codering.
          Doorgaans wordt wel de 16 bits codering bedoelt of UTF-16. Daarnaast is er
          ook de 32 bit variante (UTF-32). Voor Unicode zie:
          http://www.georgehernandez.com/xComputers/CharacterSets/Unicode.htm

          Bij codering over meerdere octades (bytes), moet bovendien rekening gehouden
          worden met de volgorde (eerst de linkse en dan de rechtse, of eerst de
          rechtse en dan de linkse (Unicode Low-endian versus unicode big-endian).

          Windows XP gebruikt windows 1252, hetgeen ongeveer overeenstemt met
          iso-8859-1.
          Pro-Gen is nog een Dos programma. Aanbevolen wordt om het characterset
          (code page) 437 te gebruiken. Dit set werd aangepast en de 'line draw'
          tekens met combinaties tussen enkel en dubbele lijn werden vervangen door
          andere tekens om aldus de code page 850 te bekomen. Allicht werken de
          meeste Nederlandrs met Code page 437 (zelfs onder Windows). Vele Belgen
          gebruilken echter code page 850, dit als gevolg van de verstek (by default)
          instellingen van Windows (voor Dos programma's) als het land BE opgegeven
          wordt. Zie: http://www.georgehernandez.com/xComputers/CharacterSets/OEM.htm

          Als er geen bijzondere letters gebruikt worden (andere dan de 26 letters, of
          letters met tekens) gebruikt worden, mag men ASCII opgeven. In het andere
          geval gebruike men Ansi.


          mvg,

          Jean De Keyzer







          ----- Oorspronkelijk bericht -----
          Van: "Erik Groenhuis" <e.groenhuis@...>
          Aan: <pro-gen@yahoogroups.com>
          Verzonden: zondag 2 oktober 2005 0:34
          Onderwerp: Re: [pro-gen] Karakterset van PRO-GEN GEDCOM-bestand


          > As "franshuits2000" <franshuits@...> wrote:
          >
          > > Bij het aanmaken van een Gedcom-uitvoer is een keuze-instelling voor
          > > een karakterset.
          > > Het programma waarin ik het Gedcom-bestand importeer (PHP GedView)
          > > geeft aan dat UTF-8 de standaard is en moet voor bijna alle sites
          > > werken.
          > >
          > In GEDCOM 5.5, de laatste gepubliceerde versie van de standaard
          > (januari 1996), zijn er maar drie charactersets mogelijk: ANSEL, UNICODE
          > en ASCII. Uit de beschrijving in de standaard (in hoofdstuk 3) blijkt
          > dat met UNICODE de codering UTF-16 bedoeld wordt. Daarin worden 16 bits
          > (2 bytes) codes gebruikt om ieder character te coderen. Dat dekt de
          > 63000 meest voorkomende characters. Voor de overige 1 miljoen characters
          > worden speciale 16 bit codes gebruikt gevolgd door nog een 16 bits code.
          >
          > In UTF-8 worden 8 bits gebruikt in een handige codeer methode waarbij
          > het aantal nodige bytes per te coderen character varieert.
          >
          > UTF-8 is dus geen standaard codering voor GEDCOM.
          >
          > ALs PHP GedView alleen UTF-8 gecodeerde GEDCOM als invoer accepteerd,
          > dan is dat een fout van PHP GedView.
          >
          > Maar de tijd schrijdt voort. Het programma PAF, waarvan de uitvoer de
          > basis vormt van de GEDCOM definitie, schijnt ondertussen ook UTF-8 te
          > produceren.
          >
          > Merkwaardig is dat de informatie over PHP GedView zwijgt over de ANSEL
          > codering (zie http://www.phpgedview.net/faq.php onder "Questions about
          > Languages and Character Sets"). Waarschijnlijk bedoelen ze daar ANSEL
          > wanneer ze het over ANSI hebben. ANSEL staat namelijk ook bekend als
          > ANSI Z39.47-1985. (Niet te verwarren met ASCII, waarbij alleen de codes
          > 0x0 t/m 0x7f, ofwel 0 t/m 127 gebruikt worden.)
          >
          > Het blijkt maar weer eens dat er niet zoiets bestaat als "de GEDCOM
          > standaard". Het enige waar rekening gehouden kan worden is hoe de
          > uitvoer van PAF er uit ziet.
          >
          > De beschreven conversie via Word of in Windows Notepad lijkt de beste
          > optie. Exporteer daarbij vanuit Pro-Gen in ANSEL codering.
          >
          > --- STOP PRESS ---
          >
          > Ik heb net een recentere versie van het document dat
          > GEDCOM beschrijft ontdekt: "The Gedcom Standard, Draft Release 5.5.1, 2
          > October 1999" (http://www.phpgedview.net/ged551-5.pdf) .
          >
          > Daarin wordt naast ANSEL, ASCII en UNICODE, ook expliciet UTF-8 genoemd.
          >
          > Het ziet er naar uit dat UTF-8 codering in de GEDCOM uitvoer een plaats
          > op het wensenlijstje van Pro-Gen verdient.
          >
          > --
          > Erik Groenhuis
          >
          >
          >
          > Om uzelf uit te schrijven van deze groep, stuur een mailtje naar:
          > pro-gen-unsubscribe@yahoogroups.com
          >
          >
          > Yahoo! Groups Links
          >
          >
          >
          >
          >
          >
        Your message has been successfully submitted and would be delivered to recipients shortly.