Loading ...
Sorry, an error occurred while loading the content.

Re: [pro-gen] Karakterset van PRO-GEN GEDCOM-bestand

Expand Messages
  • Joanne Meulenbelt
    Hallo Frans, Je zult bij de GEDCOM-uitvoer bij Geavanceerde Opties een aantal combinaties moeten uitproberen . Om in GEDCOM in het lettertype Ariel de juiste
    Message 1 of 7 , Sep 29, 2005
    • 0 Attachment
      Hallo Frans,

      Je zult bij de GEDCOM-uitvoer bij Geavanceerde Opties een aantal combinaties moeten uitproberen .

      Om in GEDCOM in het lettertype Ariel de juiste karakters te krijgen moet je de opties als volgt instellen:
      (Schrijf wel eerst op papier wat de oorspronkelijke instellingen waren, voordat je ze wijzigt).

      regel 3: "ANSEL i.p.v. ASCII karakterset" op NEE
      regel 11: "ANSI i.p.v. ASCII karakterset" op JA

      Deze twee instellingen bepalen de karakterset van de GEDCOM-uitvoer, misschien zit hier een combinatie bij die werkt.
      Je hebt vier mogelijkheden:
      r3 NEE / r11 NEE
      r3 NEE / r11 JA
      r3 JA / r11 JA
      r3 JA / r11 NEE

      Mvg,
      Joanne

      <Knip>
      Bij de bijzondere karakters, zoals ë, ù, á, enzovoort gaat
      het dus helemaal fout. Ik krijg dan vreemdsoortige tekens of spaties
      te zien.

      Kan iemand een advies geven over de karakter-instelling bij de
      PRO-GEN-uitvoer óf voor de instelling bij PHP GedView.
      <Knip>


      [Non-text portions of this message have been removed]
    • franshuits2000
      Het gesignaleerde probleem is opgelost. Belangstellenden die PHP GedView gebruiken kunnen een beschrijving van de oplossing toegezonden krijgen. (Voor anderen
      Message 2 of 7 , Oct 1, 2005
      • 0 Attachment
        Het gesignaleerde probleem is opgelost. Belangstellenden die PHP
        GedView gebruiken kunnen een beschrijving van de oplossing
        toegezonden krijgen. (Voor anderen is de oplossing niet relevant).

        Ieder die meegedacht heeft van harte bedankt voor de hulp.

        Met vriendelijke groet,

        Frans Huits
        stamboomonderzoeker en webmaster van
        http://www.dit-is-onze-stamboom.nl
      • Erik Groenhuis
        ... In GEDCOM 5.5, de laatste gepubliceerde versie van de standaard (januari 1996), zijn er maar drie charactersets mogelijk: ANSEL, UNICODE en ASCII. Uit de
        Message 3 of 7 , Oct 1, 2005
        • 0 Attachment
          As "franshuits2000" <franshuits@...> wrote:

          > Bij het aanmaken van een Gedcom-uitvoer is een keuze-instelling voor
          > een karakterset.
          > Het programma waarin ik het Gedcom-bestand importeer (PHP GedView)
          > geeft aan dat UTF-8 de standaard is en moet voor bijna alle sites
          > werken.
          >
          In GEDCOM 5.5, de laatste gepubliceerde versie van de standaard
          (januari 1996), zijn er maar drie charactersets mogelijk: ANSEL, UNICODE
          en ASCII. Uit de beschrijving in de standaard (in hoofdstuk 3) blijkt
          dat met UNICODE de codering UTF-16 bedoeld wordt. Daarin worden 16 bits
          (2 bytes) codes gebruikt om ieder character te coderen. Dat dekt de
          63000 meest voorkomende characters. Voor de overige 1 miljoen characters
          worden speciale 16 bit codes gebruikt gevolgd door nog een 16 bits code.

          In UTF-8 worden 8 bits gebruikt in een handige codeer methode waarbij
          het aantal nodige bytes per te coderen character varieert.

          UTF-8 is dus geen standaard codering voor GEDCOM.

          ALs PHP GedView alleen UTF-8 gecodeerde GEDCOM als invoer accepteerd,
          dan is dat een fout van PHP GedView.

          Maar de tijd schrijdt voort. Het programma PAF, waarvan de uitvoer de
          basis vormt van de GEDCOM definitie, schijnt ondertussen ook UTF-8 te
          produceren.

          Merkwaardig is dat de informatie over PHP GedView zwijgt over de ANSEL
          codering (zie http://www.phpgedview.net/faq.php onder "Questions about
          Languages and Character Sets"). Waarschijnlijk bedoelen ze daar ANSEL
          wanneer ze het over ANSI hebben. ANSEL staat namelijk ook bekend als
          ANSI Z39.47-1985. (Niet te verwarren met ASCII, waarbij alleen de codes
          0x0 t/m 0x7f, ofwel 0 t/m 127 gebruikt worden.)

          Het blijkt maar weer eens dat er niet zoiets bestaat als "de GEDCOM
          standaard". Het enige waar rekening gehouden kan worden is hoe de
          uitvoer van PAF er uit ziet.

          De beschreven conversie via Word of in Windows Notepad lijkt de beste
          optie. Exporteer daarbij vanuit Pro-Gen in ANSEL codering.

          --- STOP PRESS ---

          Ik heb net een recentere versie van het document dat
          GEDCOM beschrijft ontdekt: "The Gedcom Standard, Draft Release 5.5.1, 2
          October 1999" (http://www.phpgedview.net/ged551-5.pdf) .

          Daarin wordt naast ANSEL, ASCII en UNICODE, ook expliciet UTF-8 genoemd.

          Het ziet er naar uit dat UTF-8 codering in de GEDCOM uitvoer een plaats
          op het wensenlijstje van Pro-Gen verdient.

          --
          Erik Groenhuis
        • Jean De Keyzer
          ASCII is een 7-bits code. Bij gebruik in een 8 bits omgeving krijgt de eerste bit (de meest linkse) de waarde nul. Het detail kam men zien op
          Message 4 of 7 , Oct 4, 2005
          • 0 Attachment
            ASCII is een 7-bits code. Bij gebruik in een 8 bits omgeving krijgt de
            eerste bit (de meest linkse) de waarde nul. Het detail kam men zien op
            http://www.georgehernandez.com/xComputers/CharacterSets/ASCII.htm
            (er bestaan een aantal 'natiolale' variantes voor het gebruik van een
            beperkt aantal 'west-europese' lettertekens).

            ANSI is een 8 bits code. De eerste 128 tekens stemmen overeen met het ASCII
            tekenset (dus ASCII is een subset van ANSI). Uitleg en een aantal variantes
            vindt men onder andere op:
            http://www.georgehernandez.com/xComputers/CharacterSets/ANSI.htm

            UTF-8 is een unicode codering. Dit betekent dat het woord Unicode op
            zichzelf geen éénduidige aanduiding is voor een bepaalde codering.
            Doorgaans wordt wel de 16 bits codering bedoelt of UTF-16. Daarnaast is er
            ook de 32 bit variante (UTF-32). Voor Unicode zie:
            http://www.georgehernandez.com/xComputers/CharacterSets/Unicode.htm

            Bij codering over meerdere octades (bytes), moet bovendien rekening gehouden
            worden met de volgorde (eerst de linkse en dan de rechtse, of eerst de
            rechtse en dan de linkse (Unicode Low-endian versus unicode big-endian).

            Windows XP gebruikt windows 1252, hetgeen ongeveer overeenstemt met
            iso-8859-1.
            Pro-Gen is nog een Dos programma. Aanbevolen wordt om het characterset
            (code page) 437 te gebruiken. Dit set werd aangepast en de 'line draw'
            tekens met combinaties tussen enkel en dubbele lijn werden vervangen door
            andere tekens om aldus de code page 850 te bekomen. Allicht werken de
            meeste Nederlandrs met Code page 437 (zelfs onder Windows). Vele Belgen
            gebruilken echter code page 850, dit als gevolg van de verstek (by default)
            instellingen van Windows (voor Dos programma's) als het land BE opgegeven
            wordt. Zie: http://www.georgehernandez.com/xComputers/CharacterSets/OEM.htm

            Als er geen bijzondere letters gebruikt worden (andere dan de 26 letters, of
            letters met tekens) gebruikt worden, mag men ASCII opgeven. In het andere
            geval gebruike men Ansi.


            mvg,

            Jean De Keyzer







            ----- Oorspronkelijk bericht -----
            Van: "Erik Groenhuis" <e.groenhuis@...>
            Aan: <pro-gen@yahoogroups.com>
            Verzonden: zondag 2 oktober 2005 0:34
            Onderwerp: Re: [pro-gen] Karakterset van PRO-GEN GEDCOM-bestand


            > As "franshuits2000" <franshuits@...> wrote:
            >
            > > Bij het aanmaken van een Gedcom-uitvoer is een keuze-instelling voor
            > > een karakterset.
            > > Het programma waarin ik het Gedcom-bestand importeer (PHP GedView)
            > > geeft aan dat UTF-8 de standaard is en moet voor bijna alle sites
            > > werken.
            > >
            > In GEDCOM 5.5, de laatste gepubliceerde versie van de standaard
            > (januari 1996), zijn er maar drie charactersets mogelijk: ANSEL, UNICODE
            > en ASCII. Uit de beschrijving in de standaard (in hoofdstuk 3) blijkt
            > dat met UNICODE de codering UTF-16 bedoeld wordt. Daarin worden 16 bits
            > (2 bytes) codes gebruikt om ieder character te coderen. Dat dekt de
            > 63000 meest voorkomende characters. Voor de overige 1 miljoen characters
            > worden speciale 16 bit codes gebruikt gevolgd door nog een 16 bits code.
            >
            > In UTF-8 worden 8 bits gebruikt in een handige codeer methode waarbij
            > het aantal nodige bytes per te coderen character varieert.
            >
            > UTF-8 is dus geen standaard codering voor GEDCOM.
            >
            > ALs PHP GedView alleen UTF-8 gecodeerde GEDCOM als invoer accepteerd,
            > dan is dat een fout van PHP GedView.
            >
            > Maar de tijd schrijdt voort. Het programma PAF, waarvan de uitvoer de
            > basis vormt van de GEDCOM definitie, schijnt ondertussen ook UTF-8 te
            > produceren.
            >
            > Merkwaardig is dat de informatie over PHP GedView zwijgt over de ANSEL
            > codering (zie http://www.phpgedview.net/faq.php onder "Questions about
            > Languages and Character Sets"). Waarschijnlijk bedoelen ze daar ANSEL
            > wanneer ze het over ANSI hebben. ANSEL staat namelijk ook bekend als
            > ANSI Z39.47-1985. (Niet te verwarren met ASCII, waarbij alleen de codes
            > 0x0 t/m 0x7f, ofwel 0 t/m 127 gebruikt worden.)
            >
            > Het blijkt maar weer eens dat er niet zoiets bestaat als "de GEDCOM
            > standaard". Het enige waar rekening gehouden kan worden is hoe de
            > uitvoer van PAF er uit ziet.
            >
            > De beschreven conversie via Word of in Windows Notepad lijkt de beste
            > optie. Exporteer daarbij vanuit Pro-Gen in ANSEL codering.
            >
            > --- STOP PRESS ---
            >
            > Ik heb net een recentere versie van het document dat
            > GEDCOM beschrijft ontdekt: "The Gedcom Standard, Draft Release 5.5.1, 2
            > October 1999" (http://www.phpgedview.net/ged551-5.pdf) .
            >
            > Daarin wordt naast ANSEL, ASCII en UNICODE, ook expliciet UTF-8 genoemd.
            >
            > Het ziet er naar uit dat UTF-8 codering in de GEDCOM uitvoer een plaats
            > op het wensenlijstje van Pro-Gen verdient.
            >
            > --
            > Erik Groenhuis
            >
            >
            >
            > Om uzelf uit te schrijven van deze groep, stuur een mailtje naar:
            > pro-gen-unsubscribe@yahoogroups.com
            >
            >
            > Yahoo! Groups Links
            >
            >
            >
            >
            >
            >
          Your message has been successfully submitted and would be delivered to recipients shortly.