Loading ...
Sorry, an error occurred while loading the content.
 

Re: [riojug] Ajuda com decodificação de caracteres

Expand Messages
  • Eldio Santos Jr.
    Timothy, o Unicode até onde sei é um padrão único pra tudo (semelhante ao ASCII), mas mudando a máscara de acordo com o alfabeto (o nosso é o
    Message 1 of 8 , Apr 25, 2012
      Timothy, o Unicode até onde sei é um padrão único pra tudo (semelhante ao ASCII), mas mudando a "máscara" de acordo com o alfabeto (o nosso é o Latin-1)......

      André, como você esta obtendo esses valores? Olhando as tabela de caracteres unicode parece que a representação dele usa apenas 2 bytes em hexadecimal... Esse seu parece possuir 3... A única coisa que encontrei próxima foi o \u0098 que é o til em Latin-1 ou início de String [1]...


      [1] http://www.ssec.wisc.edu/~tomw/java/unicode.html 

      Em 25 de abril de 2012 08:59, Timothy High <timothy.high@...> escreveu:
       

      Bom,
      O "\u00..." me parece um código Unicode. Por exemplo, \u0098 é um código invisível (em Javascript, é ctrl, mas em Java não sei). Mas você tem razão que a coisa inteira não parece ter um caráter. Está usando Unicode mesmo? Qual o charset que está usando? Nos métodos em Java, você está colocando o charset como parâmetro?

      Já que pode ser codificação de uma codificação, você tem que ver todo o percurso que o texto faz (desde o banco ou arquivo, até virar um String e até ser transportado em documento HTML e etc.). Se o sistema não mantiver uma certa consistência, pode resultar em valores matigados assim.

      abs,
      Tim.


      2012/4/24 André Ikeda <aikeda86@...>
       

      Pessoal,


      Me deparei com uma situação inédita. Não consigo descobrir como decodificar isso (e outras instâncias do mesmo problema)

      "at\u00982f"

      que corresponde a palavra 

      "até".

      Já tentei os mais variados padrões e nada, estou começando a achar que isso é uma codificação da codificação. Alguém sabe?

      Abs,
      André

      --
      http://about.me/aikeda





      --

      ________________
      Eldio Santos Junior
      Tel.: (21) 8884-3757
      Skype: eldiojr
      Twitter: @eldius
      Blog: eldiosantos.net
      Email/GTalk: eldiosantos@...

    • Eldio Santos Jr.
      Só mais um link que achei interessante sobre a codificação Unicode e que talvez ajude... http://unicode.org/charts/ ... -- ________________ Eldio Santos
      Message 2 of 8 , Apr 25, 2012
        Só mais um link que achei interessante sobre a codificação Unicode e que talvez ajude...

        http://unicode.org/charts/ 

        Em 25 de abril de 2012 11:08, Eldio Santos Jr. <eldiosantos@...> escreveu:
        Timothy, o Unicode até onde sei é um padrão único pra tudo (semelhante ao ASCII), mas mudando a "máscara" de acordo com o alfabeto (o nosso é o Latin-1)......

        André, como você esta obtendo esses valores? Olhando as tabela de caracteres unicode parece que a representação dele usa apenas 2 bytes em hexadecimal... Esse seu parece possuir 3... A única coisa que encontrei próxima foi o \u0098 que é o til em Latin-1 ou início de String [1]...


        [1] http://www.ssec.wisc.edu/~tomw/java/unicode.html 

        Em 25 de abril de 2012 08:59, Timothy High <timothy.high@...> escreveu:

         

        Bom,
        O "\u00..." me parece um código Unicode. Por exemplo, \u0098 é um código invisível (em Javascript, é ctrl, mas em Java não sei). Mas você tem razão que a coisa inteira não parece ter um caráter. Está usando Unicode mesmo? Qual o charset que está usando? Nos métodos em Java, você está colocando o charset como parâmetro?

        Já que pode ser codificação de uma codificação, você tem que ver todo o percurso que o texto faz (desde o banco ou arquivo, até virar um String e até ser transportado em documento HTML e etc.). Se o sistema não mantiver uma certa consistência, pode resultar em valores matigados assim.

        abs,
        Tim.


        2012/4/24 André Ikeda <aikeda86@...>
         

        Pessoal,


        Me deparei com uma situação inédita. Não consigo descobrir como decodificar isso (e outras instâncias do mesmo problema)

        "at\u00982f"

        que corresponde a palavra 

        "até".

        Já tentei os mais variados padrões e nada, estou começando a achar que isso é uma codificação da codificação. Alguém sabe?

        Abs,
        André

        --
        http://about.me/aikeda





        --

        ________________
        Eldio Santos Junior
        Tel.: (21) 8884-3757
        Skype: eldiojr
        Twitter: @eldius
        Blog: eldiosantos.net
        Email/GTalk: eldiosantos@...




        --

        ________________
        Eldio Santos Junior
        Tel.: (21) 8884-3757
        Skype: eldiojr
        Twitter: @eldius
        Blog: eldiosantos.net
        Email/GTalk: eldiosantos@...

      • hugo.tota
        http://local.joelonsoftware.com/wiki/O_M%C3%ADnimo_Absoluto_Que_Todo_Desenvolvedor_De_Software_Absolutamente,_Positivamente_Precisa_Saber_Sobre_Unicode_E_Conju
        Message 3 of 8 , Apr 25, 2012
          http://local.joelonsoftware.com/wiki/O_M%C3%ADnimo_Absoluto_Que_Todo_Desenvolvedor_De_Software_Absolutamente,_Positivamente_Precisa_Saber_Sobre_Unicode_E_Conjuntos_de_Caracteres_(Sem_Desculpas!)

          --- In riojug@yahoogroups.com, "Eldio Santos Jr." <eldiosantos@...> wrote:
          >
          > Só mais um link que achei interessante sobre a codificação Unicode e que
          > talvez ajude...
          >
          > http://unicode.org/charts/
          >
          > Em 25 de abril de 2012 11:08, Eldio Santos Jr. <eldiosantos@...>escreveu:
          >
          > > Timothy, o Unicode até onde sei é um padrão único pra tudo (semelhante ao
          > > ASCII), mas mudando a "máscara" de acordo com o alfabeto (o nosso é o
          > > Latin-1)......
          > >
          > > André, como você esta obtendo esses valores? Olhando as tabela de
          > > caracteres unicode parece que a representação dele usa apenas 2 bytes em
          > > hexadecimal... Esse seu parece possuir 3... A única coisa que encontrei
          > > próxima foi o \u0098 que é o til em Latin-1 ou início de String [1]...
          > >
          > >
          > > [1] http://www.ssec.wisc.edu/~tomw/java/unicode.html
          > >
          > > Em 25 de abril de 2012 08:59, Timothy High <timothy.high@...>escreveu:
          > >
          > > **
          > >>
          > >>
          > >> Bom,
          > >> O "\u00..." me parece um código Unicode. Por exemplo, \u0098 é um código
          > >> invisível (em Javascript, é ctrl, mas em Java não sei). Mas você tem razão
          > >> que a coisa inteira não parece ter um caráter. Está usando Unicode mesmo?
          > >> Qual o charset que está usando? Nos métodos em Java, você está colocando o
          > >> charset como parâmetro?
          > >>
          > >> Já que pode ser codificação de uma codificação, você tem que ver todo o
          > >> percurso que o texto faz (desde o banco ou arquivo, até virar um String e
          > >> até ser transportado em documento HTML e etc.). Se o sistema não mantiver
          > >> uma certa consistência, pode resultar em valores matigados assim.
          > >>
          > >> abs,
          > >> Tim.
          > >>
          > >>
          > >> 2012/4/24 André Ikeda <aikeda86@...>
          > >>
          > >>> **
          > >>>
          > >>>
          > >>> Pessoal,
          > >>>
          > >>> Me deparei com uma situação inédita. Não consigo descobrir como
          > >>> decodificar isso (e outras instâncias do mesmo problema)
          > >>>
          > >>> "at*\u00982f*"
          > >>>
          > >>> que corresponde a palavra
          > >>>
          > >>> "at*é*".
          > >>>
          > >>> Já tentei os mais variados padrões e nada, estou começando a achar que
          > >>> isso é uma codificação da codificação. Alguém sabe?
          > >>>
          > >>> Abs,
          > >>> André
          > >>>
          > >>> --
          > >>> http://about.me/aikeda
          > >>>
          > >>>
          > >>
          > >>
          > >
          > >
          > >
          > > --
          > >
          > > ________________
          > > Eldio Santos Junior
          > > Tel.: (21) 8884-3757
          > > Skype: eldiojr
          > > Twitter: @eldius
          > > Blog: eldiosantos.net
          > > Email/GTalk: eldiosantos@...
          > > Github: https://github.com/Eldius <https://github.com/eldius>
          > > BitBucket: http://bitbucket.eldiosantos.net/
          > >
          > >
          >
          >
          > --
          >
          > ________________
          > Eldio Santos Junior
          > Tel.: (21) 8884-3757
          > Skype: eldiojr
          > Twitter: @eldius
          > Blog: eldiosantos.net
          > Email/GTalk: eldiosantos@...
          > Github: https://github.com/Eldius <https://github.com/eldius>
          > BitBucket: http://bitbucket.eldiosantos.net/
          >
        • André Ikeda
          Obrigado pelas respostas pessoal! Mas acontece que não tenho informação nenhuma do sistema que me retorna esses dados. Este valor está vindo de um serviço
          Message 4 of 8 , Apr 25, 2012
            Obrigado pelas respostas pessoal!

            Mas acontece que não tenho informação nenhuma do sistema que me retorna esses dados. Este valor está vindo de um serviço da prefeitura (RioDatamine). Então, não tenho acesso ao lado de lá (e nem suporte).

            Além disso, está vindo com outros caracteres como \r e \n. Ou seja, a base está "bagunçada".

            Esse site da unicode.org é muito bom! Mas colocando esse hexadecimal no input de busca ele aponta para um conjunto de ideogramas chineses. Ou seja, mais um indicador de que fizeram algo de errado na codificação e armazenamento dessa informação.

            Em 25 de abril de 2012 11:17, Eldio Santos Jr. <eldiosantos@...> escreveu:
             

            Só mais um link que achei interessante sobre a codificação Unicode e que talvez ajude...

            http://unicode.org/charts/ 

            Em 25 de abril de 2012 11:08, Eldio Santos Jr. <eldiosantos@...> escreveu:

            Timothy, o Unicode até onde sei é um padrão único pra tudo (semelhante ao ASCII), mas mudando a "máscara" de acordo com o alfabeto (o nosso é o Latin-1)......

            André, como você esta obtendo esses valores? Olhando as tabela de caracteres unicode parece que a representação dele usa apenas 2 bytes em hexadecimal... Esse seu parece possuir 3... A única coisa que encontrei próxima foi o \u0098 que é o til em Latin-1 ou início de String [1]...


            [1] http://www.ssec.wisc.edu/~tomw/java/unicode.html 

            Em 25 de abril de 2012 08:59, Timothy High <timothy.high@...> escreveu:

             

            Bom,
            O "\u00..." me parece um código Unicode. Por exemplo, \u0098 é um código invisível (em Javascript, é ctrl, mas em Java não sei). Mas você tem razão que a coisa inteira não parece ter um caráter. Está usando Unicode mesmo? Qual o charset que está usando? Nos métodos em Java, você está colocando o charset como parâmetro?

            Já que pode ser codificação de uma codificação, você tem que ver todo o percurso que o texto faz (desde o banco ou arquivo, até virar um String e até ser transportado em documento HTML e etc.). Se o sistema não mantiver uma certa consistência, pode resultar em valores matigados assim.

            abs,
            Tim.


            2012/4/24 André Ikeda <aikeda86@...>
             

            Pessoal,


            Me deparei com uma situação inédita. Não consigo descobrir como decodificar isso (e outras instâncias do mesmo problema)

            "at\u00982f"

            que corresponde a palavra 

            "até".

            Já tentei os mais variados padrões e nada, estou começando a achar que isso é uma codificação da codificação. Alguém sabe?

            Abs,
            André

            --
            http://about.me/aikeda





            --

            ________________
            Eldio Santos Junior
            Tel.: (21) 8884-3757
            Skype: eldiojr
            Twitter: @eldius
            Blog: eldiosantos.net
            Email/GTalk: eldiosantos@...




            --

            ________________
            Eldio Santos Junior
            Tel.: (21) 8884-3757
            Skype: eldiojr
            Twitter: @eldius
            Blog: eldiosantos.net
            Email/GTalk: eldiosantos@...




            --
            http://about.me/aikeda

          • Eldio Santos Jr.
            André, por acaso você sabe em que foi feito o sistema que gerou esses dados? Pode ser que tenham sacaneado a representação dos caracteres como o Timothy
            Message 5 of 8 , Apr 25, 2012
              André, por acaso você sabe em que foi feito o sistema que gerou esses dados? Pode ser que tenham sacaneado a representação dos caracteres como o Timothy comentou... Você esta buscando de uma base de dados, de um arquivo ou esta vindo direto do sistema de origem? Talvez com isso tenha como pesquisar a codificação nativa da linguagem (ou você pode tentar a CP1252, que se não me falha a memória é a codificação padrão Windows, caso o sistema rode em Windows)... Tem como você mandar algum outro exemplo de como a codificação esta sendo alterada (o valor pelo sistema de origem e o valor recebido pelo Java)?



              Em 25 de abril de 2012 17:10, André Ikeda <aikeda86@...> escreveu:
               

              Obrigado pelas respostas pessoal!

              Mas acontece que não tenho informação nenhuma do sistema que me retorna esses dados. Este valor está vindo de um serviço da prefeitura (RioDatamine). Então, não tenho acesso ao lado de lá (e nem suporte).

              Além disso, está vindo com outros caracteres como \r e \n. Ou seja, a base está "bagunçada".

              Esse site da unicode.org é muito bom! Mas colocando esse hexadecimal no input de busca ele aponta para um conjunto de ideogramas chineses. Ou seja, mais um indicador de que fizeram algo de errado na codificação e armazenamento dessa informação.

              Em 25 de abril de 2012 11:17, Eldio Santos Jr. <eldiosantos@...> escreveu:
               

              Só mais um link que achei interessante sobre a codificação Unicode e que talvez ajude...

              http://unicode.org/charts/ 

              Em 25 de abril de 2012 11:08, Eldio Santos Jr. <eldiosantos@...> escreveu:

              Timothy, o Unicode até onde sei é um padrão único pra tudo (semelhante ao ASCII), mas mudando a "máscara" de acordo com o alfabeto (o nosso é o Latin-1)......

              André, como você esta obtendo esses valores? Olhando as tabela de caracteres unicode parece que a representação dele usa apenas 2 bytes em hexadecimal... Esse seu parece possuir 3... A única coisa que encontrei próxima foi o \u0098 que é o til em Latin-1 ou início de String [1]...


              [1] http://www.ssec.wisc.edu/~tomw/java/unicode.html 

              Em 25 de abril de 2012 08:59, Timothy High <timothy.high@...> escreveu:

               

              Bom,
              O "\u00..." me parece um código Unicode. Por exemplo, \u0098 é um código invisível (em Javascript, é ctrl, mas em Java não sei). Mas você tem razão que a coisa inteira não parece ter um caráter. Está usando Unicode mesmo? Qual o charset que está usando? Nos métodos em Java, você está colocando o charset como parâmetro?

              Já que pode ser codificação de uma codificação, você tem que ver todo o percurso que o texto faz (desde o banco ou arquivo, até virar um String e até ser transportado em documento HTML e etc.). Se o sistema não mantiver uma certa consistência, pode resultar em valores matigados assim.

              abs,
              Tim.


              2012/4/24 André Ikeda <aikeda86@...>
               

              Pessoal,


              Me deparei com uma situação inédita. Não consigo descobrir como decodificar isso (e outras instâncias do mesmo problema)

              "at\u00982f"

              que corresponde a palavra 

              "até".

              Já tentei os mais variados padrões e nada, estou começando a achar que isso é uma codificação da codificação. Alguém sabe?

              Abs,
              André

              --
              http://about.me/aikeda





              --

              ________________
              Eldio Santos Junior
              Tel.: (21) 8884-3757
              Skype: eldiojr
              Twitter: @eldius
              Blog: eldiosantos.net
              Email/GTalk: eldiosantos@...




              --

              ________________
              Eldio Santos Junior
              Tel.: (21) 8884-3757
              Skype: eldiojr
              Twitter: @eldius
              Blog: eldiosantos.net
              Email/GTalk: eldiosantos@...




              --
              http://about.me/aikeda




              --

              ________________
              Eldio Santos Junior
              Tel.: (21) 8884-3757
              Skype: eldiojr
              Twitter: @eldius
              Blog: eldiosantos.net
              Email/GTalk: eldiosantos@...

            • André Ikeda
              Então, Eldio. Como dito no último e-mail, não tenho acesso as especificações do sistema de origem. Estou consultando um serviço RESTful da prefeitura.
              Message 6 of 8 , Apr 25, 2012
                Então, Eldio.

                Como dito no último e-mail, não tenho acesso as especificações do sistema de origem. Estou consultando um serviço RESTful da prefeitura. Acredito que vocês devem ter ouvido falar do RioDatamine (riodatamine.com.br) e do RioApps (rioapps.com.br)

                Em 25 de abril de 2012 17:30, Eldio Santos Jr. <eldiosantos@...> escreveu:
                 

                André, por acaso você sabe em que foi feito o sistema que gerou esses dados? Pode ser que tenham sacaneado a representação dos caracteres como o Timothy comentou... Você esta buscando de uma base de dados, de um arquivo ou esta vindo direto do sistema de origem? Talvez com isso tenha como pesquisar a codificação nativa da linguagem (ou você pode tentar a CP1252, que se não me falha a memória é a codificação padrão Windows, caso o sistema rode em Windows)... Tem como você mandar algum outro exemplo de como a codificação esta sendo alterada (o valor pelo sistema de origem e o valor recebido pelo Java)?



                Em 25 de abril de 2012 17:10, André Ikeda <aikeda86@...> escreveu:

                 

                Obrigado pelas respostas pessoal!

                Mas acontece que não tenho informação nenhuma do sistema que me retorna esses dados. Este valor está vindo de um serviço da prefeitura (RioDatamine). Então, não tenho acesso ao lado de lá (e nem suporte).

                Além disso, está vindo com outros caracteres como \r e \n. Ou seja, a base está "bagunçada".

                Esse site da unicode.org é muito bom! Mas colocando esse hexadecimal no input de busca ele aponta para um conjunto de ideogramas chineses. Ou seja, mais um indicador de que fizeram algo de errado na codificação e armazenamento dessa informação.

                Em 25 de abril de 2012 11:17, Eldio Santos Jr. <eldiosantos@...> escreveu:
                 

                Só mais um link que achei interessante sobre a codificação Unicode e que talvez ajude...

                http://unicode.org/charts/ 

                Em 25 de abril de 2012 11:08, Eldio Santos Jr. <eldiosantos@...> escreveu:

                Timothy, o Unicode até onde sei é um padrão único pra tudo (semelhante ao ASCII), mas mudando a "máscara" de acordo com o alfabeto (o nosso é o Latin-1)......

                André, como você esta obtendo esses valores? Olhando as tabela de caracteres unicode parece que a representação dele usa apenas 2 bytes em hexadecimal... Esse seu parece possuir 3... A única coisa que encontrei próxima foi o \u0098 que é o til em Latin-1 ou início de String [1]...


                [1] http://www.ssec.wisc.edu/~tomw/java/unicode.html 

                Em 25 de abril de 2012 08:59, Timothy High <timothy.high@...> escreveu:

                 

                Bom,
                O "\u00..." me parece um código Unicode. Por exemplo, \u0098 é um código invisível (em Javascript, é ctrl, mas em Java não sei). Mas você tem razão que a coisa inteira não parece ter um caráter. Está usando Unicode mesmo? Qual o charset que está usando? Nos métodos em Java, você está colocando o charset como parâmetro?

                Já que pode ser codificação de uma codificação, você tem que ver todo o percurso que o texto faz (desde o banco ou arquivo, até virar um String e até ser transportado em documento HTML e etc.). Se o sistema não mantiver uma certa consistência, pode resultar em valores matigados assim.

                abs,
                Tim.


                2012/4/24 André Ikeda <aikeda86@...>
                 

                Pessoal,


                Me deparei com uma situação inédita. Não consigo descobrir como decodificar isso (e outras instâncias do mesmo problema)

                "at\u00982f"

                que corresponde a palavra 

                "até".

                Já tentei os mais variados padrões e nada, estou começando a achar que isso é uma codificação da codificação. Alguém sabe?

                Abs,
                André

                --
                http://about.me/aikeda





                --

                ________________
                Eldio Santos Junior
                Tel.: (21) 8884-3757
                Skype: eldiojr
                Twitter: @eldius
                Blog: eldiosantos.net
                Email/GTalk: eldiosantos@...




                --

                ________________
                Eldio Santos Junior
                Tel.: (21) 8884-3757
                Skype: eldiojr
                Twitter: @eldius
                Blog: eldiosantos.net
                Email/GTalk: eldiosantos@...




                --
                http://about.me/aikeda




                --

                ________________
                Eldio Santos Junior
                Tel.: (21) 8884-3757
                Skype: eldiojr
                Twitter: @eldius
                Blog: eldiosantos.net
                Email/GTalk: eldiosantos@...




                --
                http://about.me/aikeda

              Your message has been successfully submitted and would be delivered to recipients shortly.