Loading ...
Sorry, an error occurred while loading the content.

46531Re: [Czechlist] pdf from hell

Expand Messages
  • James Kirchner
    Jun 28, 2011
    • 0 Attachment
      Any export from Acrobat is a mess -- especially its attempts at OCR. The worst is that Acrobat doesn't export text with diacritics as Unicode, but as a weird system of ASCII plus formatting tag, which makes the text a mess to view in a CAT tool.

      In really bad situations like this, I save the PDF in Acrobat as a TIFF or some other kind of image (even multiple images), and I perform OCR in OmniPage. That gets far better results than fooling with the actual PDF.

      Jamie

      On Jun 28, 2011, at 6:22 AM, Stephan von Pohl wrote:

      > Nedavno jsem zacal takto komplikovane pdfky prevadet na Word pouzitim
      > nekterou z volne dostupnych aplikaci, napr. http://convertpdftoword.net/.
      >
      > Proste uploadujes pdf a po chvili si muzes stahnout wordovsky soubour,
      > ktery vypada skoro uplne stejny jako pdf, s tim rozdilem ze ho muzes
      > editovat a prelozit. Neni to perfektni, a nikdy jsem nezkoumal co
      > vlastne ten web za to chce (jak se rika anglicky, "there is no such
      > thing as a free lunch"), ale predpokladam, ze sluzba je zdarma s tim, ze
      > predpokladaji ze clovek si pak jejich aplikaci koupi.
      >
      > Steve
      >
      > On 6/28/2011 11:41 AM, Matej Klimes wrote:
      > > Uz jsme to resili:
      > >
      > > Mam pdf, neni to obrazek ale normalni pdf soubor, takze muzu kopirovat
      > > a exportovat (ukladat jako text)... ALE:
      > >
      > > pdf je cesky, vsechno v poradku, diakritika... at se snazim jak se
      > > snazim, jakymkoli zpusobem to prevedu na text, ceske znaky (vsechna
      > > pismena s diakritikou) jsou mimo = znacka procenta, vynechana, atd.
      > >
      > > Zkousel jsem:
      > >
      > > - Save as v Acrobatu, jako txt, doc, rtf, xml, zkratka vsechno, vzdycky
      > > je blbe diakritika, nepomuze ani zmenit pismo nebo jazyk dokumentu..
      > > treba pokud zmenim na Times New Roman, vypada to trochu lip nez s
      > > puvodnim pismem nebo arialem, ale porad je to plne nesmyslu..
      > >
      > > - Ulozit znovu pdf, nepomohlo, stejne
      > >
      > > - Ulozit pdf "vytisknutim" na pdf printeru, zase je to stejne..
      > >
      > > - U vzech variant jsem zkousel OCR, v OCR programu se diakritika
      > > zobrazi korektne, i v nactenem okne, ale po exportu do Wordu je to zase
      > > spatne..
      > >
      > > Nezkousel jsem vytisknout fyzicky a naskenovat, protoze je to dost
      > > dlouhe a hlavne formatovani je slozite, takze po skenovani by OCR slo
      > > dost tezko.
      > >
      > > Neprisel nekdo na nejaky dalsi figl, jak to obejit (nejakym zpusobem
      > > nekde zmenit kodovani, nebo tak neco?) Z nejakeho duvodu se mi ve Wordu
      > > nenabizi pisma s koncovkou CE, mam pocit ze tam jeste nedavno byla...
      > > ale to je asi jen blbost, jinde diakritika funguje..
      > >
      > >
      > > Stane se mi to tak jednou za rok, ze dostanu pdf, ktere je takhle
      > > sverepe.. vzdycky jsem to nejak vyresil, ale tohle zatim odolava..
      > >
      > > Diky za tipy, je to urgent, ale samozrejme nejen ja budu predpokladam
      > > vdecny za nejake objevne reseni, at prijde kdykoli
      > >
      > > Matej
      > >
      > >
      >



      [Non-text portions of this message have been removed]
    • Show all 21 messages in this topic