Anzeige:
Ergebnis 1 bis 6 von 6

Thema: pdf -> ocr?

  1. #1
    Registrierter Benutzer Avatar von SeeksTheMoon
    Registriert seit
    22.02.2002
    Beiträge
    762

    pdf -> ocr?

    Moin!

    Ich möchte über ein paar pdfs eine Texterkennung laufen lassen. Ich habe gocr. gocr will aber Bilder haben und keine pdf-Datei.
    Gibt es eine Möglichkeit, die pdf-Dateien seitenweise zu jpeg zu extrahieren (unter Windows ging das mit dem Acrobat)? Nach dem ocr sollten die Bilder (oder was gocr so produziert) natürlich wieder zu pdfs zu machen sein.

    Oder gibt es noch eine andere Lösung/ein besseres Programm?
    I haven't lost my mind - It's somewhere on a backup-disc

  2. #2
    Registrierter Benutzer
    Registriert seit
    21.06.1999
    Beiträge
    677
    Wenn die PDF's normalen Text enthalten, dann kannst du einfach
    in xpdf Bereiche markieren und in einem Texteditor mit der
    mittleren Maustaste einfügen.

    Mit dem Acrobat Reader geht das glaube ich nicht so gut.

    Ansonsten kannst Du PDF nach PS konvertieren (das kann der
    Acrobat Reader mit irgendeiner Kommandozeilenoption) und
    dann mit ghostscript nach PNG konvertieren. Alle encoded
    Textinformationen gehen dabei natürlich verloren und müssen
    dann mit gocr wieder rekonstruiert werden, so dass dieser
    Ansatz eigentlich völliger Blödsinn ist...

  3. #3
    Registrierter Benutzer
    Registriert seit
    11.07.2000
    Beiträge
    256
    unter Linux gibt es: pdf2ps, pdftops und das allround-talent: imagemagick. im prinzip sollte alle drei dazu in der lage sein, allerdings hab ich es mit letzterem noch nie probiert, weil pdftops irgendwie naheliegender ist... ;-)

    ri

    PS: Sinn machts natuerlich nicht so richtig, es sei denn, du willst gocr testen. Oder was hast du vor??
    os: linux

  4. #4
    Registrierter Benutzer
    Registriert seit
    21.06.1999
    Beiträge
    677
    "pdf2ps" ist auf meinem System nur ein Shell script, das
    ghostscript aufruft. Deswegen klappt pdf2ps nicht immer.

    "acroread -toPostScript" ergibt nach meinen Erfahrungen bessere
    Ergebnisse.

  5. #5
    Registrierter Benutzer
    Registriert seit
    11.07.2000
    Beiträge
    256
    jupp, pdf2ps ist einfach ein gs-script. Im Gegensatz zu pdftops: (man pdftops)

    --- snip ---
    NAME
    pdftops - Portable Document Format (PDF) to PostScript
    converter (version 0.92)

    SYNOPSIS
    pdftops [options] [PDF-file [PS-file]]

    DESCRIPTION
    Pdftops converts Portable Document Format (PDF) files to
    PostScript so they can be printed.

    Pdftops reads the PDF file, PDF-file, and writes a
    PostScript file, PS-file. If PS-file is not specified,
    pdftops converts file.pdf to file.ps (or file.eps with the
    -eps option). If PS-file is ´-', the PostScript is sent
    to stdout.
    (.....)
    BUGS
    No support for TrueType and Type 3 fonts.

    AUTHOR
    The pdftops software and documentation are copyright
    1996-2000 Derek B. Noonburg (derekn@foolabs.com).

    SEE ALSO
    xpdf(1), pdftotext(1), pdfinfo(1), pdftopbm(1), pdfim_
    ages(1)
    http://www.foolabs.com/xpdf/
    --- snip ---

    Deswegen benutze _ich_ pdftops.

    ri
    os: linux

  6. #6
    Registrierter Benutzer Avatar von SeeksTheMoon
    Registriert seit
    22.02.2002
    Beiträge
    762
    das pdf beinhaltet Bilder (es sind scans) und keinen Text, deshalb brauche ich ja ocr um den Text in Bildform in "echten" Text zu konvertieren.
    Ich habe das pdf mal in ein ps konvertiert und kann es auch mit Gimp öffnen.
    Gibts da jetzt einen Trick, mit dem ich alle Seiten (auf einmal) als Bilder fürs ocr speichern kann?
    Ich will das nicht manuell für jede Seite machen, da wächst mir ja ein Bart vor dem Rechner.

    Außerdem soll es nach dem ocr wieder ein pdf werden...


    /*Edit:

    gocr schluckt auch ps Dateien. Allerdings kommt bei mir die Meldung "no spaces found" und gocr erkennt keinen Text...

    */
    Geändert von SeeksTheMoon (13-02-2003 um 14:09 Uhr)
    I haven't lost my mind - It's somewhere on a backup-disc

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •