PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Suche nach 'ff' in PDF fehlerhaft



Tux
15-06-2011, 10:39
Hallo zusammen,

folgende SW habe ich:

Texmaker v3.02
MiKTeX 2.9
Win7 - 32Bit

Ich habe ein funktionierendes Minimalbeispiel erstellt, was sich ohne Warings und Error übersetzen lässt. Dies wandle ich dann noch in eine PDF-Datei.

Wenn ich nun in der PDF nach dem String ff oder auch Sniffer suche,
dann findet der PDF-Betrachter das Wort oder den String nicht.
Suche ich aber nach ll ss dd oder bb, so lassen sich in der PDF die Strings finden.

Das Problem ist PDF-Reader unabhängig, da ich gerade neben dem Adobe Reader noch einen weiteren portable ausprobiert habe und dort selbiges Verhalten zu bemerken ist.

Hat jemand dafür eine Erklärung?
Was muss ich am Source ändern, damit ich auch ff erfolgreich im PDF findet kann.

Besten Dank im Voraus!
Kind regards,
Tux0r

PS: Ich habe das TeX File an den Beitrag angehanden, aber als txt umbenannt, damit der Upload auch funktionert ;-)

Nachtrag: Ich verwende ISO 8859-1 !

Xenara
15-06-2011, 10:55
Die ff werden nicht als zwei f gesetzt (wie u.a. auch fi), sondern als eigenes Zeichen. Das nennt sich dann Ligatur (http://de.wikipedia.org/wiki/Ligatur_(Typografie)) und verschönert das Schriftbild. Wenn man sich die Buchstaben genau anschaut, sieht man die Ligatur.

Um die Buchstabenkombinationen trotzdem suchbar und kopierbar zu machen, gibt es das Paket "cmap (http://ctan.org/tex-archive/macros/latex/contrib/cmap/)".

Tux
15-06-2011, 11:07
Na da sage ich mal besten Dank!
Hätte ich den Beitrag direkt verfassen sollen, und nicht erst 1h Probleme aussondieren sollen!

Grüße :cool:

tral
15-06-2011, 11:09
Hallo,

dein Beispiel geht bei mir problemlos. Ich kann sowohl nach ff suchen, als auch ff kopieren. Dein angehängtes pdf dagegegen hat die Ligaturen anders kodiert. Ich vermute, dein LaTeX ist ziemlich veraltet?

Christian.

Xenara
15-06-2011, 12:06
Grad nochmal bei mir probiert auf WinXP mit TeXLive2010 mit untenstehendem Code:
Mit TeXnicCenter (vermutlich Windows-Standardencoding) ist das PDF durchsuchbar.
Mit TeXMaker (UTF-8) ist das PDF nicht durchsuchbar.



\documentclass{scrreprt}
\usepackage[ngerman]{babel}
\usepackage[latin1]{inputenc}
\usepackage[T1]{fontenc}

\begin{document}
\subsection{Sniffer fi}
Sniffer wird in der Suche nicht gefunden, wie jedes andere
Wort in dem zweimal aufeinanderfolgend ein F auftritt.

\end{document}

Offensichtlich liegts am Editor, was imho nicht unbedingt für TeXMaker spricht.

Tux
15-06-2011, 12:08
Hallo tral,
also cmap behob das Problem, wie oben erwähnt.

Meine SW: ist folgende:

This is pdfTeX, Version 3.1415926-1.40.11 (MiKTeX 2.9)
This is makeindex, version 2.15 [MiKTeX 2.9] (kpathsea + Thai support).
MiKTeX-BibTeX 2.9.3877 (0.99d) (MiKTeX 2.9)

Texmaker v3.02
Win7 - 32Bit - SP1

Was für SW bzw. SW-Stand nutzt du?

MfG

Tux
15-06-2011, 12:37
Hallo Xenara,

komisch ist es definitiv.
Danke für deine Gegenprobe!
Ich werde die Jungs bei Texmaker mal anschreiben!

mfg

u_fischer
15-06-2011, 13:21
Die Kodierung der tex-Datei ist völlig irrelevant. Das gilt auch für den verwendeten Editor. Die Ursprungsdatei verwendet Type3 (bitmap) Schriften. Als erstes sollte daher mal cm-super installiert werden (oder \usepackage{lmodern} verwendet werden).

Wenn das Problem weiterhin besteht: cmap hilft gelegentlich bei den Standardschriften, versagt aber vielen anderen Schriften, weil es nicht mit virtuellen Schriften umgehen kann. Normalerweise ist \pdfglyphtounicode die bessere Lösung.

http://tex.stackexchange.com/questions/4397/make-ligatures-in-linux-libertine-copyable-and-searchable

Xenara
16-06-2011, 08:56
Update:
Ich habe TeXMaker Unrecht getan. Es liegt nicht am LaTeX-Editor, sondern am Viewer.
Mit TeXnicCenter verwende ich den AdobeReader, mit TeXMaker den eingebauten Viewer und öffne dann mit meinem standardmässigen Foxit.
Mit dem AcrobatReader wird "ff" in den PDFs (mit TeXMaker und TeXnicCenter) gefunden.
Mit Foxit funktioniert es nur, wenn cmap eingebunden ist.

Wobei cmap ganz am Anfang geladen werden muss, sonst gibt es eine Warnung, dass fontenc schon geladen wäre.


\documentclass{scrreprt}
\usepackage{cmap}
\usepackage[ngerman]{babel}
\usepackage[latin1]{inputenc}
\usepackage[T1]{fontenc}

\begin{document}
\subsection{Sniffer fi}
Sniffer fi wird in der Suche nicht gefunden, wie jedes andere
Wort in dem zweimal aufeinanderfolgend ein F auftritt.

\end{document}

Tux
16-06-2011, 14:33
Hallo nocheinmal,
vielen Dank für die detaillierte Beschreibung und Recherche!
Mit besten Grüßen,...
TuX0r