PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : OpenOffice-Dokumente auslesen



noise_
15-05-2006, 19:19
Hallo,
wie wäre es am geschicktesten den Inhalt eines OpenOffice-Dokumentes auszulesen (in ein einem C-Programm)? Ein solches Dokument ist ja eine Sammlung von XML-Dateien (gezippt). Ich hab schon normalen Text rauslesen können (aus der content.xml mit hilfe der libxml2). Aber bei formatierten Texten, sprich Fett, Kursive, Absätze, Aufzählungspunkte, etc wird das eine Qual.
Hab dann die libxslt entdeckt und auf der OO.org homepage XSL-Dateien für die konvertierung von OOo zu XHTML gefunden.
Diese XLS-Dateien funktionieren jedoch nicht standalone... laut homepage ("The filter will NOT work stand-alone with the new default OpenDocument format, but are still working in OpenOffice.org 2.x").

Also wie würde es sonst noch funktionieren (ggf. mit konvertierung zu html)?

bischi
16-05-2006, 14:32
Das Zeuchs zuerst mittels OpenOffice in ein vernünftiges Format konvertieren (plain-text)?

Ev kann das OOffice auch über Kommandozeile (mittels Option -server ?)

MfG Bischi

noise_
16-05-2006, 17:37
Das Zeuchs zuerst mittels OpenOffice in ein vernünftiges Format konvertieren (plain-text)?

Ev kann das OOffice auch über Kommandozeile (mittels Option -server ?)

MfG Bischi

Das würde auch nicht zum ziel führen... wir wollen ein selbständiges Programm zum auslesen solcher Dokumente schreiben.

bischi
16-05-2006, 17:55
Die Idee ist ja schön und gut: Aber was nützt es ein Programm zu schreiben, wo doch OpenOffice problemlos nach HTML oder plaintext exportieren kann?

MfG Bischi

PS: Selbstverständlich könntest du natürlich den Parser aus dem OO-Quellcode nehmen...

noise_
16-05-2006, 18:32
Die Idee ist ja schön und gut: Aber was nützt es ein Programm zu schreiben, wo doch OpenOffice problemlos nach HTML oder plaintext exportieren kann?

MfG Bischi

PS: Selbstverständlich könntest du natürlich den Parser aus dem OO-Quellcode nehmen...

Um OO-Dokumente ohne OO und ggf. ohne X auslesen zu können.

Ich glaub der OO-Parser ist zu aufgebläht, und die implementation vlt ein wenig kompliziert. Aber ich werd mit den mal genauer anschauen...

undefined
16-05-2006, 19:35
http://phpdocwriter.sourceforge.net/
Allerdings weiss ich nicht wie es mit dem auslesen aussieht.

anda_skoa
16-05-2006, 21:18
Ich glaub der OO-Parser ist zu aufgebläht, und die implementation vlt ein wenig kompliziert. Aber ich werd mit den mal genauer anschauen...

Sonst vielleicht der KOffice OpenDocument Parser?

Ciao,
_

nEox
16-05-2006, 21:43
Hi,

mh dir könnte das hier helfen:
http://www.mrunix.de/forums/showthread.php?t=41954#post192883

Sollte das machen was du brauchst, am Besten du guckst dir die Extension des CMS ez Publish mal an.

http://ez.no/community/contribs/import_export/oasis_open_document_extension
-> Download contribution

*edit*
Sorry, hab das mit dem C-Programm zu spät gelesen... aber vielleicht bringt dir die PHP Lösung dennoch was.

Grüße,
nEox

noise_
27-05-2006, 15:20
Sonst vielleicht der KOffice OpenDocument Parser?

Ciao,
_

hm, ja...
das hier wäre interessant http://www.koffice.org/filters/1.5/kword/html.php
nur wie komm ich an den code...

edit: naja ist in c++ geschrieben