21. JANUAR 2019
Menu
Webseite spiegeln und Inhalt nach PDF kopieren
Es dürfen jedoch nicht mehr als 1000 Seiten konvertiert werden da htmldoc
hier
ein Limit hat. htmldoc
übernimmt Links deshalb ist es nur wichtig das der
Index als erste Seite verwendet wird. Die restlichen Seiten sind dann per Link
erreichbar.
wget -nd -mk http://example.com htmldoc --webpage -f example.pdf example_path/toc.html example_path/*.html
Bei manchen Webauftritten ist es aber besser wenn eine Spiegelung vorgenommen wird und danach einzelne Unterverzeichnisse zu einem PDF konvertiert werden. Man umgeht hier auch das 1000 Seiten-Limit allerdings hängt dies stark vom Aufbau der Webseite ab ob diese Möglichkeit überhaupt gegeben ist!
In jedem Falle sollten Links im PDF stichprobenartig kontrolliert werden!
Keywords: linux, bash, script, mirror, wget, htmldoc
Dokumenten-ID: kb/94d9c11c-6e0c-4d43-98bc-007ae9d1d643