Automatische HTML-Inhaltsanalyse in Webseiten
Details
Die automatische Analyse von HTML-kodierten Inhalten stellt ein häufiges Problem in der Dokument-Verarbeitung dar. Ein Spezialfall ist die Analyse versionierter Varianten von HTML-Dateien, welche sich z.B. aus der periodischen Sicherung von Web-Seiten ergibt.
Für dieses Buch wurden neue Ansätze zur Extraktion von Inhalten aus HTML-Seiten entwickelt, welche auf der Differenz-Analyse zweier Sicherungspunkte einer HTML-Seite basieren.
Das Buch richtet sich in erster Linie an Leser im akademischen Umfeld, die sich mit neuen Verfahren
zur Verarbeitung von HTML-kodierten Inhalten auseinander setzen möchten, aber auch an Software-Entwickler, in deren Umfeld die automatischen Archivierung und Analyse von Webseiten eine entscheidende Rolle spielt.
Es basiert auf einer 2004 entstandenen Diplomarbeit am Lehrstuhl für Kommunikationssysteme und Rechnernetze der Friedrich-Alexander-Universität in Erlangen.
Autorentext
Jörg Peschke, Dipl.Inf.: Studium der Informatik an der FAU Erlangen-Nürnberg. Seit 2004 Leiter für den Bereich Software Entwicklung bei der Firma etone Intermedia GmbH, Nürnberg.
Klappentext
Die automatische Analyse von HTML-kodierten Inhalten stellt ein häufiges Problem in der Dokument-Verarbeitung dar. Ein Spezialfall ist die Analyse versionierter Varianten von HTML-Dateien, welche sich z.B. aus der periodischen Sicherung von Web-Seiten ergibt. Für dieses Buch wurden neue Ansätze zur Extraktion von Inhalten aus HTML-Seiten entwickelt, welche auf der Differenz-Analyse zweier Sicherungspunkte einer HTML-Seite basieren. Das Buch richtet sich in erster Linie an Leser im akademischen Umfeld, die sich mit neuen Verfahren zur Verarbeitung von HTML-kodierten Inhalten auseinander setzen möchten, aber auch an Software-Entwickler, in deren Umfeld die automatischen Archivierung und Analyse von Webseiten eine entscheidende Rolle spielt. Es basiert auf einer 2004 entstandenen Diplomarbeit am Lehrstuhl für Kommunikationssysteme und Rechnernetze der Friedrich-Alexander-Universität in Erlangen.
Weitere Informationen
- Allgemeine Informationen
- GTIN 09783836494991
- Anzahl Seiten 52
- Genre Internet
- Herausgeber VDM Verlag Dr. Müller e.K.
- Gewicht 98g
- Untertitel Verfahren zur Extraktion von Inhalten basierend auf Web-Seiten-Änderungen
- Größe H226mm x B149mm x T15mm
- Jahr 2013
- EAN 9783836494991
- Format Kartonierter Einband (Kt)
- ISBN 978-3-8364-9499-1
- Titel Automatische HTML-Inhaltsanalyse in Webseiten
- Autor Jörg Peschke
- Sprache Deutsch