Medusa: Performante Textstatistiken auf grossen Textmengen
Details
Mit dem exponentiellen Wachstum der zur Verfügungstehenden Daten im Internet, wächst auch das daringespeicherte Wissen.Ziel dieser Arbeit ist, verschiedene statistischeVerfahren zur Extraktion von semantischen undsyntaktischen Beziehungen zwischen Wörtern zuvergleichen. Dabei werden neben klassischenKookurrenzen auch die distanzabhängigen Kookkurrenzeneingeführt.Diese Aufgaben setzen große Datenmengen voraus. Umdies auch auf mehrere Millionen Sätze anwenden zukönnen, werden performante Datenstrukturen benötigt.Weiterhin werden einige Heuristiken für dasperformante Speichern von mehreren MilliardenKookkurrenz-Datensätzen vorgestellt und derenAuswirkungen gemessen.
Autorentext
Marco Büchler arbeitet seit Juli 2006 am Lehrstuhl für Automatische Sprachverarbeitung an der Universität Leipzig. Neben performanten Datenstrukturen für statistische Analysen waren linguistische Webservices Teil des Arbeitsschwerpunktes. Aktueller Forschungsgegenstand ist die Stilometrie - einem Teilgebiet der forensischen Linguistik.
Klappentext
Mit dem exponentiellen Wachstum der zur Verfügung stehenden Daten im Internet, wächst auch das darin gespeicherte Wissen. Ziel dieser Arbeit ist, verschiedene statistische Verfahren zur Extraktion von semantischen und syntaktischen Beziehungen zwischen Wörtern zu vergleichen. Dabei werden neben klassischen Kookurrenzen auch die distanzabhängigen Kookkurrenzen eingeführt. Diese Aufgaben setzen große Datenmengen voraus. Um dies auch auf mehrere Millionen Sätze anwenden zu können, werden performante Datenstrukturen benötigt. Weiterhin werden einige Heuristiken für das performante Speichern von mehreren Milliarden Kookkurrenz-Datensätzen vorgestellt und deren Auswirkungen gemessen.
Weitere Informationen
- Allgemeine Informationen
- GTIN 09783639011258
- Sprache Deutsch
- Genre Anwendungs-Software
- Größe H219mm x B153mm x T13mm
- Jahr 2013
- EAN 9783639011258
- Format Kartonierter Einband (Kt)
- ISBN 978-3-639-01125-8
- Titel Medusa: Performante Textstatistiken auf grossen Textmengen
- Autor Marco Büchler
- Untertitel Kookkurrenzanalyse in Theorie und Anwendung
- Gewicht 209g
- Herausgeber VDM Verlag Dr. Müller e.K.
- Anzahl Seiten 128