Bildunterschrift

CHF 51.55
Auf Lager
SKU
KN8S19N5FQE
Stock 1 Verfügbar
Geliefert zwischen Di., 20.01.2026 und Mi., 21.01.2026

Details

Die Beschriftung von Bildern mit Audiodaten hat sich als anspruchsvolle, aber vielversprechende Aufgabe im Bereich des Deep Learning herausgestellt. Dieses Papier schlägt einen neuartigen Ansatz zur Bewältigung dieser Aufgabe durch die Integration von Convolutional Neural Networks (CNNs) für Bild Feature-Extraktion und rekurrente neuronale Netze (RNNs) für sequentielle Audio-Analyse. Konkret nutzen wir vortrainierte CNNs wie VGG, um visuelle Merkmale aus Bildern zu extrahieren, und verwenden Spektrogrammdarstellungen in Verbindung mit RNNs wie LSTM oder GRU, um Audioeingaben zu verarbeiten. Das von uns vorgeschlagene Modell basiert nicht nur auf dem visuellen Inhalt, sondern auch auf den begleitenden Audiohinweisen. Wir evaluieren die Leistung unseres Modells anhand von Benchmark-Datensätzen und demonstrieren seine Effektivität bei der Generierung kohärenter und kontextuell relevanter Bildunterschriften für Bilder mit entsprechenden Audioeingaben. Zusätzlich führen wir Tabellierungsstudien durch, um den Beitrag jeder Modalität zur Gesamtleistung der Beschriftung zu analysieren. Unsere Ergebnisse zeigen, dass die Fusion von visuellen und auditiven Modalitäten die Qualität der Beschriftung im Vergleich zur isolierten Verwendung einer der beiden Modalitäten deutlich verbessert.

Autorentext

Ich bin Frau K. Kanchana und arbeite als Assistenzprofessorin in der Abteilung für Informatik und Ingenieurwesen am Kathir College of Engineering. Ich interessiere mich für das Gebiet des maschinellen Lernens und des Deep Learning.

Weitere Informationen

  • Allgemeine Informationen
    • GTIN 09786207660995
    • Sprache Deutsch
    • Genre Volkswirtschaft
    • Größe H220mm x B150mm x T5mm
    • Jahr 2024
    • EAN 9786207660995
    • Format Kartonierter Einband
    • ISBN 978-620-7-66099-5
    • Veröffentlichung 19.06.2024
    • Titel Bildunterschrift
    • Autor Kanchana Kannaiyan , Meenatchi R
    • Untertitel Bildunterschrift mit Deep Learning
    • Gewicht 113g
    • Herausgeber Verlag Unser Wissen
    • Anzahl Seiten 64

Bewertungen

Schreiben Sie eine Bewertung
Nur registrierte Benutzer können Bewertungen schreiben. Bitte loggen Sie sich ein oder erstellen Sie ein Konto.
Made with ♥ in Switzerland | ©2025 Avento by Gametime AG
Gametime AG | Hohlstrasse 216 | 8004 Zürich | Schweiz | UID: CHE-112.967.470