Startseite > Alle Kategorie-Datensätze > Spracherkennungsdatensätze > 155 Stunden-Lippensynchrone multimodale Videodaten

155 Stunden-Lippensynchrone multimodale Videodaten

Lippensprache

Multimodal

Mandarin

Lesen

Mobiltelefon

Videokamera

249 Personen haben an der Aufnahme von Sprachaufnahmen und den dazugehörigen Lippensynchronisationsvideos teilgenommen. Die Aufnahmen wurden mit mehreren Geräten synchronisiert und durch Impulssignale präzise aufeinander abgestimmt, wodurch eine hohe Genauigkeit gewährleistet wurde. Diese Daten können für die Forschung im Bereich multimodaler Lernalgorithmen für Sprach- und Bilddaten verwendet werden. Sie wurden von mehreren KI-Unternehmen validiert und tragen dazu bei, dass Modelle angesichts der Vielfalt der realen Welt hervorragende Leistungen erbringen können. Wir halten uns strikt an die Datenschutzbestimmungen und -vorschriften, um die Privatsphäre und die legitimen Rechte der Nutzer bei der Datenerfassung, -speicherung und -nutzung zu schützen. Alle Daten unterliegen der DSGVO, dem CCPA und dem PIPL.

Dies ist ein kostenpflichtiger Datensatz für kommerzielle Zwecke, Forschungszwecke und mehr. Lizenzierte, fertige Datensätze helfen, KI-Projekte in Gang zu bringen.

Spezifikationen

Formatierung

Videoformat: mp4, 1,280*720; Audioformat: WAV, 16kHz, 16bit, Mono

Aufnahmeumgebung

Ruhiger Innenraum mit Fenstern auf der Sonnenseite, der eine Fahrszene im Freien bei Tageslicht simuliert; Signal-Rausch-Verhältnis 15 bis 20 dB

Aufnahmeszene

Je nach Lichtintensität in verschiedene Haupt- und Nebenszenen unterteilt

Aufgezeichneter Inhalt

Kurze Befehle; gesprochene Sätze

Tontechniker

249 Chinesen, darunter 125 Männer und 124 Frauen

Erfassungsgeräte

Kamera, High-Fidelity-Mikrofon, Soundkarte

Aufnahmewinkel

Gleichzeitige Aufzeichnung von Videos (mit Ton und Bild) aus sechs Blickwinkeln: frontal, einseitige Seitenansicht, von oben, von unten, Seitenansicht von oben, Seitenansicht von unten sowie Audioaufnahmen (ohne Video) aus zwei Entfernungen: nah und fern

Sprache

Mandarin

Anwendungsszenario

Lippenlesen

Genauigkeit

95% Satzgenauigkeit

155 Stunden-Lippensynchrone multimodale Videodaten

Lippensprache Multimodal Mandarin Lesen Mobiltelefon Videokamera

Projekt-Reifegrad

Lippensprache

Multimodal

Mandarin

Lesen

Mobiltelefon

Videokamera