[{"@type":"PropertyValue","name":"Formatierung","value":"Videoformat: mp4, 1,280*720; Audioformat: WAV, 16kHz, 16bit, Mono"},{"@type":"PropertyValue","name":"Aufnahmeumgebung","value":"Ruhiger Innenraum mit Fenstern auf der Sonnenseite, der eine Fahrszene im Freien bei Tageslicht simuliert; Signal-Rausch-Verhältnis 15 bis 20 dB"},{"@type":"PropertyValue","name":"Aufnahmeszene","value":"Je nach Lichtintensität in verschiedene Haupt- und Nebenszenen unterteilt"},{"@type":"PropertyValue","name":"Aufgezeichneter Inhalt","value":"Kurze Befehle; gesprochene Sätze"},{"@type":"PropertyValue","name":"Tontechniker","value":"249 Chinesen, darunter 125 Männer und 124 Frauen"},{"@type":"PropertyValue","name":"Erfassungsgeräte","value":"Kamera, High-Fidelity-Mikrofon, Soundkarte"},{"@type":"PropertyValue","name":"Aufnahmewinkel","value":"Gleichzeitige Aufzeichnung von Videos (mit Ton und Bild) aus sechs Blickwinkeln: frontal, einseitige Seitenansicht, von oben, von unten, Seitenansicht von oben, Seitenansicht von unten sowie Audioaufnahmen (ohne Video) aus zwei Entfernungen: nah und fern"},{"@type":"PropertyValue","name":"Sprache","value":"Mandarin"},{"@type":"PropertyValue","name":"Anwendungsszenario","value":"Lippenlesen"},{"@type":"PropertyValue","name":"Genauigkeit","value":"95% Satzgenauigkeit"}]
{"id":996,"datatype":"1","titleimg":"https://de.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp","type1":"165","type1str":null,"type2":"168","type2str":null,"dataname":"155 Stunden-Lippensynchrone multimodale Videodaten","datazy":[{"title":"Formatierung","desc":"Formatierung","content":"Videoformat: mp4, 1,280*720; Audioformat: WAV, 16kHz, 16bit, Mono"},{"title":"Aufnahmeumgebung","desc":"Aufnahmeumgebung","content":"Ruhiger Innenraum mit Fenstern auf der Sonnenseite, der eine Fahrszene im Freien bei Tageslicht simuliert; Signal-Rausch-Verhältnis 15 bis 20 dB"},{"title":"Aufnahmeszene","desc":"Aufnahmeszene","content":"Je nach Lichtintensität in verschiedene Haupt- und Nebenszenen unterteilt"},{"title":"Aufgezeichneter Inhalt","desc":"Aufgezeichneter Inhalt","content":"Kurze Befehle; gesprochene Sätze"},{"title":"Tontechniker","desc":"Tontechniker","content":"249 Chinesen, darunter 125 Männer und 124 Frauen"},{"title":"Erfassungsgeräte","desc":"Erfassungsgeräte","content":"Kamera, High-Fidelity-Mikrofon, Soundkarte"},{"title":"Aufnahmewinkel","desc":"Aufnahmewinkel","content":"Gleichzeitige Aufzeichnung von Videos (mit Ton und Bild) aus sechs Blickwinkeln: frontal, einseitige Seitenansicht, von oben, von unten, Seitenansicht von oben, Seitenansicht von unten sowie Audioaufnahmen (ohne Video) aus zwei Entfernungen: nah und fern"},{"title":"Sprache","desc":"Sprache","content":"Mandarin"},{"title":"Anwendungsszenario","desc":"Anwendungsszenario","content":"Lippenlesen"},{"title":"Genauigkeit","desc":"Genauigkeit","content":"95% Satzgenauigkeit"}],"datatag":"Lip Language,Multimodal,Mandarin,Reading,Mobile Phone,Video camera","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=CXlfsrjdCwQkhc3n1EVtI%2Fpm8fE%3D","intro":"","size":0,"progress":100,"type":"mp4"},{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=Q6wG5SACXEx%2FwO8OAJz9mcmQ%2BEI%3D","intro":"","size":0,"progress":100,"type":"mp4"},{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=VLqukWwvgzvK1TYD8TaPyAvkwyo%3D","intro":"","size":0,"progress":100,"type":"mp4"}],"officialSummary":"249 Personen haben an der Aufnahme von Sprachaufnahmen und den dazugehörigen Lippensynchronisationsvideos teilgenommen. Die Aufnahmen wurden mit mehreren Geräten synchronisiert und durch Impulssignale präzise aufeinander abgestimmt, wodurch eine hohe Genauigkeit gewährleistet wurde. Diese Daten können für die Forschung im Bereich multimodaler Lernalgorithmen für Sprach- und Bilddaten verwendet werden. Sie wurden von mehreren KI-Unternehmen validiert und tragen dazu bei, dass Modelle angesichts der Vielfalt der realen Welt hervorragende Leistungen erbringen können. Wir halten uns strikt an die Datenschutzbestimmungen und -vorschriften, um die Privatsphäre und die legitimen Rechte der Nutzer bei der Datenerfassung, -speicherung und -nutzung zu schützen. Alle Daten unterliegen der DSGVO, dem CCPA und dem PIPL.","dataexampl":null,"datakeyword":["Lippensprache"," Multimodal"," Mandarin"," Lesen"," Mobiltelefon"," Videokamera"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"speechRec","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP,PT,DE\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"155 Hours – Lip Sync Multimodal Video Data","BGimg":"brightSpot_audio","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2kWsbA%2FAu1%2Bb7WGo37pQLws%2F0tk%3D","intro":"","size":0,"progress":100,"type":"mp4"}]}
https://de.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp
[{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=CXlfsrjdCwQkhc3n1EVtI%2Fpm8fE%3D"},{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=Q6wG5SACXEx%2FwO8OAJz9mcmQ%2BEI%3D"},{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=VLqukWwvgzvK1TYD8TaPyAvkwyo%3D"},{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2kWsbA%2FAu1%2Bb7WGo37pQLws%2F0tk%3D"}]
155 Stunden-Lippensynchrone multimodale Videodaten
Lippensprache
Multimodal
Mandarin
Lesen
Mobiltelefon
Videokamera
249 Personen haben an der Aufnahme von Sprachaufnahmen und den dazugehörigen Lippensynchronisationsvideos teilgenommen. Die Aufnahmen wurden mit mehreren Geräten synchronisiert und durch Impulssignale präzise aufeinander abgestimmt, wodurch eine hohe Genauigkeit gewährleistet wurde. Diese Daten können für die Forschung im Bereich multimodaler Lernalgorithmen für Sprach- und Bilddaten verwendet werden. Sie wurden von mehreren KI-Unternehmen validiert und tragen dazu bei, dass Modelle angesichts der Vielfalt der realen Welt hervorragende Leistungen erbringen können. Wir halten uns strikt an die Datenschutzbestimmungen und -vorschriften, um die Privatsphäre und die legitimen Rechte der Nutzer bei der Datenerfassung, -speicherung und -nutzung zu schützen. Alle Daten unterliegen der DSGVO, dem CCPA und dem PIPL.
Dies ist ein kostenpflichtiger Datensatz für kommerzielle Zwecke, Forschungszwecke und mehr. Lizenzierte, fertige Datensätze helfen, KI-Projekte in Gang zu bringen.
![Spezifikationen]()
Spezifikationen
Formatierung
Videoformat: mp4, 1,280*720; Audioformat: WAV, 16kHz, 16bit, Mono
Aufnahmeumgebung
Ruhiger Innenraum mit Fenstern auf der Sonnenseite, der eine Fahrszene im Freien bei Tageslicht simuliert; Signal-Rausch-Verhältnis 15 bis 20 dB
Aufnahmeszene
Je nach Lichtintensität in verschiedene Haupt- und Nebenszenen unterteilt
Aufgezeichneter Inhalt
Kurze Befehle; gesprochene Sätze
Tontechniker
249 Chinesen, darunter 125 Männer und 124 Frauen
Erfassungsgeräte
Kamera, High-Fidelity-Mikrofon, Soundkarte
Aufnahmewinkel
Gleichzeitige Aufzeichnung von Videos (mit Ton und Bild) aus sechs Blickwinkeln: frontal, einseitige Seitenansicht, von oben, von unten, Seitenansicht von oben, Seitenansicht von unten sowie Audioaufnahmen (ohne Video) aus zwei Entfernungen: nah und fern
Anwendungsszenario
Lippenlesen
Genauigkeit
95% Satzgenauigkeit
![Probe]()
Probe
![Empfohlene Datensätze]()
Empfohlener Datensatz
Nennen Sie uns Ihre besonderen Bedürfnisse
bf16d6d7-adcf-4d2d-819e-6900bfbd3e66