672-Stunden-Mehrpersonen-Konferenz mit Mehrkanal-Sprachdatenerfassung

Besprechung

672 Stunden Mehrpersonen-Meetings wurden mit Mehrkanalaufnahmen von Sprachdaten erfasst. Die Inhalte decken Konferenzen mit 3–6 Teilnehmern ab und wurden in verschiedenen Besprechungsräumen gesammelt, wodurch reale Interaktionssituationen in Meetings widerspiegelt werden. Dieser Datensatz enthält Annotationen zu Textinhalten, Sprecheridentität, Geschlecht und Position sowie weitere Eigenschaften, mit hoher Genauigkeit (Satzgenauigkeit ≥97%) und hoher Benutzerfreundlichkeit. Er bietet hochwertige Ressourcen für die Forschung und Anwendung in der Sprach- und Stimmabdruckerkennung und wurde von mehreren KI-Unternehmen validiert: Er hilft, die Robustheit von Modellen in komplexen Meeting-Szenarien zu verbessern. Wir halten uns strikt an Datenschutzgesetze und -vorschriften, um sicherzustellen, dass die Privatsphäre und rechtlichen Rechte der Nutzer bei der Datenerfassung, -speicherung und -nutzung gewahrt bleiben; alle Daten entsprechen den Richtlinien von GDPR, CCPA und PIPL.

Dies ist ein kostenpflichtiger Datensatz für kommerzielle Zwecke, Forschungszwecke und mehr. Lizenzierte, fertige Datensätze helfen, KI-Projekte in Gang zu bringen.

Spezifikationen

Format

1) Entfernung 16-Mikrofon-Array: 48kHz, 16bit, WAV, 16 Kanäle; 2) Entfernung 8-Mikrofon-Array: 48kHz, 16bit, WAV, 8 Kanäle; 3) Entfernung High-Fidelity-Mikrofon: 48kHz, 16bit, WAV, Mono; 4) Nahbereich Handy: 16kHz, 16bit, WAV, Mono;

Aufnahmeumgebung

vier Besprechungsräume unterschiedlicher Größe, jeder Größenbereich umfasst drei verschiedene Räume

Aufnahmeinhalt

Simulation einer echten Besprechungssituation für Gesprächstraining

Geräte

16-Mikrofon-Array, 8-Mikrofon-Array, High-Fidelity-Mikrofon, Handy

Sprache

Mandarin

Kennzeichnungsmerkmale

Textannotation, Sprecheridentitätsannotation, Geschlechtsannotation, Positionsannotation

Anwendungsbereich

Spracherkennung; Stimmabdruckerkennung

Genauigkeit

Satzgenauigkeit nicht weniger als 97%

Empfohlener Datensatz

4 Personen - Chinesisches Hochexpressives Erzählungs-Durchschnittston-Sprachsynthesekorpus

Durchschnittliche Stimmfarbensynthesebibliothek mit hoher Ausdruckskraft von 4 chinesischen Sprechern, aufgenommen von professionellen Synchronsprechern. Für vorgegebene Bücher lesen die Sprecher im Stil von ausdrucksstarken Erzählungen vor.

Hohe Ausdruckskraft Erzählung TTS Chinesisch

4 Personen – Mehrstiliger und mehr emotionaler durchschnittlicher Sprachsynthese-Korpus

Eine Synthesebibliothek mit durchschnittlicher Stimmfarbe von 4 Personen, die verschiedene Stile und Emotionen abdeckt, gesammelt von professionellen Synchronsprechern. Die Stile umfassen die zielstrebige Chefin, den großzügigen Prinzen, die flinke Dienstmagd und die gutherzige Großmutter; die Emotionen umfassen Verachtung, Wut, Freude, Besorgnis, Überraschung, ängstliches Keuchen, kaltes Schnauben (Verachtung), Mitgefühl, Lachen, innere Gedanken, Ernst, Abneigung, Zweifel und Neutralität.

Synthetisches Korpus TTS Mandarin Chinesisch Multi-Stil Multi-Emotion

Interspeech 2025-MLC-SLM Mehrsprachiges Dialog-Sprachwettbewerbsdatensatz

Der Hintergrund des Interspeech2025-MLC-SLM Multilingual Conversation Speech Challenge-Datensatzes ist, dass DataTang im Jahr 2025 den MLC-SLM Multilingual Conversation Speech Challenge veranstaltet hat. Der Datensatz stammt aus fünfzehn firmeneigenen Gesprächs-Sprachdatensätzen von DataTang. Die Daten sind hochpräzise, benutzerfreundlich und speziell darauf ausgelegt, die technischen Engpässe bei der mehrsprachigen Spracherkennung und dem Verständnis längerer Kontexte zu überwinden. Sie erfassen realistische komplexe Interaktionsszenarien wie Sprecherüberlagerungen und spontane Unterbrechungen und bieten reichhaltige Ressourcen für die Forschung und Anwendung im Bereich der Spracherkennung, sodass Modelle in der Lage sind, in realen, vielfältigen Szenarien hervorragende Leistungen zu zeigen. Wir halten streng die Datenschutzgesetze und -bestimmungen ein, um die Privatsphäre und die rechtlichen Interessen der Nutzer während der Datenerhebung, -speicherung und -nutzung zu gewährleisten. Alle Daten entsprechen den Vorschriften von GDPR, CCPA und PIPL.

Workshop-Audiodatensatz MLC-SLM-Datensatz ASR-Spracherkennungsdaten

119 Stunden griechische Sprachaufnahmen für mobile Datenerfassung und Vorlesen

Griechische Sprachdaten_Audioaufnahme (Handy), basierend auf einem vorgegebenen Skript vorgelesen und simuliert aufgenommen. Es gibt insgesamt 95 Sprecherinnen und Sprecher aus Griechenland. Die Aufnahmeumgebung erfolgte in einer ruhigen, hallfreien Umgebung. Der Aufnahmeinhalt ist breit gefächert, jede Person etwa 1,000 Sätze. Die Texte wurden manuell überprüft und weisen eine hohe Genauigkeit auf. Sie bieten reichhaltige Ressourcen für die Forschung und Anwendung im Bereich Spracherkennung und wurden von mehreren KI-Unternehmen validiert: Sie helfen Modellen, in der realen Welt mit Vielfalt exzellente Leistungen zu erzielen. Wir befolgen strikt die Datenschutzgesetze und Datenschutzbestimmungen, um die Privatsphäre und rechtlichen Interessen der Nutzer während der Datenerfassung, -speicherung und -nutzung zu schützen. Alle Daten entsprechen den Vorschriften der DSGVO, CCPA und PIPL.

Griechisches geskriptetes Monolog-Datenset Griechisches Sprach-Datenset Griechisches Audio-Datenset Griechische Sprachdaten Griechische Sprachsynthesedaten

280 Stunden norwegische Sprachaufnahmen für mobile Datenerfassung

Norwegische Sprachdaten_Audioaufnahme (Handy), basierend auf vorgegebenen Skripten vorgelesen und simuliert aufgenommen. Es gibt insgesamt 157 Sprecher, die alle aus Norwegen stammen. Die Aufnahmeumgebung wurden in einer ruhigen, hallfreien Umgebung durchgeführt. Der Aufnahmeinhalt ist umfangreich, jeder Sprecher etwa 1,000 Sätze. Die Texte wurden manuell überprüft und weisen eine hohe Genauigkeit auf, wodurch sie reichhaltige Ressourcen für die Forschung und Anwendung der Spracherkennung bieten. Mehrere KI-Unternehmen haben bestätigt: Dies hilft Modellen, in der Vielfalt der realen Welt hervorragende Leistungen zu erbringen. Wir halten strikt die Datenschutzgesetze und Vorschriften ein, um die Privatsphäre und die rechtlichen Rechte der Benutzer während der Datenerfassung, -speicherung und -nutzung zu schützen. Alle Daten entsprechen GDPR, CCPA und PIPL.

Norwegisches geskriptetes Monolog-Datensatz norwegisches Sprachdatensatz norwegische Sprachsynthesedaten norwegisches NLP-Korpus norwegische Sprachdaten norwegisches Audiodatensatz

581 Stunden gesprochene Griechisch-Daten

Griechische gesprochene Sprachdaten, deren Inhalt allgemeine Bereiche wie soziale Medien, Gespräche und Livestreams abdeckt und echte Interaktionssituationen widerspiegelt. Dieser Datensatz ist mit mehreren Attributen wie Textinhalt und Geschlecht des Sprechers annotiert und wurde von mehreren Rumänen aus verschiedenen Regionen und kulturellen Hintergründen aufgenommen. Er zeichnet sich durch hohe Genauigkeit und Benutzerfreundlichkeit aus und bietet reichhaltige Ressourcen für Forschung und Anwendungen im Bereich der Spracherkennung, wodurch die Modelle in der Lage sind, in realen, vielfältigen Szenarien hervorragende Leistungen zu erbringen. Wir halten uns strikt an Datenschutzgesetze und -vorschriften, um die Privatsphäre und die rechtlichen Rechte der Benutzer während der Datenerhebung, -speicherung und -nutzung zu gewährleisten. Alle Daten entsprechen den Bestimmungen von GDPR, CCPA und PIPL.

griechisches Sprachdatensatz griechische ASR-Trainingsdaten griechisches Konversationskorpus griechische Monologsprache griechisches Spracherkennungsdatensatz Sprache-zu-Text griechische Daten griechisches Sprachdatensatz griechisches Transkriptionsdatensatz

600 Stunden gesprochene norwegische Sprachdaten

Norwegische gesprochene Sprachdaten, deren Inhalt allgemein Bereiche wie Social Media, Dialoge und Livestream abdeckt, spiegeln echte Interaktionssituationen wider. Dieses Datenset enthält Anmerkungen zu Textinhalten, Geschlecht der Sprecher und weiteren Eigenschaften und wurde von mehreren Rumänen aus unterschiedlichen Regionen und Kulturen aufgenommen. Es zeichnet sich durch hohe Genauigkeit und einfache Handhabung aus und bietet reichhaltige Ressourcen für Forschung und Anwendungen im Bereich der Spracherkennung, wodurch Modelle in der Lage sind, eine herausragende Leistung in der Vielfalt der echten Welt zu zeigen. Wir halten uns strikt an Datenschutzgesetze und Vorschriften zum Schutz der Privatsphäre, um die Privatsphäre und die gesetzlichen Rechte der Nutzer während der Datenerhebung, -speicherung und -nutzung zu gewährleisten; alle Daten entsprechen den Richtlinien von GDPR, CCPA und PIPL.

norwegisches Sprachdatensatz norwegische ASR-Trainingsdaten norwegisches Gesprächskorpus norwegische Monologsprache norwegisches Spracherkennungsdatensatz Sprach-zu-Text norwegische Daten norwegisches Sprachdatensatz mehrsprachige Sprachdaten norwegisches Transkriptionsdatensatz

500 Stunden Tamil Sprachaufnahmen für die mobile Datenerfassung

Tamil Sprachdaten-Vorlesen (Handy), basierend auf vorgegebenen Skripten vorgelesen und simuliert aufgenommen, mit reichhaltigem Inhalt. Dieses Datenset kennzeichnet verschiedene Eigenschaften des Textinhalts und wurde von 479 lokalen Personen gesammelt, was eine hohe Genauigkeit gewährleistet. Es bietet reichhaltige Ressourcen für Forschung und Anwendungen im Bereich Spracherkennung. Mehrere KI-Unternehmen haben dies verifiziert: Es hilft dem Modell, in der Vielfalt der realen Welt hervorragende Leistungen zu erbringen. Wir halten uns strikt an Datenschutzgesetze und Privatsphärebestimmungen, um den Schutz der Privatsphäre und der gesetzlichen Rechte der Benutzer während Datenerfassung, Speicherung und Verwendung zu gewährleisten. Alle Daten entsprechen den Vorschriften von GDPR, CCPA und PIPL.

Tamil-Sprachdatensatz Tamil-Audiodatensatz Tamil-Sprachdatensatz Tamil-Monologdatensatz Tamil-Stimmkorpus Tamil-ASR-Daten geskriptete Sprache auf Tamil Smartphone-Tamil-Datensatz Spracherkennungs-Tamil-Datensatz mehrsprachige Sprachdaten

672-Stunden-Mehrpersonen-Konferenz mit Mehrkanal-Sprachdatenerfassung

Besprechung

Projekt-Reifegrad