Datum & Ort: 22. August, Dock 14 – Rotterdam Ahoy Kongresszentrum
| Zeitfenster | Aktivität |
|---|---|
| 8:30-9:00 | Abholung des Ausweises |
| 9:00-10:00 | Hauptvortrag 1: Shinji Watanabe Skalierung der mehrsprachigen Spracherkennung: Von wenigen bis zu tausenden Sprachen |
| 10:00-10:30 | Kaffeepause |
| 10:30-11:00 | Zusammenfassung der Herausforderung Preisverleihung |
| 11:00-12:00 | Mündliche Sitzung: 1. Seewos Einreichung bei MLC-SLM: Lehren aus Sprachrationalisierungs-Sprachmodellen, Vortragender: Bo Li 2. Transsion Mehrsprachiges Spracherkennungssystem für die MLC-SLM 2025 Challenge, Sprecher: Xiaoxiao Li 3. Triple X: Ein auf LLM basierendes mehrsprachiges Spracherkennungssystem für die INTERSPEECH2025 MLC-SLM Challenge, Referentin: Miaomiao Gao 4. Das TEA-ASLP-System für mehrsprachige Konversationsspracherkennung und Sprachdiarisierung in der MLC-SLM 2025 Herausforderung, Sprecher: Hongfei Xue |
| 12:00-13:00 | Mittagspause |
| 13:00-14:00 | Hauptvortrag 2: Hung-yi Lee Fortschritte bei Sprachmodellen |
| 14:00-14:30 | Mündliche Sitzung: 1. ILT: Iteratives LoRA-Training durch Fokus–Feedback–Korrektur für mehrsprachige Spracherkennung, Sprecher: Qingliang Meng 2. BUT System für die MLC-SLM Challenge, Sprecher: Alexander Polok |
| 14:30-15:00 | Kaffeepause |
| 15:00-15:30 | Eingeladener Vortrag 1: Ming Li Sequenz-zu-Sequenz neuronale Diarisierung unter Online- und Multi-Modal-Szenarien |
| 15:30-16:00 | Eingeladener Vortrag 2: Shuai Wang Ein Embedding passt nicht für alle: Neuausrichtung der Sprechermodellierung für verschiedene Sprach-Anwendungen |
| 16:00-16:30 | Eingeladener Vortrag 3: Pan Pan Jenseits der Datenknappheit: Entwicklung qualitativ hochwertiger Datenpipelines in unterschiedlichen Trainingsphasen |
| 16:30-17:30 | Poster |
Haben Sie die Live-Sitzungen verpasst? Sie können jetzt die inspirierenden Vorträge des MLC-SLM Challenge Workshops nachholen. Die Wiederholungslinks finden Sie weiter unten.
Shinji Watanabe (Carnegie Mellon University)
Topic: Skalierung der mehrsprachigen Spracherkennung: Von wenigen bis zu Tausenden von Sprachen
Hung-yi Lee (National Taiwan University)
Topic: Vermittlung von LLMs, zuzuhören und zu sprechen
Ming Li (Duke Kunshan University)
Topic: Sequenz-zu-Sequenz-neuronale Diarisierung unter Online- und multimodalen Szenarien
Shuai Wang (Nanjing University)
Topic: Ein einziges Embedding passt nicht allen: Überdenken der Sprecher-Modellierung für verschiedene Sprach Anwendungen
Pan Pan (Director of AI Business, Nexdata)
Topic: Über Datenknappheit hinaus: Engineering von qualitativ hochwertigen Datenpipelines in verschiedenen Trainingsphasen
Folgen Sie uns auf LinkedIn und YouTube für die neuesten Aufzeichnungen und Highlights.
Für Medienanfragen oder Genehmigungsanfragen wenden Sie sich bitte an: [email protected]
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei einer Vielzahl von nachgelagerten Aufgaben gezeigt und dienen als leistungsstarke Basismodelle für Sprachverständnis und -generierung. In jüngster Zeit besteht ein hohes Interesse daran, LLMs auf Sprach- und Audioverarbeitungsaufgaben anzuwenden, einschließlich Automatischer Spracherkennung (ASR), Audiobeschriftung und aufkommender Bereiche wie gesprochene Dialogmodelle.
Die Entwicklung robuster, auf LLM basierender gesprochener Dialogmodelle hängt jedoch stark von realen Konversationsdaten ab, die die Komplexität menschlicher Kommunikation widerspiegeln, einschließlich natürlicher Pausen, Unterbrechungen, Überlappungen von Sprechern und verschiedener Gesprächsstile. Der Mangel an solchen Daten, insbesondere in mehrsprachigen Kontexten, stellt eine erhebliche Herausforderung für den Fortschritt in diesem Bereich dar.
Die Bedeutung von realer gesprochener Konversation geht über den technologischen Fortschritt hinaus – sie ist entscheidend für die Entwicklung von KI-Systemen, die in der Lage sind, in mehrsprachigen, dynamischen und kontextreichen Umgebungen natürlich zu verstehen und zu reagieren. Dies ist besonders wichtig für Systeme der nächsten Generation der Mensch-KI-Interaktion, bei denen gesprochener Dialog als primäres Kommunikationsmittel dient.
Daher zielt diese Herausforderung und der Workshop darauf ab, die Lücke zu schließen, indem sie die Herausforderung des Aufbaus mehrsprachiger konversationaler Sprachmodelle (MLC-SLM) veranstalten und einen realen mehrsprachigen Datensatz für gesprochene Konversationen veröffentlichen.
Die Herausforderung besteht aus zwei Aufgaben, von denen beide von den Teilnehmern verlangen, die Entwicklung von Sprachmodellen (SLMs) zu erforschen:
Aufgabe I: Multilinguale Konversations-Spracherkennung
Ziel: Entwicklung eines multilingualen ASR-Modells auf Basis von LLM.
Den Teilnehmern werden für jede Unterhaltung Orakel-Segmentierungen und Sprecherkennzeichnungen bereitgestellt.
Diese Aufgabe konzentriert sich auf die Optimierung der Erkennungsgenauigkeit in einem multilingualen Gesprächsumfeld.
Aufgabe II: Mehrsprachige Konversations-Spracherkennung und -Diarisierung
Ziel: Entwicklung eines Systems sowohl für die Sprecherdiarisierung (Identifizierung, wer wann spricht) als auch für die Spracherkennung (Transkription von Sprache in Text).
Während der Bewertung werden keine vorherigen oder orakelbasierten Informationen bereitgestellt (z. B. keine vorsegmentierten Äußerungen oder Sprecherkennungen).
Sowohl pipeline-basierte als auch End-to-End-Systeme werden empfohlen, um Flexibilität im Systemdesign und in der Implementierung zu gewährleisten.
Für Aufgabe I wird die Systemleistung anhand der Wortfehlerrate (WER) oder der Zeichenfehlerrate (CER) über verschiedene Sprachen hinweg bewertet.
Für Aufgabe II wird die Leistung basierend auf der Diarisierungsfehlerrate (DER) und der kombinierten minimalen Permutations-WER oder CER, bezeichnet als tcpWER oder tcpCER, beurteilt. Die DER wird verwendet, um die beste Sprecher-Identifikationspermutation zwischen der Oracle-Annotierung und den Diarisierungsergebnissen zu bestimmen. Anschließend werden die Erkennungsergebnisse und Referenzen, die zum selben Sprecher innerhalb einer Aufnahme gehören, zusammengeführt, um die tcpWER oder tcpCER zu berechnen. Alle Einreichungen werden nach der tcpWER oder tcpCER eingestuft.
10. März 2025: Registrierung eröffnet15.
März 2025: Veröffentlichung der Trainingsdaten1.
April 2025: Veröffentlichung des Entwicklungssets und des Basissystems15.
Mai 2025: Veröffentlichung des Evaluierungssets und Öffnung der Bestenliste30.
Mai 2025: Einfrieren der Bestenliste und Öffnung des Einreichungsportals für Paper (CMT-System)15.
Juni 2025: Einreichungsfrist für Paper1.
Juli 2025: Benachrichtigung über Annahme22.
August 2025: Workshop-Termin
Der Trainingssatz (Train) umfasst etwa 11 Sprachen: Englisch (en), Französisch (fr), Deutsch (de), Italienisch (it), Portugiesisch (pt), Spanisch (es), Japanisch (jp), Koreanisch (ko), Russisch (ru), Thai (th), Vietnamesisch (vi).
Each recording consists of two-speaker conversational speech on randomly assigned topics.
Conversations are natural and fluent, with speakers engaging in meaningful dialogues on each topic.
Recorded in quiet indoor environments using devices such as iPhones.
Each recording will provide the oracle segmentation and speaker label for the development of speech recognition and speaker diarization systems.
Both Task I and Task II share the same training set.
The English dataset comprises approximately 500 hours of recordings from various regions, including British, American, Australian, Indian, and Philippine English. Other languages contribute around 100 hours each, resulting in a total of approximately 1500 hours of multilingual conversational speech data.
Dieser Datensatz wurde entwickelt, um eine reichhaltige Ressource für das Training und die Bewertung multilingualer konversationaler Sprachmodelle (MLC-SLM) bereitzustellen und die Herausforderungen der sprachlichen Vielfalt, der Sprecherdiversität und des kontextuellen Verständnisses zu adressieren.
| Sprache | Datenvolumen (h) | Sprachklassifikation | Abtastrate | Beschreibung |
|---|---|---|---|---|
| Englisch | 500 | Deckt 5 verschiedene englische Akzente ab, Sprecher aus den Vereinigten Staaten, dem Vereinigten Königreich, den Philippinen, Australien und Indien. Vielfältige Geschlechter und Altersgruppen, natürlicher Gesprächsstil. Die Wortfehlerrate liegt unter 2%. | ||
| 100 | Amerikanisches Englisch | 16K | ||
| 100 | Britisches Englisch | 16K | ||
| 100 | Philippinen-Englisch | 16K | ||
| 100 | Australisches Englisch | 16K | ||
| 100 | Indisches Englisch | 16K | ||
| Französisch | 100 | 16k | Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere vertraute Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2%. | |
| Deutsch | 100 | 16k | Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere vertraute Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2%. | |
| Italienisch | 100 | 16k | Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere vertraute Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2%. | |
| Japanisch | 100 | 16k | Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere bekannte Themen aus und führt für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Satzfehlerrate liegt unter 5%. | |
| Koreanisch | 100 | 16k | Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichnende mehrere vertraute Themen aus und nimmt für jedes ein flüssiges und natürliches Gespräch auf. Die Sprecher sollten unterschiedliche Geschlechter und Altersgruppen haben. Die Satzfehlerquote liegt unter 5 %. | |
| Portugiesisch (Europa) | 100 | 16k | Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere bekannte Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2%. | |
| Russisch | 100 | 16k | Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere bekannte Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2%. | |
| Spanisch (Spanien) | 100 | 16k | Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere bekannte Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2%. | |
| Thailändisch | 100 | 16k | Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere vertraute Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 3%. | |
| Vietnamesisch | 100 | 16k | Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichnende mehrere vertraute Themen aus und nimmt für jedes ein flüssiges und natürliches Gespräch auf. Die Sprecher sollten unterschiedliche Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2 %. |
Der Entwicklungssatz (Dev) hat die gleichen Bedingungen wie der Trainingssatz, enthält jedoch ungefähr 4 Stunden an Aufzeichnungen für jede Sprache. Sowohl Aufgabe I als auch Aufgabe II verwenden denselben Entwicklungssatz.
Für jede Aufgabe werden unterschiedliche Evaluierungssets verwendet, die als Eval_1 und Eval_2 bezeichnet werden. Konkret umfasst Eval_1 Oracle-Zeitstempel und Sprecherkennzeichnungen, die mithilfe von WER/CER bewertet werden. Eval_2 stellt weder Zeitstempel noch Sprecherkennzeichnungen bereit, sodass ein Sprecherdiarisierungssystem (SD) erforderlich ist, um die längeren Aufnahmen vor der Erkennung zu segmentieren.Teilnehmer können auf den Datensatz zugreifen, indem sie die Vereinbarung zur Datennutzung unterzeichnen und das Registrierungsformular ausfüllen. Nach der Einreichung wird der Link zum Herunterladen der Daten an Ihre E-Mail gesendet.
Sie können über den unten bereitgestellten Link auf den Open-Source-Bewertungsdatensatz zugreifen und ihn herunterladen. Bitte beachten Sie, dass vor dem Download ein kurzes Registrierungsformular ausgefüllt werden muss. Sobald Ihre Anmeldung genehmigt wurde, wird der Downloadlink für den Datensatz innerhalb von 7 Tagen per E-Mail bereitgestellt.
Wenn Sie dieses Datenset in Ihrer persönlichen oder akademischen Forschung verwenden, geben Sie bitte die Quelle entsprechend an.
[Anmeldeformular- Für gesponsertes Datenset bewerben - Evaluations-Datenset herunterladen]
Alle Teilnehmer müssen die folgenden Regeln einhalten, um für die Herausforderung berechtigt zu sein.
Zusätzlich zu Beschreibungen des Herausforderungssystems werden die Teilnehmer ermutigt, Forschungsarbeiten einzureichen, die innovative Ergebnisse, praxisnahe Fallstudien und zukunftsorientierte Ideen präsentieren. Interessante Themen sind unter anderem, aber nicht ausschließlich:
Registrierte Teilnehmer erhalten Zugang zu den Trainings- und Testdatensätzen. Sie müssen eine Vereinbarung zur Datennutzung unterzeichnen (siehe unten), sich zur Vertraulichkeit verpflichten und die Datenschutzvereinbarung einhalten. Die Datensätze dürfen ausschließlich für den Zweck der Workshop-Herausforderung verwendet werden, und eine Weitergabe oder sonstige Nutzung ist strengstens untersagt. Es liegt in der Verantwortung des Teilnehmers, die Daten vor unbefugtem Zugriff zu schützen.
Um teilzunehmen, ist eine Registrierung erforderlich. Bitte laden Sie die unterzeichnete Vereinbarung zur Datennutzung hoch und füllen Sie das Registrierungsformular aus. Die Herausforderung beginnt am 10. März 2025.
Für weitere Informationen zur Registrierung senden Sie bitte eine E-Mail an: [email protected]
Offizielle E-Mail: [email protected]
Slack: https://join.slack.com/t/mlc-slm-challenge/shared_invite/zt-314nfsmhz-QjOJjhjK3OHYUtJyBRtPxA5
1.Challenge-Papiere:
a. Teilnehmer müssen EIN kurzes technisches Beschreibungsdokument einreichen (auch wenn das Team an beiden Aufgaben teilgenommen hat).
b. Länge: 2-4 Seiten Inhalt + 1 Seite für Referenzen.
c. Inhaltsanforderungen:
i. Klare Systembeschreibungen zur Bewertung der Korrektheit der Einreichung und der Einhaltung der Regeln.
ii. Details zur Reproduzierbarkeit, einschließlich verwendeter Open-Source-Datensätze und Modelle, Strategien zur Datenaugmentation, Modellarchitekturen, Trainingskonfigurationen usw.
iii.Ablationsstudien, die die Wirksamkeit der Methode demonstrieren.
d. Von allen Challenge-Teilnehmern wird erwartet, dass sie einen Vortrag halten oder ein Poster auf dem Workshop präsentieren.
2. Nicht-Wettbewerbsbeiträge:
a. Länge: 4 Seiten Inhalt, 1 Seite für Referenzen.
b. Themen: Einschließlich, aber nicht beschränkt auf die auf der Challenge-Website aufgeführten Themen.
3. Autoren-Kit:
Bitte verwenden Sie das bereitgestellte Interspeech 2022 LaTeX-Autorenkit (https://www.interspeech2022.org/files/IS2022_paper_kit.zip)für alle Einreichungen. Beachten Sie, dass wir das Interspeech 2022 Autorenkit verwenden, um die Begutachtung auf Einzelblind-Basis beizubehalten.
4. Einreichungsportal
a. Reichen Sie Ihr Papier über das CMT-Konferenzsystem ein
b. Der Microsoft CMT-Dienst wurde für die Verwaltung des Peer-Review-Prozesses für diese Konferenz verwendet. Dieser Dienst wurde kostenlos von Microsoft bereitgestellt, und sie übernahmen alle Kosten, einschließlich der Kosten für Azure-Cloud-Dienste sowie für Softwareentwicklung und -support.
GESAMTFONDS FÜR PREISE: 20,000 $, gesponsert von Huawei Technologies.
Preise für die bestplatzierten Teams in diesem Wettbewerb (jede Aufgabe):
MLC-SLM Aufgabe I
| Benutzername | WER/CER | Nr. | Teamname | Institution |
|---|---|---|---|---|
| tenp1 | 9.6 | 1 | TENP | Tencent Ethereal Audio Lab |
| sixteen-years | 9.67 | 2 | sixteen-years | Chinese Academy of Sciences |
| t-asr | 9.83 | 3 | T-ASR | SHENZHEN TRANSSION HOLDINGS CO.,LTD. |
| megaais | 10.08 | 4 | MegaAIS | Megatronix (Beijing) Technology Co., Ltd. |
| maxiaoai | 10.56 | 5 | MaXiaoAl | Mashang Consumer Finance Co., Ltd. (MSCF) |
| ntu speechlab | 10.58 | 6 | NTU-Speechlab | Nanyang Technological University |
| cheryfsai | 11.27 | 7 | Cheryfs-AI | Chery HuiYin Motor Finance Service Co., Ltd. |
| seewo | 11.57 | 8 | seewo | Guangzhou Shirui Electronics Co., Ltd. |
| daominhtri | 11.71 | 9 | Cake By VPBank | Cake By VPBank |
| maybe | 11.76 | 10 | May | Shanghai Normal University |
MLC-SLM Aufgabe II
| Benutzername | tcpWER/tcpCER | Nr. | Teamname | Institution |
|---|---|---|---|---|
| megaais | 16.53 | 1 | MegaAIS | Megatronix (Beijing) Technology Co., Ltd. |
| tenp1 | 17.49 | 2 | TENP | Tencent Ethereal Audio Lab |
| seewo | 17.67 | 3 | seewo | Guangzhou Shirui Electronics Co., Ltd. |
| duke_kunshan | 18.08 | 4 | DKU | Duke Kunshan University |
| sixteen-years | 19.27 | 5 | sixteen-years | Chinese Academy of Sciences |
| cheryfsai | 26.3 | 6 | Cheryfs-AI | Chery HuiYin Motor Finance Service Co., Ltd. |
| saengthong | 27.25 | 7 | ST-ShinozakiLab | Institute of Science Tokyo |
| fosafer | 31.68 | 8 | FOSAFER_ RESEARCH | Beijing Fosafer Information Technology Co., Ltd. |
| voicecode | 55.96 | 9 | VoiceCode | VOICECODE TECHNOLOGY PTE. LTD. |
| 517517 | 59.4 | 10 | INFX | Zhejiang University |
Hinweis: Es werden nur die zehn besten Einträge für jede Aufgabe aufgeführt. Bei Fragen zu den Teamergebnissen wenden Sie sich bitte an das Organisationskomitee.
Dock 14 im Rotterdam Ahoy Kongresszentrum, Rotterdam, Niederlande
Anmeldegebühr: 50 €
Shinji Watanabe, außerordentlicher Professor, Carnegie Mellon University (USA)
Eng Siong Chng, Professor, Nanyang Technological University (Singapur)
Junlan Feng, IEEE Fellow & Chief Scientist, China Mobile (China)
Shuai Wang, Forschungswissenschaftler, Nanjing University (China)
Longshuai Xiao, Huawei Technologies (China)
Khalid Choukri, Generalsekretär, Europäische Sprachressourcenverein (Frankreich)
Qiangze Feng, Mitbegründer & Data Scientist, Nexdata (USA)
Daliang Wang, Data Scientist, Nexdata (USA)
Hexin Liu, Postdoktorand, Nanyang Technological University (Singapur)
Pengcheng Guo, Doktorand, Northwestern Polytechnical University (China)
Bingshen Mu, Doktorand, Northwestern Polytechnical University (China)
Zhaokai Sun, Masterstudent, Northwestern Polytechnical University (China)




