en

Please fill in your name

Mobile phone format error

Bitte geben Sie die Telefonnummer ein!

Bitte geben Sie den Namen Ihres Unternehmens ein

Bitte geben Sie Ihre Unternehmens-E-Mail-Adresse ein

Bitte geben Sie die Datenanforderung ein

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

Die Datenanforderung darf nicht weniger als 5 Wörter enthalten und darf keine reinen Zahlen sein.

MLC-SLM Workshop-Programm

Datum & Ort: 22. August, Dock 14 – Rotterdam Ahoy Kongresszentrum

Zeitfenster Aktivität
8:30-9:00
Abholung des Ausweises
9:00-10:00
Hauptvortrag 1: Shinji Watanabe Skalierung der mehrsprachigen Spracherkennung: Von wenigen bis zu tausenden Sprachen
10:00-10:30
Kaffeepause
10:30-11:00
Zusammenfassung der Herausforderung Preisverleihung
11:00-12:00
Mündliche Sitzung:
1. Seewos Einreichung bei MLC-SLM: Lehren aus Sprachrationalisierungs-Sprachmodellen, Vortragender: Bo Li
2. Transsion Mehrsprachiges Spracherkennungssystem für die MLC-SLM 2025 Challenge, Sprecher: Xiaoxiao Li
3. Triple X: Ein auf LLM basierendes mehrsprachiges Spracherkennungssystem für die INTERSPEECH2025 MLC-SLM Challenge, Referentin: Miaomiao Gao
4. Das TEA-ASLP-System für mehrsprachige Konversationsspracherkennung und Sprachdiarisierung in der MLC-SLM 2025 Herausforderung, Sprecher: Hongfei Xue
12:00-13:00
Mittagspause
13:00-14:00
Hauptvortrag 2: Hung-yi Lee Fortschritte bei Sprachmodellen
14:00-14:30
Mündliche Sitzung:
1. ILT: Iteratives LoRA-Training durch Fokus–Feedback–Korrektur für mehrsprachige Spracherkennung, Sprecher: Qingliang Meng
2. BUT System für die MLC-SLM Challenge, Sprecher: Alexander Polok
14:30-15:00
Kaffeepause
15:00-15:30
Eingeladener Vortrag 1: Ming Li Sequenz-zu-Sequenz neuronale Diarisierung unter Online- und Multi-Modal-Szenarien
15:30-16:00
Eingeladener Vortrag 2: Shuai Wang Ein Embedding passt nicht für alle: Neuausrichtung der Sprechermodellierung für verschiedene Sprach-Anwendungen
16:00-16:30
Eingeladener Vortrag 3: Pan Pan Jenseits der Datenknappheit: Entwicklung qualitativ hochwertiger Datenpipelines in unterschiedlichen Trainingsphasen
16:30-17:30
Poster
Anmeldekanäle für den Workshop:Offizielle Anmeldung über Interspeech:(Bitte wählen Sie während Ihrer Registrierung den Workshop zu Multilingual Conversational Speech Language Models aus)Klicken Sie auf den Link
Vor-Ort-Anmeldekanal: Klicken Sie auf den Link
Anmeldegebühr:50 € Angemeldete Teilnehmer erhalten Kaffeepausen und ein Mittagessen am Tag des Workshops.
Hinweis: Teilnehmer, die sich über den Vor-Ort-Kanal registrieren, müssen die Zahlung in bar am Veranstaltungsort leisten.
Keynote 1
Shinji Watanabe, außerordentlicher Professor, Carnegie Mellon University
Skalierung der mehrsprachigen Spracherkennung: Von wenigen bis zu Tausenden vo Sprachen
Shinji Watanabe ist außerordentlicher Professor an der Carnegie Mellon University in Pittsburgh, PA. Er erhielt seinen B.S., M.S. und Ph.D. (Dr. Eng.) von der Waseda University in Tokio, Japan. Von 2001 bis 2011 war er Forschungswissenschaftler an den NTT Communication Science Laboratories in Kyoto, Japan, 2009 Gastwissenschaftler am Georgia Institute of Technology in Atlanta, GA, und von 2012 bis 2017 leitender Forschungswissenschaftler bei Mitsubishi Electric Research Laboratories (MERL) in Cambridge, MA, USA. Vor seiner Tätigkeit an der Carnegie Mellon University war er von 2017 bis 2020 außerordentlicher Forschungsprofessor an der Johns Hopkins University in Baltimore, MD, USA.Seine Forschungsinteressen umfassen automatische Spracherkennung, Sprachverbesserung, Verständnis gesprochener Sprache und maschinelles Lernen für Sprach- und Sprachverarbeitung. Er hat über 500 Artikel in von Fachkollegen begutachteten Zeitschriften und Konferenzen veröffentlicht und mehrere Auszeichnungen erhalten, darunter den Best Paper Award der ISCA Interspeech im Jahr 2024. Er ist Senior Area Editor der IEEE Transactions on Audio Speech and Language Processing. Er war Mitglied mehrerer technischer Komitees, darunter das APSIPA Speech, Language, and Audio Technical Committee (SLA), das IEEE Signal Processing Society Speech and Language Technical Committee (SLTC) und das Machine Learning for Signal Processing Technical Committee (MLSP). Er ist IEEE- und ISCA-Fellow.
Keynote 2
Hung-yi Lee, Professor, Nationaltaiwan-Universität
Fortschritte bei Sprachmodellen
Hung-yi Lee ist Professor am Fachbereich Elektrotechnik der Nationaltaiwan-Universität (NTU) und hat eine gemeinsame Ernennung am Fachbereich Informatik & Informationstechnik der Universität. Seine aktuelle Forschung konzentriert sich auf die Entwicklung von Technologien, die den Bedarf an annotierten Daten für die Sprachverarbeitung (einschließlich Sprachumwandlung und Spracherkennung) und die Verarbeitung natürlicher Sprache (einschließlich abstrakter Zusammenfassungen und Fragenbeantwortung) reduzieren können.Er gewann 2019 den Salesforce Research Deep Learning Grant, 2020 den AWS ML Research Award, 2018 den Outstanding Young Engineer Award des Chinese Institute of Electrical Engineering, 2019 den Young Scholar Innovation Award der Foundation for the Advancement of Outstanding Scholarship, 2019 den Ta-You Wu Memorial Award des Ministeriums für Wissenschaft und Technologie von Taiwan sowie den 59. Ten Outstanding Young Person Award in Science and Technology Research & Development von Taiwan. Er betreibt einen YouTube-Kanal, auf dem er die Deep-Learning-Technologie in Marian vermittelt, der mehr als 300,000 Abonnenten hat.
Eingeladener Vortrag 1
Ming Li, Professor, Duke Kunshan University
Sequence-to-Sequence Neural Diarization unter Online- und Multi-Modal-Szenarien
Ming Li promovierte 2013 in Elektrotechnik an der University of Southern California. Derzeit ist er Professor für Elektro- und Computertechnik an der Division of Natural and Applied Science und leitender Forschungsscientist am Digital Innovation Research Center der Duke Kunshan University. Er ist außerdem Adjunct Professor an der School of Computer Science der Wuhan University. Seine Forschungsinteressen liegen in den Bereichen Audio-, Sprach- und Sprachverarbeitung sowie multimodale Verhaltenssignal-Analyse und -Interpretation. Er hat mehr als 200 wissenschaftliche Arbeiten veröffentlicht und ist Mitglied der IEEE Speech and Language Technical Committee sowie der APSIPA Speech and Language Processing Technical Committee gewesen.Er war Bereichsvorsitzender bei Interspeech 2016, Interspeech 2018, Interspeech 2020, SLT2022, Interspeech 2024, Interspeech 2025, ASRU 2025. Er ist technischer Programm-Ko-Vorsitzender bei Odyssey 2022 und ASRU 2023. Er ist Mitglied der Redaktion von IEEE Transactions on Audio, Speech and Language Processing, Computer Speech and Language und APSIPA Transactions on Signal and Information Processing. Arbeiten, die er gemeinsam mit seinen Kollegen verfasst hat, haben erste Preise bei den Interspeech Computational Paralinguistic Challenges 2011, 2012 und 2019, ASRU 2019 MGB-5 ADI Challenge, Interspeech 2020 und 2021 Fearless Steps Challenges, VoxSRC 2021, 2022 und 2023 Challenges, ICASSP 2022 M2MeT Challenge, IJCAI 2023 ADD Challenge, ICME 2024 ChatCLR Challenge und Interspeech 2024 AVSE Challenge gewonnen.Als Mitautor hat er den Best Paper Award bei DCOSS2009 und ISCSLP2014 sowie die Shortlist für den Best Paper Award bei Interspeech 2024 gewonnen. Er erhielt 2016 den IBM Faculty Award, 2018 den ISCA Computer Speech and Language Best Journal Paper Award für fünf Jahre und 2020 den Jugend-Auszeichnungspreis für herausragende wissenschaftliche Forschungsleistungen der chinesischen Hochschulbildung. Er ist Senior Member des IEEE.
Eingeladener Vortrag 2
Shuai Wang, außerordentlicher Professor, Universität Nanjing
One Embedding Doesn’t Fit All: Neuüberlegungen zur Sprechermodellierung für verschiedene Sprachapplikationen
Shuai Wang ist außerordentlicher Professor auf Tenure-Track an der Universität Nanjing und zugleich Adjunct Faculty-Mitglied an der Chinesischen Universität von Hongkong, Shenzhen (CUHK-SZ). Er erhielt seinen Ph.D. 2020 an der Shanghai Jiao Tong University und seinen B.Sc. 2014 an der Northwestern Polytechnical University. Dr. Wang hat über 60 Fachartikel zur Sprechermodellierung veröffentlicht und mehrere Auszeichnungen erhalten, darunter den IEEE Ramaswamy Grant bei der ICASSP 2018, sowie den ersten Platz sowohl bei VoxSRC 2019 als auch bei DIHARD 2019. Er ist Initiator der Open-Source-Projekte WeSpeaker und WeSep, die sowohl in der Wissenschaft als auch in der Industrie weit verbreitet sind.
Eingeladener Vortrag 3
Pan Pan, Direktorin für KI-Geschäft bei Nexdata, Nexdata
Über den Datenmangel hinaus: Qualitätsorientierte Datenpipelines in verschiedenen Trainingsphasen gestalten
Visionäre Führungskraft und operative Architektin bei Nexdata. Pan nutzt mehr als ein Jahrzehnt KI-Datenexpertise, um Elite-Teams bei der Bereitstellung von End-to-End-Lösungen für LLM, GenAI und traditionelle KI-Modelle zu führen. Sie hat erfolgreich 1000 Projekte umgesetzt, indem sie globale Multi-Sensor-Datenerfassung, KI-gestützte Annotation und eine einheitliche Plattform integriert hat, die die gesamte Trainingsdatenpipeline optimiert.

MLC-SLM Workshop-Vortragswiederholungen

Ausgewählte Vorträge

Haben Sie die Live-Sitzungen verpasst? Sie können jetzt die inspirierenden Vorträge des MLC-SLM Challenge Workshops nachholen. Die Wiederholungslinks finden Sie weiter unten.

  • Shinji Watanabe (Carnegie Mellon University)

    Topic: Skalierung der mehrsprachigen Spracherkennung: Von wenigen bis zu Tausenden von Sprachen

    [Wiederholung ansehen]

  • Hung-yi Lee (National Taiwan University)

    Topic: Vermittlung von LLMs, zuzuhören und zu sprechen

    [Wiederholung ansehen]

  • Ming Li (Duke Kunshan University)

    Topic: Sequenz-zu-Sequenz-neuronale Diarisierung unter Online- und multimodalen Szenarien

    [Wiederholung ansehen]

  • Shuai Wang (Nanjing University)

    Topic: Ein einziges Embedding passt nicht allen: Überdenken der Sprecher-Modellierung für verschiedene Sprach Anwendungen

    [Wiederholung ansehen]

  • Pan Pan (Director of AI Business, Nexdata)

    Topic: Über Datenknappheit hinaus: Engineering von qualitativ hochwertigen Datenpipelines in verschiedenen Trainingsphasen

    [Wiederholung ansehen]

Bleiben Sie informiert

Folgen Sie uns auf LinkedIn und YouTube für die neuesten Aufzeichnungen und Highlights.

[Auf LinkedIn folgen]

[Auf YouTube abonnieren]

Hinweis

Für Medienanfragen oder Genehmigungsanfragen wenden Sie sich bitte an: [email protected]

Motivation

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei einer Vielzahl von nachgelagerten Aufgaben gezeigt und dienen als leistungsstarke Basismodelle für Sprachverständnis und -generierung. In jüngster Zeit besteht ein hohes Interesse daran, LLMs auf Sprach- und Audioverarbeitungsaufgaben anzuwenden, einschließlich Automatischer Spracherkennung (ASR), Audiobeschriftung und aufkommender Bereiche wie gesprochene Dialogmodelle.

Die Entwicklung robuster, auf LLM basierender gesprochener Dialogmodelle hängt jedoch stark von realen Konversationsdaten ab, die die Komplexität menschlicher Kommunikation widerspiegeln, einschließlich natürlicher Pausen, Unterbrechungen, Überlappungen von Sprechern und verschiedener Gesprächsstile. Der Mangel an solchen Daten, insbesondere in mehrsprachigen Kontexten, stellt eine erhebliche Herausforderung für den Fortschritt in diesem Bereich dar.

Die Bedeutung von realer gesprochener Konversation geht über den technologischen Fortschritt hinaus – sie ist entscheidend für die Entwicklung von KI-Systemen, die in der Lage sind, in mehrsprachigen, dynamischen und kontextreichen Umgebungen natürlich zu verstehen und zu reagieren. Dies ist besonders wichtig für Systeme der nächsten Generation der Mensch-KI-Interaktion, bei denen gesprochener Dialog als primäres Kommunikationsmittel dient.

Daher zielt diese Herausforderung und der Workshop darauf ab, die Lücke zu schließen, indem sie die Herausforderung des Aufbaus mehrsprachiger konversationaler Sprachmodelle (MLC-SLM) veranstalten und einen realen mehrsprachigen Datensatz für gesprochene Konversationen veröffentlichen.

Aufgabestellung und Bewertung

Die Herausforderung besteht aus zwei Aufgaben, von denen beide von den Teilnehmern verlangen, die Entwicklung von Sprachmodellen (SLMs) zu erforschen:

Aufgabe I: Multilinguale Konversations-Spracherkennung

Ziel: Entwicklung eines multilingualen ASR-Modells auf Basis von LLM.

Den Teilnehmern werden für jede Unterhaltung Orakel-Segmentierungen und Sprecherkennzeichnungen bereitgestellt.

Diese Aufgabe konzentriert sich auf die Optimierung der Erkennungsgenauigkeit in einem multilingualen Gesprächsumfeld.

Aufgabe II: Mehrsprachige Konversations-Spracherkennung und -Diarisierung

Ziel: Entwicklung eines Systems sowohl für die Sprecherdiarisierung (Identifizierung, wer wann spricht) als auch für die Spracherkennung (Transkription von Sprache in Text).

Während der Bewertung werden keine vorherigen oder orakelbasierten Informationen bereitgestellt (z. B. keine vorsegmentierten Äußerungen oder Sprecherkennungen).

Sowohl pipeline-basierte als auch End-to-End-Systeme werden empfohlen, um Flexibilität im Systemdesign und in der Implementierung zu gewährleisten.

Für Aufgabe I wird die Systemleistung anhand der Wortfehlerrate (WER) oder der Zeichenfehlerrate (CER) über verschiedene Sprachen hinweg bewertet.

Für Aufgabe II wird die Leistung basierend auf der Diarisierungsfehlerrate (DER) und der kombinierten minimalen Permutations-WER oder CER, bezeichnet als tcpWER oder tcpCER, beurteilt. Die DER wird verwendet, um die beste Sprecher-Identifikationspermutation zwischen der Oracle-Annotierung und den Diarisierungsergebnissen zu bestimmen. Anschließend werden die Erkennungsergebnisse und Referenzen, die zum selben Sprecher innerhalb einer Aufnahme gehören, zusammengeführt, um die tcpWER oder tcpCER zu berechnen. Alle Einreichungen werden nach der tcpWER oder tcpCER eingestuft.

Wichtige Termine (AOE-Zeit)

    10. März 2025: Registrierung eröffnet15.

    März 2025: Veröffentlichung der Trainingsdaten1.

    April 2025: Veröffentlichung des Entwicklungssets und des Basissystems15.

    Mai 2025: Veröffentlichung des Evaluierungssets und Öffnung der Bestenliste30.

    Mai 2025: Einfrieren der Bestenliste und Öffnung des Einreichungsportals für Paper (CMT-System)15.

    Juni 2025: Einreichungsfrist für Paper1.

    Juli 2025: Benachrichtigung über Annahme22.

    August 2025: Workshop-Termin

Beschreibung des Datensatzes

Trainingssatz

Der Trainingssatz (Train) umfasst etwa 11 Sprachen: Englisch (en), Französisch (fr), Deutsch (de), Italienisch (it), Portugiesisch (pt), Spanisch (es), Japanisch (jp), Koreanisch (ko), Russisch (ru), Thai (th), Vietnamesisch (vi).

    Each recording consists of two-speaker conversational speech on randomly assigned topics.

    Conversations are natural and fluent, with speakers engaging in meaningful dialogues on each topic.

    Recorded in quiet indoor environments using devices such as iPhones.

    Each recording will provide the oracle segmentation and speaker label for the development of speech recognition and speaker diarization systems.

    Both Task I and Task II share the same training set.

    The English dataset comprises approximately 500 hours of recordings from various regions, including British, American, Australian, Indian, and Philippine English. Other languages contribute around 100 hours each, resulting in a total of approximately 1500 hours of multilingual conversational speech data.

Dieser Datensatz wurde entwickelt, um eine reichhaltige Ressource für das Training und die Bewertung multilingualer konversationaler Sprachmodelle (MLC-SLM) bereitzustellen und die Herausforderungen der sprachlichen Vielfalt, der Sprecherdiversität und des kontextuellen Verständnisses zu adressieren.

Sprache Datenvolumen (h) Sprachklassifikation Abtastrate Beschreibung
Englisch 500 Deckt 5 verschiedene englische Akzente ab, Sprecher aus den Vereinigten Staaten, dem Vereinigten Königreich, den Philippinen, Australien und Indien. Vielfältige Geschlechter und Altersgruppen, natürlicher Gesprächsstil. Die Wortfehlerrate liegt unter 2%.
100 Amerikanisches Englisch 16K
100 Britisches Englisch 16K
100 Philippinen-Englisch 16K
100 Australisches Englisch 16K
100 Indisches Englisch 16K
Französisch 100 16k Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere vertraute Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2%.
Deutsch 100 16k Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere vertraute Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2%.
Italienisch 100 16k Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere vertraute Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2%.
Japanisch 100 16k Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere bekannte Themen aus und führt für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Satzfehlerrate liegt unter 5%.
Koreanisch 100 16k Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichnende mehrere vertraute Themen aus und nimmt für jedes ein flüssiges und natürliches Gespräch auf. Die Sprecher sollten unterschiedliche Geschlechter und Altersgruppen haben. Die Satzfehlerquote liegt unter 5 %.
Portugiesisch (Europa) 100 16k Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere bekannte Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2%.
Russisch 100 16k Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere bekannte Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2%.
Spanisch (Spanien) 100 16k Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere bekannte Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2%.
Thailändisch 100 16k Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichner mehrere vertraute Themen aus und zeichnet für jedes eine flüssige und natürliche Unterhaltung auf. Die Sprecher sollten verschiedene Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 3%.
Vietnamesisch 100 16k Auf einem Mobiltelefon aufgenommen, wählt der Aufzeichnende mehrere vertraute Themen aus und nimmt für jedes ein flüssiges und natürliches Gespräch auf. Die Sprecher sollten unterschiedliche Geschlechter und Altersgruppen haben. Die Wortfehlerrate liegt unter 2 %.

Entwicklungssatz

Der Entwicklungssatz (Dev) hat die gleichen Bedingungen wie der Trainingssatz, enthält jedoch ungefähr 4 Stunden an Aufzeichnungen für jede Sprache. Sowohl Aufgabe I als auch Aufgabe II verwenden denselben Entwicklungssatz.

Evaluierungsset

Für jede Aufgabe werden unterschiedliche Evaluierungssets verwendet, die als Eval_1 und Eval_2 bezeichnet werden. Konkret umfasst Eval_1 Oracle-Zeitstempel und Sprecherkennzeichnungen, die mithilfe von WER/CER bewertet werden. Eval_2 stellt weder Zeitstempel noch Sprecherkennzeichnungen bereit, sodass ein Sprecherdiarisierungssystem (SD) erforderlich ist, um die längeren Aufnahmen vor der Erkennung zu segmentieren.Teilnehmer können auf den Datensatz zugreifen, indem sie die Vereinbarung zur Datennutzung unterzeichnen und das Registrierungsformular ausfüllen. Nach der Einreichung wird der Link zum Herunterladen der Daten an Ihre E-Mail gesendet.

Open-Source-Zugriff

Sie können über den unten bereitgestellten Link auf den Open-Source-Bewertungsdatensatz zugreifen und ihn herunterladen. Bitte beachten Sie, dass vor dem Download ein kurzes Registrierungsformular ausgefüllt werden muss. Sobald Ihre Anmeldung genehmigt wurde, wird der Downloadlink für den Datensatz innerhalb von 7 Tagen per E-Mail bereitgestellt.

Zitationsanforderung

Wenn Sie dieses Datenset in Ihrer persönlichen oder akademischen Forschung verwenden, geben Sie bitte die Quelle entsprechend an.

[Anmeldeformular- Für gesponsertes Datenset bewerben - Evaluations-Datenset herunterladen]

Regeln

Alle Teilnehmer müssen die folgenden Regeln einhalten, um für die Herausforderung berechtigt zu sein.

Verwendung externer Ressourcen: Sowohl für Track I als auch für Track II ist die Nutzung externer Datensätze und vortrainierter Modelle (einschließlich Sprach-Grundlagenmodelle und große Sprachmodelle) erlaubt. Alle genutzten externen Ressourcen müssen frei zugänglich für alle Forschungsteams sein und sollten im abschließenden Systembericht klar angegeben werden.
Datenanreicherung: Datenanreicherung ist für das veröffentlichte Trainingsset erlaubt und kann, muss aber nicht, die Zugabe von Rauschen oder Hall, Geschwindigkeitsänderungen und Tonhöhenmodifikationen umfassen.
Verbot der Nutzung von Evaluierungsdatensätzen: Die Nutzung von Evaluierungsdatensätzen in jeglicher Form der Nichtbeachtung ist streng verboten. Dies umfasst, ist aber nicht beschränkt auf die Verwendung von Evaluierungsdatensätzen zum Feinabstimmen oder für das Training des Modells.
Multi-System-Fusion: Teilnehmer dürfen keine Systemfusion weder in Aufgabe I noch in Aufgabe II einsetzen. Die eingereichten Ergebnisse müssen aus einem einzigen Modell abgeleitet werden und nicht durch Ergebnisfusion
Einreichungsanforderung: Alle Teilnehmer sind verpflichtet, ihr System einzureichen. Die Einreichung kann finale Ergebnisse, Modelle und einen Docker enthalten, der direkt die Inferenz durchführen kann, um die endgültigen Ergebnisse zu erhalten, usw. Detaillierte Einreichungsanweisungen werden nach der Veröffentlichung der Basisimplementierung bereitgestellt. Bitte beachten Sie, dass wir öffentlich den Namen der Teams und ihrer zugehörigen Institutionen bekannt geben werden, die ihre Teilnahme bestätigt, aber keine Dateien eingereicht haben.
Interpretation durch die Organisatoren: Die Organisatoren behalten sich das Recht vor, die endgültige Auslegung dieser Regeln vorzunehmen. In besonderen Fällen werden die Organisatoren die Interpretation bei Bedarf koordinieren.

Weitere Themen

Zusätzlich zu Beschreibungen des Herausforderungssystems werden die Teilnehmer ermutigt, Forschungsarbeiten einzureichen, die innovative Ergebnisse, praxisnahe Fallstudien und zukunftsorientierte Ideen präsentieren. Interessante Themen sind unter anderem, aber nicht ausschließlich:

Neue Architekturen und Algorithmen: Entwicklung neuer Architekturen und Algorithmen für das Training von SLMs
Audio-Datenverarbeitungspipelines: Innovative Pipelines zur Verarbeitung von Roh-Audiodaten, die die Sammlung vielfältiger Internetdaten für das Training von SLMs erleichtern.
Natürliche und emotional ausdrucksstarke Sprachgenerierung: Algorithmen, die entwickelt wurden, um natürlichere und emotional ausdrucksvollere Gesprächssprache für Dialogsysteme zu erzeugen
Nutzung der mehrmaligen Gesprächshistorie: Ansätze, die die Gesprächshistorie über mehrere Runden hinweg nutzen, um Erkennungs- und Diarisierungsergebnisse zu verbessern.
Evaluierungstechniken und Benchmarks: Innovative Evaluierungstechniken oder Benchmarks, die speziell für die Bewertung von SLMs entwickelt wurden.
Neue Datensätze: Erstellung neuer Datensätze, sowohl realer als auch synthetischer, für das Training von Sprach- und Audio-Sprachmodellen.

Datenzugriff und -nutzung

Registrierte Teilnehmer erhalten Zugang zu den Trainings- und Testdatensätzen. Sie müssen eine Vereinbarung zur Datennutzung unterzeichnen (siehe unten), sich zur Vertraulichkeit verpflichten und die Datenschutzvereinbarung einhalten. Die Datensätze dürfen ausschließlich für den Zweck der Workshop-Herausforderung verwendet werden, und eine Weitergabe oder sonstige Nutzung ist strengstens untersagt. Es liegt in der Verantwortung des Teilnehmers, die Daten vor unbefugtem Zugriff zu schützen.

Registrierung

Um teilzunehmen, ist eine Registrierung erforderlich. Bitte laden Sie die unterzeichnete Vereinbarung zur Datennutzung hoch und füllen Sie das Registrierungsformular aus. Die Herausforderung beginnt am 10. März 2025.

Für weitere Informationen zur Registrierung senden Sie bitte eine E-Mail an: [email protected]

Baseline-System

Github/MLC-SLM-Baseline

Richtlinien für die Einreichung von Papieren

1.Challenge-Papiere:

a. Teilnehmer müssen EIN kurzes technisches Beschreibungsdokument einreichen (auch wenn das Team an beiden Aufgaben teilgenommen hat).

b. Länge: 2-4 Seiten Inhalt + 1 Seite für Referenzen.

c. Inhaltsanforderungen:
  i. Klare Systembeschreibungen zur Bewertung der Korrektheit der Einreichung und der Einhaltung der Regeln.
  ii. Details zur Reproduzierbarkeit, einschließlich verwendeter Open-Source-Datensätze und Modelle, Strategien zur Datenaugmentation, Modellarchitekturen, Trainingskonfigurationen usw.
  iii.Ablationsstudien, die die Wirksamkeit der Methode demonstrieren.

d. Von allen Challenge-Teilnehmern wird erwartet, dass sie einen Vortrag halten oder ein Poster auf dem Workshop präsentieren.

2. Nicht-Wettbewerbsbeiträge:

a. Länge: 4 Seiten Inhalt, 1 Seite für Referenzen.

b. Themen: Einschließlich, aber nicht beschränkt auf die auf der Challenge-Website aufgeführten Themen.

3. Autoren-Kit:

Bitte verwenden Sie das bereitgestellte Interspeech 2022 LaTeX-Autorenkit (https://www.interspeech2022.org/files/IS2022_paper_kit.zip)für alle Einreichungen. Beachten Sie, dass wir das Interspeech 2022 Autorenkit verwenden, um die Begutachtung auf Einzelblind-Basis beizubehalten.

4. Einreichungsportal

a. Reichen Sie Ihr Papier über das CMT-Konferenzsystem ein

b. Der Microsoft CMT-Dienst wurde für die Verwaltung des Peer-Review-Prozesses für diese Konferenz verwendet. Dieser Dienst wurde kostenlos von Microsoft bereitgestellt, und sie übernahmen alle Kosten, einschließlich der Kosten für Azure-Cloud-Dienste sowie für Softwareentwicklung und -support.

Preise

GESAMTFONDS FÜR PREISE: 20,000 $, gesponsert von Huawei Technologies.

Preise für die bestplatzierten Teams in diesem Wettbewerb (jede Aufgabe):

1.Platz: 5,000 $
2.Platz: 3,000 $
3.Platz: 2,000 $

Wettbewerbsergebnisse

MLC-SLM Aufgabe I

Benutzername WER/CER Nr. Teamname Institution
tenp19.61TENPTencent Ethereal Audio Lab
sixteen-years9.672sixteen-yearsChinese Academy of Sciences
t-asr9.833T-ASRSHENZHEN TRANSSION HOLDINGS CO.,LTD.
megaais10.084MegaAISMegatronix (Beijing) Technology Co., Ltd.
maxiaoai10.565MaXiaoAlMashang Consumer Finance Co., Ltd. (MSCF)
ntu speechlab10.586NTU-SpeechlabNanyang Technological University
cheryfsai11.277Cheryfs-AIChery HuiYin Motor Finance Service Co., Ltd.
seewo11.578seewoGuangzhou Shirui Electronics Co., Ltd.
daominhtri11.719Cake By VPBankCake By VPBank
maybe11.7610MayShanghai Normal University

MLC-SLM Aufgabe II

Benutzername tcpWER/tcpCER Nr. Teamname Institution
megaais16.531MegaAISMegatronix (Beijing) Technology Co., Ltd.
tenp117.492TENPTencent Ethereal Audio Lab
seewo17.673seewoGuangzhou Shirui Electronics Co., Ltd.
duke_kunshan18.084DKUDuke Kunshan University
sixteen-years19.275sixteen-yearsChinese Academy of Sciences
cheryfsai26.36Cheryfs-AIChery HuiYin Motor Finance Service Co., Ltd.
saengthong27.257ST-ShinozakiLabInstitute of Science Tokyo
fosafer31.688FOSAFER_ RESEARCHBeijing Fosafer Information Technology Co., Ltd.
voicecode55.969VoiceCodeVOICECODE TECHNOLOGY PTE. LTD.
51751759.410INFXZhejiang University

Hinweis: Es werden nur die zehn besten Einträge für jede Aufgabe aufgeführt. Bei Fragen zu den Teamergebnissen wenden Sie sich bitte an das Organisationskomitee.

Veranstaltungsort

Dock 14 im Rotterdam Ahoy Kongresszentrum, Rotterdam, Niederlande

Anmeldegebühren für die Teilnahme am Workshop

Anmeldegebühr: 50 €

Organisatoren

    Shinji Watanabe, außerordentlicher Professor, Carnegie Mellon University (USA)

    Eng Siong Chng, Professor, Nanyang Technological University (Singapur)

    Junlan Feng, IEEE Fellow & Chief Scientist, China Mobile (China)

    Shuai Wang, Forschungswissenschaftler, Nanjing University (China)

    Longshuai Xiao, Huawei Technologies (China)

    Khalid Choukri, Generalsekretär, Europäische Sprachressourcenverein (Frankreich)

    Qiangze Feng, Mitbegründer & Data Scientist, Nexdata (USA)

    Daliang Wang, Data Scientist, Nexdata (USA)

    Hexin Liu, Postdoktorand, Nanyang Technological University (Singapur)

    Pengcheng Guo, Doktorand, Northwestern Polytechnical University (China)

    Bingshen Mu, Doktorand, Northwestern Polytechnical University (China)

    Zhaokai Sun, Masterstudent, Northwestern Polytechnical University (China)

Sponsoren

Medienpartner

a3a02cb9-c4f8-4160-b0c3-cc128d79779f