Offene Datensätze für die akademische Forschung

Computer Vision

Spracherkennung

Name des Datensatzes	Datentyp	Daten Größe	Inhalt einfangen
1,000 Bilder mit Bildunterschriften zu verschiedenen Szenen	Bild	1,000 Bilder	Bildunterschriften-Datensatz mit verschiedenen Szenen. Die Verteilung der Szenen umfasst natürliche Landschaften, städtische Straßen, Ausstellungen, häusliche Umgebung usw. Jedes Bild enthält eine englische Beschreibung in 3-5 Sätzen.
1,000 Bilder Unterschriftsdaten von OCR in Naturszenen	Bild	1,000 Bilder	OCR-Beschriftungsdatensatz in 14 Sprachen. Zu den Themen der Bilder gehören Bushaltestellen, Plakate, Straßenschilder usw. Jedes Bild enthält eine englische Beschreibung in 3-5 Sätzen.
1,000 Bilder Bildunterschrift Daten des menschlichen Gesichts	Bild	1,000 Bilder	Datensatz mit Bildunterschriften zu menschlichen Gesichtern mit verschiedenen Kopfhaltungen, Gesichtsausdrücken usw. Jedes Bild enthält eine englische Beschreibung in 3-5 Sätzen.
1,000 Bilder Unterschriftsdaten von Gesten	Bild	1,000 Bilder	Gestenbildbeschriftungsdatensatz aus verschiedenen Winkeln und Gestenkategorien. Jedes Bild enthält eine englische Beschreibung in 3-5 Sätzen.
1,000 Bilder menschlicher Hautdefekte im Gesicht Daten	Bild	1,000 Bilder	Datensatz über Hautdefekte im Gesicht, einschließlich Akne, Aknenarben, dunkle Flecken, Falten und Augenringe.
1,000 Videos Unterschriftsdaten menschlicher Bewegungen	Bild	1,000 Bilder	Datensatz zur Erfassung menschlicher Bewegungen in CCTV- und Nicht-CCTV-Szenen. Zu den menschlichen Bewegungen gehören Gehen, Trinken, Gähnen, Fitness, usw. Jedes Video enthält eine englische Beschriftung.
1,000 Personen mit verschiedenen Rassen 7 Ausdrücke Erkennungsdaten	Bild	1000 Personen	7 Gesichtsausdrücke, darunter normal, glücklich, erstaunt, traurig, wütend, angewidert, verängstigt.
1,000 Videos Multirassen-Mikroexpressionsdaten (FACS)	Bild	1,000 Bilder	57 Mikroexpressionsdatensätze für das Gesicht, einschließlich innerer Augenbrauenheber (AU1), äußerer Augenbrauenheber (AU2), oberer Lidheber (AU5), usw.
50 Personen - DMS-Daten	Bild	50 Personen	DMS-Datensatz zu gefährlichen Verhalten, Müdigkeitsverhalten und visuell-beweglichem Verhalten. Die Datensatzdiversität umfasst verschiedene Altersgruppen der Probanden, Zeiträume, Fahrzeugtypen und Kamerapositionen.
50 Personen-2D-Gesichtsdaten gegen Spoofing	Bild&Video	50 Personen	2D-Gesichtsdaten zum Schutz vor Spoofing. Zu den echten Gesichtsdaten gehören Gesichtsaktionsvideos, Gesichtsbilder und Lippensprachvideos. Die Anti-Spoofing-Daten umfassen gefälschte Gesichtsaktionsvideos, gefälschte Lippensprachvideos und gefälschte Gesichtsbilder.
1,000 Bilder Gestenerkennungsdaten	Bild	1,000 Bilder	Gestenerkennungsdatensatz mit 18 Gestenkategorien. Zu den Gestenkategorien gehören Nummer 1, OK, LIEBE, usw. Für die Beschriftung des Datensatzes wurden 21 Orientierungspunkte der Hand und mehrere Gestenbeschriftungen verwendet.
3,000 Bilder OCR-Daten für natürliche Szenen	Bild	3,000 Bilder	OCR-Datensatz für natürliche Szenen in asiatischen Sprachen (Japanisch, Koreanisch usw.) und europäischen Sprachen (Französisch, Deutsch usw.). Für die Annotation wurden die Annotation auf Zeilenebene mit viereckigen Bounding-Boxen und die Transkription der Texte übernommen.
500 Bilder Handschrift OCR-Daten	Bild	500 Bilder	Handschriftliche OCR-Daten für Englisch und Japanisch. Für die Annotation wurden die Annotation auf Zeilenebene mit viereckigen Begrenzungsrahmen und die Transkription der Texte übernommen.
50 Personen - 3D-Gesichtsdaten gegen Spoofing	Bild	50 Personen	3D-Gesichtsdaten zum Schutz vor Spoofing. Echte Gesichtsdaten umfassen Gesichtsbilder. Die Antispoofing-Daten umfassen gefälschte Gesichtsbilder. Jedes Bild entspricht einem Tiefenbild, einer Tiefenwertdatei und einer Kameraparameterdatei.
1,000 Personen, verschiedene Rassen und Gesichtsbilder in verschiedenen Stellungen	Bild	1000 Personen	Gesichtserkennungsdatensatz für mehrere Ethnien. Jedes Subjekt verfügt über 29 Gesichtsbilder, darunter 14 Innenaufnahmen mit mehreren Posen, 14 Außenaufnahmen mit mehreren Posen und 1 Id-Bild. Die Beschriftungen umfassen Angaben zu Ethnie, Geschlecht, Alter und Gesichtshaltung.

Name des Datensatzes	Aufnahmegerät	Daten Größe	Spezifikationen
2 Stunden - 4 Länder Englischer Sprachsynthesekorpus	Mikrofon	2 Stunden, 4 Personen	Personen: 4 Personen aus Amerika, Großbritannien, Australien, Neuseeland Format : 48,000Hz, 24bit, unkomprimiertes WAV, Monokanal; Aufnahmeumgebung: professionelles Tonstudio
20 Stunden - Frankreich Französisch Lesen & Konversation Sprachdaten per Handy	Mobiltelefon	20 Stunden	Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Portugal Sprache : Portugiesisch; Merkmale der Annotation : Transkriptionstext; Accuracy Rate : Die Wortgenauigkeitsrate (WAR) liegt bei mindestens 97 %.
20 Stunden - Deutsche Lese- und Konversationsdaten per Mobiltelefon	Mobiltelefon	20 Stunden	Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Deutschland Sprache : Deutsch; Merkmale der Annotation : Transkriptionstext; Accuracy Rate : Wort-Genauigkeits-Rate (WAR) beträgt mindestens 97%
20 Stunden - Italienische Lese- und Konversationsdaten per Mobiltelefon	Mobiltelefon	20 Stunden	Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Italien Sprache : Italienisch; Merkmale der Annotation : Transkriptionstext; Genauigkeitsrate : Die Wortgenauigkeitsrate (WAR) liegt bei mindestens 97 %.
20 Stunden - Spanien Spanisch Lesen & Konversation Sprachdaten per Handy	Mobiltelefon	20 Stunden	Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Spanien Sprache : Spanisch; Merkmale der Annotation : Transkriptionstext; Genauigkeitsrate : Die Wortgenauigkeitsrate (WAR) liegt bei mindestens 97 %.
20 Stunden - Europäisches Portugiesisch Lese- und Konversationsdaten per Mobiltelefon	Mobiltelefon	20 Stunden	Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Portugal Sprache : Portugiesisch; Merkmale der Annotation : Transkriptionstext; Accuracy Rate : Die Wortgenauigkeitsrate (WAR) liegt bei mindestens 97 %.
20 Stunden - Japanisch Lesen & Konversationsdaten per Mobiltelefon	Mobiltelefon	20 Stunden	Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Japan Sprache : Japanisch; Merkmale der Anmerkung : Transkriptionstext; Genauigkeitsrate : Die Wortgenauigkeitsrate (WAR) liegt bei mindestens 97 %.
20 Stunden - Koreanische Lese- und Konversationsdaten per Mobiltelefon	Mobiltelefon	20 Stunden	Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Korea Sprache : Koreanisch; Merkmale der Annotation : Transkriptionstext; Genauigkeitsrate : Wort-Genauigkeits-Rate (WAR) beträgt mindestens 97%
10 Stunden - Paschtu-Gesprächsdaten per Telefon	Telefon	10 Stunden	Format : 8kHz 8bit, a-law/u-law pcm, mono channel Inhaltskategorie : Dialog basierend auf vorgegebenen Themen Aufnahmebedingungen : Geringe Hintergrundgeräusche (in Innenräumen) Aufnahmegerät : Telefonie Land : Afghanistan(AFG) Sprache(Region) Code : ps-AF Sprache : Paschtu Sprecher : 224 Personen insgesamt, 92% männlich und 8% weiblich Merkmale der Annotation : Transkriptionstext, Zeitstempel, Sprecher-ID, Geschlecht Genauigkeitsrate : Wortgenauigkeitsrate (WAR) 95% Genauigkeitsrate : Die Wortgenauigkeitsrate (WAR) liegt bei mindestens 95%.
Interspeech_ Accented English Spracherkennungswettbewerb Daten	Mobiltelefon	200 Stunden, 528 Personen	Audioformat: 16kHz, 16bit, mono wav Audioinhalt: hauptsächlich alltägliche Kommunikation, einschließlich Szenen wie Mensch-Computer-Interaktion Aufnahmeumgebung: relativ ruhige Innenräume, Handy-Aufnahme Dauer: etwa 20 Stunden für jeden Akzent, insgesamt 8 Akzente Spracharten: Russisch, Koreanisch, Amerikanisch, Portugiesisch, Japanisch, Indisch, Britisch Sprecher: 40-110 Sprecher für jede Sprache

Hinweis: Bitte bewerben Sie sich für Datensätze, die Ihrem Forschungsgebiet angemessen sind. Die maximale Anzahl von Bewerbungen für Computer Vision-Datensätze beträgt 6 Sätze.

Hinweis: Bitte bewerben Sie sich für Datensätze, die Ihrem Forschungsgebiet angemessen sind. Die maximale Anzahl von Bewerbungen für Computer Vision-Datensätze beträgt 4 Sätze.

Offene Datensätze für die akademische Forschung

Antragsverfahren und Anweisungen

Gesponserten Datensatz beantragen

Kooperation Institution