| Name des Datensatzes | Datentyp | Daten Größe | Inhalt einfangen |
| 1,000 Bilder mit Bildunterschriften zu verschiedenen Szenen | Bild | 1,000 Bilder | Bildunterschriften-Datensatz mit verschiedenen Szenen. Die Verteilung der Szenen umfasst natürliche Landschaften, städtische Straßen, Ausstellungen, häusliche Umgebung usw. Jedes Bild enthält eine englische Beschreibung in 3-5 Sätzen. |
| 1,000 Bilder Unterschriftsdaten von OCR in Naturszenen | Bild | 1,000 Bilder | OCR-Beschriftungsdatensatz in 14 Sprachen. Zu den Themen der Bilder gehören Bushaltestellen, Plakate, Straßenschilder usw. Jedes Bild enthält eine englische Beschreibung in 3-5 Sätzen. |
| 1,000 Bilder Bildunterschrift Daten des menschlichen Gesichts | Bild | 1,000 Bilder | Datensatz mit Bildunterschriften zu menschlichen Gesichtern mit verschiedenen Kopfhaltungen, Gesichtsausdrücken usw. Jedes Bild enthält eine englische Beschreibung in 3-5 Sätzen. |
| 1,000 Bilder Unterschriftsdaten von Gesten | Bild | 1,000 Bilder | Gestenbildbeschriftungsdatensatz aus verschiedenen Winkeln und Gestenkategorien. Jedes Bild enthält eine englische Beschreibung in 3-5 Sätzen. |
| 1,000 Bilder menschlicher Hautdefekte im Gesicht Daten | Bild | 1,000 Bilder | Datensatz über Hautdefekte im Gesicht, einschließlich Akne, Aknenarben, dunkle Flecken, Falten und Augenringe. |
| 1,000 Videos Unterschriftsdaten menschlicher Bewegungen | Bild | 1,000 Bilder | Datensatz zur Erfassung menschlicher Bewegungen in CCTV- und Nicht-CCTV-Szenen. Zu den menschlichen Bewegungen gehören Gehen, Trinken, Gähnen, Fitness, usw. Jedes Video enthält eine englische Beschriftung. |
| 1,000 Personen mit verschiedenen Rassen 7 Ausdrücke Erkennungsdaten | Bild | 1000 Personen | 7 Gesichtsausdrücke, darunter normal, glücklich, erstaunt, traurig, wütend, angewidert, verängstigt. |
| 1,000 Videos Multirassen-Mikroexpressionsdaten (FACS) | Bild | 1,000 Bilder | 57 Mikroexpressionsdatensätze für das Gesicht, einschließlich innerer Augenbrauenheber (AU1), äußerer Augenbrauenheber (AU2), oberer Lidheber (AU5), usw. |
| 50 Personen - DMS-Daten | Bild | 50 Personen | DMS-Datensatz zu gefährlichen Verhalten, Müdigkeitsverhalten und visuell-beweglichem Verhalten. Die Datensatzdiversität umfasst verschiedene Altersgruppen der Probanden, Zeiträume, Fahrzeugtypen und Kamerapositionen. |
| 50 Personen-2D-Gesichtsdaten gegen Spoofing | Bild&Video | 50 Personen | 2D-Gesichtsdaten zum Schutz vor Spoofing. Zu den echten Gesichtsdaten gehören Gesichtsaktionsvideos, Gesichtsbilder und Lippensprachvideos. Die Anti-Spoofing-Daten umfassen gefälschte Gesichtsaktionsvideos, gefälschte Lippensprachvideos und gefälschte Gesichtsbilder. |
| 1,000 Bilder Gestenerkennungsdaten | Bild | 1,000 Bilder | Gestenerkennungsdatensatz mit 18 Gestenkategorien. Zu den Gestenkategorien gehören Nummer 1, OK, LIEBE, usw. Für die Beschriftung des Datensatzes wurden 21 Orientierungspunkte der Hand und mehrere Gestenbeschriftungen verwendet. |
| 3,000 Bilder OCR-Daten für natürliche Szenen | Bild | 3,000 Bilder | OCR-Datensatz für natürliche Szenen in asiatischen Sprachen (Japanisch, Koreanisch usw.) und europäischen Sprachen (Französisch, Deutsch usw.). Für die Annotation wurden die Annotation auf Zeilenebene mit viereckigen Bounding-Boxen und die Transkription der Texte übernommen. |
| 500 Bilder Handschrift OCR-Daten | Bild | 500 Bilder | Handschriftliche OCR-Daten für Englisch und Japanisch. Für die Annotation wurden die Annotation auf Zeilenebene mit viereckigen Begrenzungsrahmen und die Transkription der Texte übernommen. |
| 50 Personen - 3D-Gesichtsdaten gegen Spoofing | Bild | 50 Personen | 3D-Gesichtsdaten zum Schutz vor Spoofing. Echte Gesichtsdaten umfassen Gesichtsbilder. Die Antispoofing-Daten umfassen gefälschte Gesichtsbilder. Jedes Bild entspricht einem Tiefenbild, einer Tiefenwertdatei und einer Kameraparameterdatei. |
| 1,000 Personen, verschiedene Rassen und Gesichtsbilder in verschiedenen Stellungen | Bild | 1000 Personen | Gesichtserkennungsdatensatz für mehrere Ethnien. Jedes Subjekt verfügt über 29 Gesichtsbilder, darunter 14 Innenaufnahmen mit mehreren Posen, 14 Außenaufnahmen mit mehreren Posen und 1 Id-Bild. Die Beschriftungen umfassen Angaben zu Ethnie, Geschlecht, Alter und Gesichtshaltung. |
| Name des Datensatzes | Aufnahmegerät | Daten Größe | Spezifikationen |
| 2 Stunden - 4 Länder Englischer Sprachsynthesekorpus | Mikrofon | 2 Stunden, 4 Personen | Personen: 4 Personen aus Amerika, Großbritannien, Australien, Neuseeland Format : 48,000Hz, 24bit, unkomprimiertes WAV, Monokanal; Aufnahmeumgebung: professionelles Tonstudio |
| 20 Stunden - Frankreich Französisch Lesen & Konversation Sprachdaten per Handy | Mobiltelefon | 20 Stunden | Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Portugal Sprache : Portugiesisch; Merkmale der Annotation : Transkriptionstext; Accuracy Rate : Die Wortgenauigkeitsrate (WAR) liegt bei mindestens 97 %. |
| 20 Stunden - Deutsche Lese- und Konversationsdaten per Mobiltelefon | Mobiltelefon | 20 Stunden | Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Deutschland Sprache : Deutsch; Merkmale der Annotation : Transkriptionstext; Accuracy Rate : Wort-Genauigkeits-Rate (WAR) beträgt mindestens 97% |
| 20 Stunden - Italienische Lese- und Konversationsdaten per Mobiltelefon | Mobiltelefon | 20 Stunden | Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Italien Sprache : Italienisch; Merkmale der Annotation : Transkriptionstext; Genauigkeitsrate : Die Wortgenauigkeitsrate (WAR) liegt bei mindestens 97 %. |
| 20 Stunden - Spanien Spanisch Lesen & Konversation Sprachdaten per Handy | Mobiltelefon | 20 Stunden | Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Spanien Sprache : Spanisch; Merkmale der Annotation : Transkriptionstext; Genauigkeitsrate : Die Wortgenauigkeitsrate (WAR) liegt bei mindestens 97 %. |
| 20 Stunden - Europäisches Portugiesisch Lese- und Konversationsdaten per Mobiltelefon | Mobiltelefon | 20 Stunden | Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Portugal Sprache : Portugiesisch; Merkmale der Annotation : Transkriptionstext; Accuracy Rate : Die Wortgenauigkeitsrate (WAR) liegt bei mindestens 97 %. |
| 20 Stunden - Japanisch Lesen & Konversationsdaten per Mobiltelefon | Mobiltelefon | 20 Stunden | Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Japan Sprache : Japanisch; Merkmale der Anmerkung : Transkriptionstext; Genauigkeitsrate : Die Wortgenauigkeitsrate (WAR) liegt bei mindestens 97 %. |
| 20 Stunden - Koreanische Lese- und Konversationsdaten per Mobiltelefon | Mobiltelefon | 20 Stunden | Format: 16kHz, 16bit, unkomprimiertes WAV, Monokanal; Aufnahmebedingungen: Geringe Hintergrundgeräusche (in Innenräumen), ohne Echo; Inhaltskategorie : Lesen, Konversation Aufnahmegerät : Android Smartphone, iPhone; Land : Korea Sprache : Koreanisch; Merkmale der Annotation : Transkriptionstext; Genauigkeitsrate : Wort-Genauigkeits-Rate (WAR) beträgt mindestens 97% |
| 10 Stunden - Paschtu-Gesprächsdaten per Telefon | Telefon | 10 Stunden | Format : 8kHz 8bit, a-law/u-law pcm, mono channel Inhaltskategorie : Dialog basierend auf vorgegebenen Themen Aufnahmebedingungen : Geringe Hintergrundgeräusche (in Innenräumen) Aufnahmegerät : Telefonie Land : Afghanistan(AFG) Sprache(Region) Code : ps-AF Sprache : Paschtu Sprecher : 224 Personen insgesamt, 92% männlich und 8% weiblich Merkmale der Annotation : Transkriptionstext, Zeitstempel, Sprecher-ID, Geschlecht Genauigkeitsrate : Wortgenauigkeitsrate (WAR) 95% Genauigkeitsrate : Die Wortgenauigkeitsrate (WAR) liegt bei mindestens 95%. |
| Interspeech_ Accented English Spracherkennungswettbewerb Daten | Mobiltelefon | 200 Stunden, 528 Personen | Audioformat: 16kHz, 16bit, mono wav Audioinhalt: hauptsächlich alltägliche Kommunikation, einschließlich Szenen wie Mensch-Computer-Interaktion Aufnahmeumgebung: relativ ruhige Innenräume, Handy-Aufnahme Dauer: etwa 20 Stunden für jeden Akzent, insgesamt 8 Akzente Spracharten: Russisch, Koreanisch, Amerikanisch, Portugiesisch, Japanisch, Indisch, Britisch Sprecher: 40-110 Sprecher für jede Sprache |
Hinweis: Bitte bewerben Sie sich für Datensätze, die Ihrem Forschungsgebiet angemessen sind. Die maximale Anzahl von Bewerbungen für Computer Vision-Datensätze beträgt 6 Sätze.
Hinweis: Bitte bewerben Sie sich für Datensätze, die Ihrem Forschungsgebiet angemessen sind. Die maximale Anzahl von Bewerbungen für Computer Vision-Datensätze beträgt 4 Sätze.