Datensätze von der Stange, Einsatz von wettbewerbsfähiger KI mit Nexdata

Please fill in your name

Mobile phone format error

Bitte geben Sie die Telefonnummer ein!

Bitte geben Sie den Namen Ihres Unternehmens ein

Bitte geben Sie Ihre Unternehmens-E-Mail-Adresse ein

Bitte geben Sie die Datenanforderung ein

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

Die Datenanforderung darf nicht weniger als 5 Wörter enthalten und darf keine reinen Zahlen sein.

Startseite > Alle Kategorie-Datensätze

500,000 Bilder von natürlichen Szenen in 21 Ländern & Dokumentaufnahmen & elektronische Szenen mit OCR-Anmerkungen

500,000 Bilder von 21 Ländern mit natürlichen Szenen, Dokumentenfotografie-Szenen und elektronischen Szenen für OCR-Kennzeichnung. Die Daten umfassen 21 Sprachen, wobei die Anzahl der Bilder pro Sprache zwischen 20,000 und 25,000 liegt. Die Datentypen umfassen natürliche Szenen, Dokumentenfotografie-Szenen und elektronische Szenen. Die Datenvielfalt beinhaltet verschiedene Datentypen, unterschiedliche Aufnahmewinkel und mehrere Sprachen. Für die Kennzeichnung werden Zeilen- (Spalten-) level Vier-Eck- oder Polygon-Kennzeichnungen sowie zeilen- (spalten-) level Inhaltsabschriften verwendet. Die Daten können für mehrsprachige OCR-Erkennungsaufgaben genutzt werden.

mehrsprachiges OCR-Datensatz Szenentexterkennungsdaten Dokument-OCR-Datensatz elektronische Bildschirmanzeigendaten OCR OCR-Datensatz in 21 Sprachen KI-OCR-Trainingsdaten Texterkennungsdatensatz

200,000 Satze von Bild-Text-Daten zu internationalen Wahrzeichengebäuden

200,000 Sätze von Bild-Text-Daten zu internationalen Wahrzeichengebäuden. Jeder Datensatz besteht aus einem Bild sowie einem Beschreibungsdokument auf Chinesisch und Englisch. Darin sind 80,000 Sätze zu chinesischen Wahrzeichen und 120,000 Sätze zu Wahrzeichen anderer Länder enthalten, mit einer Verteilung auf mindestens 20 Länder wie die Vereinigten Staaten, Großbritannien, Frankreich, Russland, Deutschland u. a. Pro Wahrzeichen liegen 1 bis 10 Bilder vor, die Informationen aus verschiedenen Perspektiven, Entfernungen und Zeitzonen vermitteln. Die Wahrzeichen umfassen verschiedene Typen von Gebäuden, wie Geschäftstürme, alte Bauten, Denkmäler, Bibliotheken, Sehenswürdigkeiten usw. Bei den Annotationen werden das Land des Wahrzeichens, die Stadt, der genaue Standort, die Kategorie sowie die Beschreibung des Wahrzeichens erfasst. Die Daten können für die Erkennung und Analyse von Wahrzeichengebäuden verwendet werden.

Wahrzeichen-Bilddatensatz Gebäudeerkennungsdatensatz Globaler Bild-Beschreibungsdatensatz für Wahrzeichen Bilinguale Bild-Beschreibungsdaten Chinesisch-englischer Beschreibungsdatensatz Wahrzeichen-Klassifikationsdatensatz Bild-Text-Datensatz Touristische Wahrzeichen-Datensatz Kulturerbestands-Bilddatensatz Image Bildbeschriftung für die KI-Training

581 Stunden gesprochene Griechisch-Daten

Griechische gesprochene Sprachdaten, deren Inhalt allgemeine Bereiche wie soziale Medien, Gespräche und Livestreams abdeckt und echte Interaktionssituationen widerspiegelt. Dieser Datensatz ist mit mehreren Attributen wie Textinhalt und Geschlecht des Sprechers annotiert und wurde von mehreren Rumänen aus verschiedenen Regionen und kulturellen Hintergründen aufgenommen. Er zeichnet sich durch hohe Genauigkeit und Benutzerfreundlichkeit aus und bietet reichhaltige Ressourcen für Forschung und Anwendungen im Bereich der Spracherkennung, wodurch die Modelle in der Lage sind, in realen, vielfältigen Szenarien hervorragende Leistungen zu erbringen. Wir halten uns strikt an Datenschutzgesetze und -vorschriften, um die Privatsphäre und die rechtlichen Rechte der Benutzer während der Datenerhebung, -speicherung und -nutzung zu gewährleisten. Alle Daten entsprechen den Bestimmungen von GDPR, CCPA und PIPL.

griechisches Sprachdatensatz griechische ASR-Trainingsdaten griechisches Konversationskorpus griechische Monologsprache griechisches Spracherkennungsdatensatz Sprache-zu-Text griechische Daten griechisches Sprachdatensatz griechisches Transkriptionsdatensatz

600 Stunden gesprochene norwegische Sprachdaten

Norwegische gesprochene Sprachdaten, deren Inhalt allgemein Bereiche wie Social Media, Dialoge und Livestream abdeckt, spiegeln echte Interaktionssituationen wider. Dieses Datenset enthält Anmerkungen zu Textinhalten, Geschlecht der Sprecher und weiteren Eigenschaften und wurde von mehreren Rumänen aus unterschiedlichen Regionen und Kulturen aufgenommen. Es zeichnet sich durch hohe Genauigkeit und einfache Handhabung aus und bietet reichhaltige Ressourcen für Forschung und Anwendungen im Bereich der Spracherkennung, wodurch Modelle in der Lage sind, eine herausragende Leistung in der Vielfalt der echten Welt zu zeigen. Wir halten uns strikt an Datenschutzgesetze und Vorschriften zum Schutz der Privatsphäre, um die Privatsphäre und die gesetzlichen Rechte der Nutzer während der Datenerhebung, -speicherung und -nutzung zu gewährleisten; alle Daten entsprechen den Richtlinien von GDPR, CCPA und PIPL.

norwegisches Sprachdatensatz norwegische ASR-Trainingsdaten norwegisches Gesprächskorpus norwegische Monologsprache norwegisches Spracherkennungsdatensatz Sprach-zu-Text norwegische Daten norwegisches Sprachdatensatz mehrsprachige Sprachdaten norwegisches Transkriptionsdatensatz

Hochauflösender Synthesedatensatz für 3D-Szenen_Cockpit

Hochrealistischer 3D-Szenen-Synthesedatensatz_Cockpit: Sensordaten, die durch 3D-Szenenmodellierung erstellt wurden und der realen Welt stark ähneln, einschließlich Kameraaufnahmen, Videosequenzen und Punktwolken. Verfügbare Annotationen beinhalten, sind aber nicht beschränkt auf Kameraparameter, Zielkategorie/Erkennung/Semantische Segmentierung, Zeit-/Licht-/Wetter-Metadaten sowie Körperposen wie Kopf-/Augen-/Arm-/Beinposition und -richtung. Dieser Datensatz kann für Umweltmodellierung und Datensynthese in Anwendungsbereichen wie autonomem Fahren und Robotik verwendet werden.

3D-Synthetikdaten Fahrerüberwachungs-Synthetikdatensatz autonome Fahr-Synthetikdaten hochpräziser Simulationsdatensatz synthetische Punktwolkendaten Kamera-Simulationsdatensatz synthetischer Mensch-Pose-Datensatz synthetischer Lidar-Datensatz 3D-Umgebungsmodellierung Robotik-Synthetikdaten DMS-Datensatz

Japanische OKWAVE Q&A Plattform Text Parsing und Datenverarbeitung

Japan OKWAVE Q&A Plattform Textdaten, einschließlich Fragen, Antworten, Kategorien, Veröffentlichungsdatum, Veröffentlichungsautor und viele andere Felder; die Daten werden laufend aktualisiert, bis Ende April 25, Fragen 8,4 Millionen, 2,3 Milliarden Text; Antworten 27 Millionen, 7,6 Milliarden Text; Dankeschön (der Ausdruck des Dankes des Fragenden an den Antwortenden) 15,5 Millionen, 1,7 Milliarden Text; zusätzliche Hinweise 2,1 Millionen, 360 Millionen Text; diese Daten können für das allgemeine Training großer Modelle verwendet werden

Q&A Text Japanisch

500 Stunden Tamil Sprachaufnahmen für die mobile Datenerfassung

Tamil Sprachdaten-Vorlesen (Handy), basierend auf vorgegebenen Skripten vorgelesen und simuliert aufgenommen, mit reichhaltigem Inhalt. Dieses Datenset kennzeichnet verschiedene Eigenschaften des Textinhalts und wurde von 479 lokalen Personen gesammelt, was eine hohe Genauigkeit gewährleistet. Es bietet reichhaltige Ressourcen für Forschung und Anwendungen im Bereich Spracherkennung. Mehrere KI-Unternehmen haben dies verifiziert: Es hilft dem Modell, in der Vielfalt der realen Welt hervorragende Leistungen zu erbringen. Wir halten uns strikt an Datenschutzgesetze und Privatsphärebestimmungen, um den Schutz der Privatsphäre und der gesetzlichen Rechte der Benutzer während Datenerfassung, Speicherung und Verwendung zu gewährleisten. Alle Daten entsprechen den Vorschriften von GDPR, CCPA und PIPL.

Tamil-Sprachdatensatz Tamil-Audiodatensatz Tamil-Sprachdatensatz Tamil-Monologdatensatz Tamil-Stimmkorpus Tamil-ASR-Daten geskriptete Sprache auf Tamil Smartphone-Tamil-Datensatz Spracherkennungs-Tamil-Datensatz mehrsprachige Sprachdaten

. . .

Abonnieren Sie unseren Newsletter

Seien Sie der Erste, der die neuesten Nexdata-Produkte, Datenlösungen und Unternehmensnachrichten erhält.

Standard-Datensätze: Alle Kategorie-Datensätze; LLM-Datensätze; Computer Vision-Datensätze; Spracherkennungsdatensätze; Sprachsynthese-Datensätze; OCR-Datensätze; Aussprache-Wörterbuch; NLU-Datensätze

Datendienst: 3D-Punktwolken-Daten; Daten der Straßenansicht; OCR-Daten; Verhaltenserkennung-Daten; Identitätserkennung-Daten; Spracherkennungsdaten; Sprachsynthesedaten; Multimodale Daten

Branchen: Verkörperte KI; Generative KI; Autonome Fahrzeuge; AR/VR; Konversationelle KI; Intelligentes Zuhause; Einzelhandel; Intelligentes Gesundheit

Unternehmen: Über uns; Nachrichten; Partner; Qualität und Sicherheit; Veranstaltung
Links: OPENMPD; DataPlus; Datarade

Plattform: Plattform
Wettbewerb: Wettbewerb
Ressourcen: Gesponserte Datensätze

Schärfen Sie Ihr KI mit Bessere Daten

+1(626)594-5598

[email protected]

Inhaltsverzeichnis Bedingungen und Konditionen

Wir verwenden Cookies, um Ihr Browsing-Erlebnis zu verbessern, personalisierte Werbung oder Inhalte bereitzustellen und unseren Datenverkehr zu analysieren. Wenn Sie auf "Alle akzeptieren" klicken, stimmen Sie unserer Verwendung von Cookies zu.

be810d7f-5961-4117-bb81-40d374bfa2da

Hochwertige Trainingsdatensätze

Sprache

Datentyp

262 Stunden Japanische Kindersprachdaten

288 Millionen 3D-Modelle und Szenendaten

Interspeech 2025-MLC-SLM Mehrsprachiges Dialog-Sprachwettbewerbsdatensatz

111 Stunden griechische Sprachaufnahmen für mobile Datenerfassung und Vorlesen

280 Stunden norwegische Sprachaufnahmen für mobile Datenerfassung