105,941 Bilder Naturszenen OCR-Daten von 12 Sprachen

Japanisch

Koreanisch

Indonesisch

Malaiisch

Vietnamesisch

Thailändisch

Französisch

Deutsch

Italienisch

Portugiesisch

Russisch

Spanisch

OCR

natürliche Szenen

mehrere Aufnahmewinkel

Beschriftung auf Linienebene mit viereckigen Begrenzungsrahmen und Transkription der Texte

105,941 Bilder mit OCR-Daten aus natürlichen Szenen in 12 Sprachen, darunter 6 asiatische und 6 europäische Sprachen, aufgenommen in verschiedenen natürlichen Szenen und aus verschiedenen Blickwinkeln. Die Beschriftung umfasst rechteckige Rahmen für zeilenweisen Text und die Transkription von zeilenweisem Text. Dieser Datensatz kann für OCR-Aufgaben in mehreren Sprachen verwendet werden.

Dies ist ein kostenpflichtiger Datensatz für kommerzielle Zwecke, Forschungszwecke und mehr. Lizenzierte, fertige Datensätze helfen, KI-Projekte in Gang zu bringen.

Spezifikationen

Größe der Daten

105,941 Bilder, darunter asiatische Sprachen: 9,997 Bilder auf Japanisch, 10,231 Bilder auf Koreanisch, 7,591 Bilder auf Indonesisch, 5,650 malaiische, 8,822 vietnamesische und 9,645 thailändische Fotos; europäische Sprachen: 10,015 französische, 7,213 deutsche, 8,824 italienische, 7,754 portugiesische, 10,376 russische und 9,823 spanische Fotos.

Akquisitionsumgebung

Einschließlich Ladenschilder, Haltestellenschilder, Plakate, Fahrkarten, Wegweiser, Comics, Kanaldeckelbilder, Hinweise, Warnhinweise, Verpackungsbeschreibungen, Speisekarten, Gebäudeschilder usw.

Vielfalt der Sammlung

Einschließlich 12 Sprachen, verschiedene natürliche Szenen, verschiedene Aufnahmewinkel (Aufwärtsblick, Abwärtsblick, Blick auf Augenhöhe)

Erfassungsgeräte

Handy, Kamera

Bildparameter

Bildformat: .jpg, Beschriftungsformat: .json

Inhalt des Markups

Zeilenbasierte Viereck-Annotation, Zeilenbasierte Viereck-Annotation

Genauigkeit

Die Abweichung der Eckpunkte des viereckigen Rahmens darf nicht mehr als fünf Pixel betragen, um als korrekte Erkennung zu gelten. Die Genauigkeit des Erkennungsrahmens darf nicht weniger als 97% betragen. Die Genauigkeit der Texterkennung darf nicht weniger als 97% betragen.

105,941 Bilder Naturszenen OCR-Daten von 12 Sprachen

Japanisch Koreanisch Indonesisch Malaiisch Vietnamesisch Thailändisch Französisch Deutsch Italienisch Portugiesisch Russisch Spanisch OCR natürliche Szenen mehrere Aufnahmewinkel Beschriftung auf Linienebene mit viereckigen Begrenzungsrahmen und Transkription der Texte

Projekt-Reifegrad

Japanisch

Koreanisch

Indonesisch

Malaiisch

Vietnamesisch

Thailändisch

Französisch

Deutsch

Italienisch

Portugiesisch

Russisch

Spanisch

OCR

natürliche Szenen

mehrere Aufnahmewinkel

Beschriftung auf Linienebene mit viereckigen Begrenzungsrahmen und Transkription der Texte