[{"@type":"PropertyValue","name":"Sprachtyp","value":"Indonesisch, Malaiisch, Thailändisch, Vietnamesisch"},{"@type":"PropertyValue","name":"Datenmenge","value":"Indonesisch 14,447,771, Malaiisch 1,239,420, Thailändisch 6,467,564, Vietnamesisch 8,942,813, insgesamt über 31 Millionen Einträge."},{"@type":"PropertyValue","name":"Feld","value":"URL,Titel,Veröffentlichungszeit,Artikel_Inhalt,Kategorie"},{"@type":"PropertyValue","name":"Formatierung","value":"Jsonl"}]
{"id":1625,"datatype":"1","titleimg":"https://de.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"226","type1str":null,"type2":"227","type2str":null,"dataname":"31 Millionen Nachrichtendaten in südostasiatischen Sprachen","datazy":[{"title":"Sprachtyp","desc":"Sprachtyp","content":"Indonesisch, Malaiisch, Thailändisch, Vietnamesisch"},{"title":"Datenmenge","desc":"Datenmenge","content":"Indonesisch 14,447,771, Malaiisch 1,239,420, Thailändisch 6,467,564, Vietnamesisch 8,942,813, insgesamt über 31 Millionen Einträge."},{"title":"Feld","desc":"Feld","content":"URL,Titel,Veröffentlichungszeit,Artikel_Inhalt,Kategorie"},{"title":"Formatierung","desc":"Formatierung","content":"Jsonl"}],"datatag":"Minor languages,Southeast Asia,NEWS,Journalism","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"马来语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E9%A9%AC%E6%9D%A5%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=5rkbhwPKFeZUofOfpzcAP1%2B7Vas%3D","intro":"","size":44215,"progress":100,"type":"jpg"},{"name":"泰语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E6%B3%B0%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=1DspN1HLIWVpn%2FYfI6JAu0ZMbl0%3D","intro":"","size":103642,"progress":100,"type":"jpg"},{"name":"印尼语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E5%8D%B0%E5%B0%BC%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=VgoGApYUn6%2BChZRcnvN08SYI8cU%3D","intro":"","size":115113,"progress":100,"type":"jpg"}],"officialSummary":"Bei diesem Datensatz handelt es sich um mehrsprachige Nachrichtendaten für Südostasien, die vier Sprachen abdecken: Indonesisch, Malaiisch, Thai und Vietnamesisch. Die Gesamtzahl der Daten beläuft sich auf mehr als 31 Millionen. Die Daten sind im JSONL-Format gespeichert, wobei jeder Datensatz in einer separaten Zeile steht, was einfach zu lesen und effizient zu verarbeiten ist. Die Daten stammen aus einer Vielzahl von Quellen und decken eine Vielzahl von Nachrichtenthemen ab, die die soziale Dynamik, kulturelle Brennpunkte und wirtschaftliche Trends in Südostasien umfassend widerspiegeln können. Dieser Datensatz kann Big Models dabei helfen, die Mehrsprachigkeit zu verbessern, das kulturelle Wissen zu erweitern, die Leistung zu optimieren, die Anwendungen für die südostasiatische Industrie zu erweitern und die sprachübergreifende Forschung zu fördern.","dataexampl":null,"datakeyword":["Minderheitensprachen"," Südostasien"," NEWS"," Journalismus"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Type","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"llm","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,PT,DE\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"31 million Southeast Asian language news text dataset","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"越南语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E8%B6%8A%E5%8D%97%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=HZvCPn1N1QW%2BocWDBvsxQJcoJzc%3D","intro":"","size":108698,"progress":100,"type":"jpg"}]}
31 Millionen Nachrichtendaten in südostasiatischen Sprachen
Minderheitensprachen
Südostasien
NEWS
Journalismus
Bei diesem Datensatz handelt es sich um mehrsprachige Nachrichtendaten für Südostasien, die vier Sprachen abdecken: Indonesisch, Malaiisch, Thai und Vietnamesisch. Die Gesamtzahl der Daten beläuft sich auf mehr als 31 Millionen. Die Daten sind im JSONL-Format gespeichert, wobei jeder Datensatz in einer separaten Zeile steht, was einfach zu lesen und effizient zu verarbeiten ist. Die Daten stammen aus einer Vielzahl von Quellen und decken eine Vielzahl von Nachrichtenthemen ab, die die soziale Dynamik, kulturelle Brennpunkte und wirtschaftliche Trends in Südostasien umfassend widerspiegeln können. Dieser Datensatz kann Big Models dabei helfen, die Mehrsprachigkeit zu verbessern, das kulturelle Wissen zu erweitern, die Leistung zu optimieren, die Anwendungen für die südostasiatische Industrie zu erweitern und die sprachübergreifende Forschung zu fördern.
Dies ist ein kostenpflichtiger Datensatz für kommerzielle Zwecke, Forschungszwecke und mehr. Lizenzierte, fertige Datensätze helfen, KI-Projekte in Gang zu bringen.