100,000 Instruktionsfolgende Auswertung SFT für chinesische LLM-Textdaten
100,000 Paare komplexer Aufforderungsanweisungen in Chinesisch mit Wortzahlen zwischen 50 und 400 Wörtern und nicht weniger als 3 Einschränkungen in jeder Aufforderung werden für das Training verwendet, um das Befolgen von Anweisungen in großen Modellen zu verbessern. Die Kategorien umfassen Generierung (Schreiben von Pressemitteilungen, Interviewskizzen, Copywriting, Manuskriptkorrektur, chinesische und englische Kompositionen, Grammatikstudium, Forschungsberichte, Studienpläne, Erstellung von Gedichten, Einführung in Lebensmittel, sanfte Werbung, Verkaufstaktiken, Schreiben von offiziellen Dokumenten mit Unterstützung, Überprüfung von offiziellen Dokumenten, Fragen und Antworten zu politischen Dokumenten usw.), Umschreiben (Umschreiben von Sätzen, Textkorrektur, Zusammenfügen von Sätzen, vereinfachtes Copywriting), Zusammenfassen (Inhaltszusammenfassungen), Extrahieren (Ereignisse), Extrahieren von Elementen, Extrahieren von Meinungen, Extrahieren von Schlüsselwörtern) und Extrahieren (Ereignisse). Element-Extraktion, Meinungs-Extraktion, Schlüsselwort-Extraktion, Positions-Extraktion, Entity-Extraktion). Alle Prompts werden manuell verfasst, um die Diversität abzudecken.
LLM Anweisung-folgen SFT