TensorFlow классификатор
Есть 1ГБ текста, - около 400 тысяч xml документов.
Нужно построить T5 text2text классификатор с нуля.
https://colab.research.google.com/github/google-research/text-to-text-transfer-transformer/blob/master/notebooks/t5-trivia.ipynb
Для этого потребуется выполнить следующие шаги:
- Построить sentencepiece (custom vocabulary токенов).
- Натренировать модель на эти xml документы и wikipedia (необходимо сбалансировать).
- Fine tune эту модель на две задачи:
- ... Читать дальше...