Что делаем: ETL/ELT процессы, парсинг данных из открытых и закрытых источников, очистка от аномалий и дублей, синтез данных (Data Augmentation), а также организация процесса разметки (Labeling) силами экспертов или ассессоров.
Техстек: Apache Spark, Airflow, Python (Pandas/Polars), SQL, CVat/Label Studio (для разметки).
Результат: Структурированный, валидированный и аннотированный датасет, готовый для подачи на вход модели (в форматах Parquet, TFRecord, JSONL и др.).