Top.Mail.Ru
хакатоны.рус - открой с нами мир хакатонов

Data Hack

DS/ML/AI Регистрация закрыта
SENSE Group проведет онлайн-хакатон DATA HACK с 5 по 7 августа! А ГК "Иннотех" выступит партнером в битве IT-умов.

Успей зарегистрироваться до 1 августа: https://hcklink.ru/8601
Призовой фонд: 300 000 рублей (по 100 000 рублей в каждом кейсе)

Кейсы
  • Статический анализатор SparkSQL с возможностью добавления пользовательских правил
Описание: необходимо разработать статический анализатор SparkSQL кода. Грамматика должна расширяться через отдельный BNF файл (https://en.wikipedia.org/wiki/Backus–Naur_form). Есть возможность добавлять пользовательские проверки в коде. Есть ООП интерфейс для использования из кода. Инструмент должен быть быстрым и изолированным. Не использовать Spark сессию. Укладываться в SLA до 5 секунд на 10 запросов.
Стек решений: #Python 3.7+, #Библиотека Lark, #Любые необходимые библиотеки, которые не требуют интеграции с внешними системами и БД.

  • Генератор фейковый данных для сложных запросов
Описание: есть набор dataclasses, описывающий имена таблиц, их столбцы и типы. Требуется генератор фейковых данных при заданном описании таблиц. Большое (100к+ строк на таблицу) количество данных может быть сгенерировано в разумные сроки (до 30 минут на 5 таблиц). Нужен ООП инструментарий, который может обернуть эти классы и настроить некоторые столбцы так, что таблицы будут джоиниться между собой. В определенных столбцах данные нужно генерить по маске (для прохождения where, и т. п.). Будет возможность использовать техники тест дизайна (частотное распределение, граничные значения, эквивалентное разбиение) 
Стек решений: #Python 3.7+, #Библиотека Faker или любые другие необходимые библиотеки, не требующие интеграции с внешними системами и БД.

  • Создание прототипа ETL Движка из Postgres, Oracle, ClickHouse в HDFS на Spark
Описание: движок должен быть шаблонизирован через конфигурацию. Простой snapshot с возможностью обогатить техническими столбцами (load_ts, source_name). Инкрементная загрузка с использованием HWM (High WaterMark) или другим методом.
Стек решений: #Python 3.7+, #PySpark 2+, #Hadoop 2+, #Postgres, #Oracle, #ClickHouse (см Spark JDBC).


Успей зарегистрироваться до 1 августа включительно: https://hcklink.ru/8601



Хочешь узнавать о новых хакатонах первым?
Подписывайся на нашу группу в ВК: https://vk.com/hackathoncom
Также, наш Telegram-бот, где мы присылаем хакатоны по параметрам, которые интересны тебе: https://t.me/hackathons4ubot