Хакатон Академии ИИ «Молекула»

Ежегодно в рецензируемых журналах выходят миллионы научных статей, обогащающих человеческие знания о природе веществ. Обработка этой информации – значительный шаг к формированию химических баз данных и построению моделей, предназначенных для предсказания разнообразных свойств соединений.

Однако, ручной сбор практически невозможен из-за колоссальных объемов данных, а общие большие языковые модели испытывают проблемы с химической терминологией, аббревиатурами, таблицами и структурными формулами, зачастую представленными в виде изображений.

В рамках заключительного хакатона Академии искусственного интеллекта для школьников, участникам предоставляется возможность погрузиться в увлекательный процесс разработки проекта для интерпретации химических формул.

Задача хакатона:

Создать систему, способную распознавать изображения органических молекул и переводить их в формат SMILES, уникальный язык, преобразующий сложные химические соединения в легко читаемые текстовые строки.

Метрика
Метрикой качества служит произведение двух величин: доли SMILES строк, которые соответствуют валидным молекулам, и средней схожести распознанных молекул с правильными по метрике Танимото. Обе величины изменяются от нуля до единицы, и задача участников получить максимальное значение.

Baseline
Приведенный пример решения задачи распознавания малых органических молекул по их изображениям базируется на encoder-decoder ("кодировщик-декодировщик") системе. В качестве кодировщика используется ResNet сверточный слой, переводящий изображение в вектор фиксированной длины. Декодировщик представляет собой рекурентную нейронную сеть с LSTM механизмом внимания.

Данные
В качестве исходных данных для тренировки алгоритма предложены 100000 молекул из базы данных ChEMBL в виде SMILES строк и соответствующих 2D изображений. В рамках данного соревнования участниками также разрешается использовать любые химические базы данных и средства аугментации данных для расширения обучающего набора, если итоговое решение подходит под требования к формату, описанному ниже.

Формат решений

Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены.

Модель должна принимать на вход путь к папке с изображениями и файлу indices.csv, содержащему колонку "id" с индексами изображений (изображения в папке именованы в формате индекс.расширение) Ответы, полученные моделью Участника, должны быть сохранены в файл predictions.csv, содержащий колонки "id" и “smiles”.

Решения принимаются в виде zip-архива размером не более 5Gb, имеющего структуру:

metadata.json
user_file_1
user_file_2
…
user_file_n

В файле metadata.json должны быть два поля:

image - публичный образ в DockerHub, например “odsai/nto23:5.0”
entry_point - команда для запуска в контейнере, например “python run.py”

В течение одних суток Участник или Команда Участников может загрузить для оценки не более 5 решений.
Так как решение не имеет доступ к Интернету, все дополнительные данные, например, веса обученной модели, должны быть загружены в контейнер. В качестве примера организаторы предоставляют контейнер для запуска бейзлайн-решения.

Ресурсы для образа:

8 vCPU
96Gb RAM
Nvidia V100, 32Gb
10Gb дискового пространства

Время на исполнение - 45 минут:

5 минут на check - не учитывается в метрике
20 минут на public
20 минут на private

FAQ:

1. Я могу не выбирать финальные сабмиты?
Да, тогда в зачет пойдут два лучших сабмита на public лидерборде.
2. Сколько сабмитов в день можно загружать?
Вам доступно 5 сабмитов в сутки.
3. Статус у сабмита “Queued”, что делать дальше?
Ваш сабмит находится в очереди на обработку. В среднем это может занимать 15-30 минут в зависимости от количества одновременно отправленных решений. В вечернее время и в последние дни перед закрытием лидерборда, время обработки всегда увеличивается ввиду возросшего количества решений, учитывайте это при планировании работы.

Призовой фонд - 1 000 000 рублей!

Формат: онлайн

Регистрация до 30 января:

Зарегистрироваться

Хочешь узнавать о новых хакатонах, соревнованиях первым?
Подписывайся на наши социальные сети:

Telegram-канал Группа в ВК

Также, подписывайся на наш Telegram-бот, где мы присылаем хакатоны, соревнования по параметрам, которые интересны тебе:

Telegram-бот

Услуги экосистемы Хакрус

Организовать хакатон

Платформа для хакатона