Ежегодно в рецензируемых журналах выходят миллионы научных статей, обогащающих человеческие знания о природе веществ. Обработка этой информации – значительный шаг к формированию химических баз данных и построению моделей, предназначенных для предсказания разнообразных свойств соединений.
Однако, ручной сбор практически невозможен из-за колоссальных объемов данных, а общие большие языковые модели испытывают проблемы с химической терминологией, аббревиатурами, таблицами и структурными формулами, зачастую представленными в виде изображений.
В рамках заключительного хакатона Академии искусственного интеллекта для школьников, участникам предоставляется возможность погрузиться в увлекательный процесс разработки проекта для интерпретации химических формул.
Метрика
Метрикой качества служит произведение двух величин: доли SMILES строк, которые соответствуют валидным молекулам, и средней схожести распознанных молекул с правильными по метрике Танимото. Обе величины изменяются от нуля до единицы, и задача участников получить максимальное значение.
Baseline
Приведенный пример решения задачи распознавания малых органических молекул по их изображениям базируется на encoder-decoder ("кодировщик-декодировщик") системе. В качестве кодировщика используется ResNet сверточный слой, переводящий изображение в вектор фиксированной длины. Декодировщик представляет собой рекурентную нейронную сеть с LSTM механизмом внимания.
Данные
В качестве исходных данных для тренировки алгоритма предложены 100000 молекул из базы данных ChEMBL в виде SMILES строк и соответствующих 2D изображений. В рамках данного соревнования участниками также разрешается использовать любые химические базы данных и средства аугментации данных для расширения обучающего набора, если итоговое решение подходит под требования к формату, описанному ниже.
Модель должна принимать на вход путь к папке с изображениями и файлу indices.csv, содержащему колонку "id" с индексами изображений (изображения в папке именованы в формате индекс.расширение) Ответы, полученные моделью Участника, должны быть сохранены в файл predictions.csv, содержащий колонки "id" и “smiles”.
Решения принимаются в виде zip-архива размером не более 5Gb, имеющего структуру:
В файле metadata.json должны быть два поля:
В течение одних суток Участник или Команда Участников может загрузить для оценки не более 5 решений.
Так как решение не имеет доступ к Интернету, все дополнительные данные, например, веса обученной модели, должны быть загружены в контейнер. В качестве примера организаторы предоставляют контейнер для запуска бейзлайн-решения.
Ресурсы для образа:
Время на исполнение - 45 минут:
Да, тогда в зачет пойдут два лучших сабмита на public лидерборде.
2. Сколько сабмитов в день можно загружать?
Вам доступно 5 сабмитов в сутки.
3. Статус у сабмита “Queued”, что делать дальше?
Ваш сабмит находится в очереди на обработку. В среднем это может занимать 15-30 минут в зависимости от количества одновременно отправленных решений. В вечернее время и в последние дни перед закрытием лидерборда, время обработки всегда увеличивается ввиду возросшего количества решений, учитывайте это при планировании работы.
Призовой фонд - 1 000 000 рублей!
Формат: онлайн
Регистрация до 30 января:
Однако, ручной сбор практически невозможен из-за колоссальных объемов данных, а общие большие языковые модели испытывают проблемы с химической терминологией, аббревиатурами, таблицами и структурными формулами, зачастую представленными в виде изображений.
В рамках заключительного хакатона Академии искусственного интеллекта для школьников, участникам предоставляется возможность погрузиться в увлекательный процесс разработки проекта для интерпретации химических формул.
Задача хакатона:
Создать систему, способную распознавать изображения органических молекул и переводить их в формат SMILES, уникальный язык, преобразующий сложные химические соединения в легко читаемые текстовые строки.Метрика
Метрикой качества служит произведение двух величин: доли SMILES строк, которые соответствуют валидным молекулам, и средней схожести распознанных молекул с правильными по метрике Танимото. Обе величины изменяются от нуля до единицы, и задача участников получить максимальное значение.
Baseline
Приведенный пример решения задачи распознавания малых органических молекул по их изображениям базируется на encoder-decoder ("кодировщик-декодировщик") системе. В качестве кодировщика используется ResNet сверточный слой, переводящий изображение в вектор фиксированной длины. Декодировщик представляет собой рекурентную нейронную сеть с LSTM механизмом внимания.
Данные
В качестве исходных данных для тренировки алгоритма предложены 100000 молекул из базы данных ChEMBL в виде SMILES строк и соответствующих 2D изображений. В рамках данного соревнования участниками также разрешается использовать любые химические базы данных и средства аугментации данных для расширения обучающего набора, если итоговое решение подходит под требования к формату, описанному ниже.
Формат решений
Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены.Модель должна принимать на вход путь к папке с изображениями и файлу indices.csv, содержащему колонку "id" с индексами изображений (изображения в папке именованы в формате индекс.расширение) Ответы, полученные моделью Участника, должны быть сохранены в файл predictions.csv, содержащий колонки "id" и “smiles”.
Решения принимаются в виде zip-архива размером не более 5Gb, имеющего структуру:
- metadata.json
- user_file_1
- user_file_2
- …
- user_file_n
В файле metadata.json должны быть два поля:
- image - публичный образ в DockerHub, например “odsai/nto23:5.0”
- entry_point - команда для запуска в контейнере, например “python run.py”
В течение одних суток Участник или Команда Участников может загрузить для оценки не более 5 решений.
Так как решение не имеет доступ к Интернету, все дополнительные данные, например, веса обученной модели, должны быть загружены в контейнер. В качестве примера организаторы предоставляют контейнер для запуска бейзлайн-решения.
Ресурсы для образа:
- 8 vCPU
- 96Gb RAM
- Nvidia V100, 32Gb
- 10Gb дискового пространства
Время на исполнение - 45 минут:
- 5 минут на check - не учитывается в метрике
- 20 минут на public
- 20 минут на private
FAQ:
1. Я могу не выбирать финальные сабмиты?Да, тогда в зачет пойдут два лучших сабмита на public лидерборде.
2. Сколько сабмитов в день можно загружать?
Вам доступно 5 сабмитов в сутки.
3. Статус у сабмита “Queued”, что делать дальше?
Ваш сабмит находится в очереди на обработку. В среднем это может занимать 15-30 минут в зависимости от количества одновременно отправленных решений. В вечернее время и в последние дни перед закрытием лидерборда, время обработки всегда увеличивается ввиду возросшего количества решений, учитывайте это при планировании работы.
Призовой фонд - 1 000 000 рублей!
Формат: онлайн
Регистрация до 30 января:
Хочешь узнавать о новых хакатонах, соревнованиях первым?
Подписывайся на наши социальные сети:
Подписывайся на наши социальные сети:
Также, подписывайся на наш Telegram-бот, где мы присылаем хакатоны, соревнования по параметрам, которые интересны тебе: