Теоретически, материаловедение должно идеально подходить для искусственного интеллекта. Эта область основана на данных — бандгапе, кристаллических структурах, кривых электропроводности — тех измеримых и воспроизводимых величинах, которые так нравятся машинам. Однако на практике бóльшая часть этих данных труднодоступна. Они разбросаны по десятилетиям научных работ, заключены в подписях к рисункам, химических формулах и тексте, который был написан для людей, а не для машин. Поэтому, когда ученые пытаются создать инструменты ИИ для решения реальных задач материаловедения, они часто сталкиваются с проблемами, сообщает портал BigDATAwire.

Группа исследователей из Кембриджского университета, работающих в сотрудничестве с Аргоннской национальной лабораторией Министерства энергетики США (DOE), вплотную занялась этой проблемой. Группа под руководством профессора Жаклин Коул разработала конвейер, который извлекает структурированные материалы из журнальных статей и преобразует их в высококачественные наборы данных «вопросы-ответы». Используя такие инструменты, как ChemDataExtractor, и предметно-ориентированные модели, такие как MechBERT, они создают системы ИИ, которые учатся непосредственно на тех же материалах исследований, на которые опираются ученые-люди.

Этот проект является частью более длительного сотрудничества между лабораторией Коула и Аргоннской национальной лабораторией. Команда начала сотрудничать с Argonne Leadership Computing Facility (ALCF) в 2016 г. в рамках одного из первых проектов в рамках своей программы Data Science. Эта поддержка на раннем этапе помогла определить направление работы лаборатории, особенно в том, что касается преобразования исходных данных в структурированную информацию, которую можно использовать для обучения инструментов ИИ. Это заложило основу для большей части работы, которую они выполняют сегодня.

«Цель состоит в том, чтобы иметь в своей лаборатории что-то вроде цифрового ассистента, — говорит Коул, которая является профессором физики материалов в Королевской академии инженерных исследований в Кембридже, где она возглавляет отдел молекулярной инженерии. — Это инструмент, который дополняет ученых, отвечая на вопросы и предлагая обратную связь, помогающую проводить эксперименты и направлять их исследования».

Прежде чем модель сможет принести какую-либо пользу, исходная информация должна быть преобразована в то, с чем она действительно может работать. Команда Коул использует важные выводы из опубликованных исследований и переписывает их в виде простых вопросов и ответов. Это могут быть вопросы, которые задал бы специалист по материаловедению во время эксперимента, или детали, на выяснение которых обычно уходят часы. Благодаря представлению этих знаний в привычной структурированной форме, ИИ начинает действовать скорее как научный помощник, чем как поисковая система.

Большинство языковых моделей необходимо обучать с нуля, начиная с обширных наборов данных, которые могут иметь мало общего с реальной наукой. Этот процесс требует времени, усилий и часто приводит к созданию инструментов, которые звучат уверенно, но упускают детали. Подход, которого придерживается группа Коул, полностью исключает этот дорогостоящий процесс предварительной подготовки. Предоставляя модели целенаправленный, хорошо организованный контент с самого начала, они избегают траты ресурсов на обучение тому, что ей знать необязательно. От модели не требуют, чтобы она разбиралась во всем. Ей передают нужную информацию в нужном формате.

«Важно то, что этот подход снимает вопрос перегрузки знаниями самой языковой модели, — говорит Коул. — Вместо того, чтобы рассчитывать на то, что модель „знает“ все, мы предоставляем ей прямой доступ к тщательно отобранным, структурированным знаниям в форме вопросов и ответов. Это означает, что мы можем полностью отказаться от предварительного массового обучения и тем не менее получать пользу для конкретной предметной области».

Если вы сравните модели Коул, ориентированные на конкретную предметную область, с большими языковыми моделями (LLM) общего назначения, вы заметите явную разницу: первые построены для рассуждений на базе научной логики, в то время как вторые обучены имитировать язык. Это имеет значение в материаловедении, где важна точность, а неправильные ответы имеют последствия. Общая модель ИИ может генерировать беглый ответ простым языком, но ее результаты не обязательно будут основаны на авторитетной научной литературе. Модели Коул построены таким образом, чтобы избежать этого, изучая только надежные источники, а не интернет-шум.

«Возможно, команда проводит интенсивный эксперимент в 3 часа ночи на установке с источником света, и происходит что-то неожиданное, — приводит пример Коул. — Им нужен быстрый ответ, и у них нет времени просматривать всю научную литературу. Если у них есть языковая модель для конкретной предметной области, обученная на соответствующих материалах, они могут задать ей вопросы, которые помогут интерпретировать данные, скорректировать настройки и продолжить эксперимент».

Исследователи утверждают, что этот метод уже показал себя многообещающим на практике. В одном тестовом примере модель, обученная на основе данных о фотоэлектрической энергии в форме вопросов и ответов, достигла точности, на 20% превышающей точность гораздо более крупных систем общего назначения. Для этого не потребовалось массового обучения или сбора данных в Интернете. Все, что для этого требовалось, — это просто точные и достоверные данные.

Аналогичные результаты были получены при работе с механическими данными. Исследователи создали специализированную модель MechBERT, основанную на данных о напряжениях и деформациях, извлеченных из научной литературы. Она неизменно демонстрирует лучшие результаты, чем стандартные инструменты, при прогнозировании реакции материала.

Исследователи протестировали конвейер на оптоэлектронных материалах. Модель достигла запланированной производительности, будучи в меньшей степени ориентированной на масштабирование, а в большей — на более эффективную работу. Для этого потребовалось на 80% меньше вычислений, чем при традиционных подходах. Для лабораторий с ограниченным доступом к инфраструктуре такие результаты меняют правила игры.

Одна из самых практичных особенностей этого подхода заключается в том, что он требует минимальных затрат. Вам не нужно проводить массовое обучение или иметь доступ к специализированной инфраструктуре. Команда Коул показала, что с помощью всего нескольких графических процессоров исследователи могут точно настроить модель, используя свои собственные данные о материалах. Это позволяет небольшим лабораториям или любому специалисту, не связанному с ИИ, создавать инструменты, которые действительно помогают им в работе.

«Вам не нужно быть экспертом в области языковых моделей, — говорит Коул. — Вы можете взять готовую языковую модель и настроить ее для вашей конкретной области материаловедения с помощью всего нескольких графических процессоров или даже вашего персонального компьютера. Это скорее подход „подключи и работай“, который делает процесс использования ИИ намного более эффективным».

Исследователи подчеркивают, что их система предназначена не для замены людей, а скорее для того, чтобы позволить им создавать модели ИИ, основанные на данных материаловедения. Такая ИИ-поддержка, особенно в областях, связанных с большим объемом данных, таких как материаловедение, может реально изменить ситуацию.