ИИ может преуспеть в определенных задачах, таких как программирование или создание подкаста. Но, как обнаружила новая газета, ему трудно сдать экзамен по истории высокого уровня.
Команда исследователей создала новый тест для тестирования трех лучших моделей больших языков (LLM) — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — по историческим вопросам. Тест Hist-LLM проверяет правильность ответов согласно базе данных глобальной истории Seshat — обширной базе данных исторических знаний, названной в честь древнеегипетской богини мудрости.
Результаты, представленные в прошлом месяце на громкой конференции по искусственному интеллекту NeurIPS, оказались разочаровывающими, по мнению исследователей, связанных с Complexity Science Hub (CSH), исследовательским институтом, базирующимся в Австрии. Лучшим LLM оказался GPT-4 Turbo, но он достиг точности лишь около 46% — не намного выше, чем случайное угадывание.
«Основной вывод из этого исследования заключается в том, что степень магистра права, хотя и впечатляет, все же не обладает глубиной понимания, необходимой для углубленной истории. Они отлично подходят для изучения основных фактов, но когда дело доходит до более тонких исторических исследований на уровне докторской степени, они пока не справляются с этой задачей», — сказала Мария дель Рио-Чанона, один из соавторов статьи и научный сотрудник. профессор информатики Университетского колледжа Лондона.
Исследователи поделились с TechCrunch примерами исторических вопросов, в которых студенты-магистры права ошиблись. Например, GPT-4 Turbo задали вопрос, присутствовала ли чешуйчатая броня в определенный период времени в Древнем Египте. Магистр права сказал да, но технология появилась в Египте только 1500 лет спустя.
Почему студенты LLM плохо отвечают на технические исторические вопросы, хотя они могут так хорошо отвечать на очень сложные вопросы о таких вещах, как программирование? Дель Рио-Чанона рассказал TechCrunch, что это, скорее всего, потому, что студенты магистратуры склонны экстраполировать исторические данные, которые очень важны, и им трудно получить более неясные исторические знания.
Например, исследователи спросили GPT-4, имела ли древний Египет профессиональную постоянную армию в определенный исторический период. Хотя правильный ответ — нет, LLM неправильно ответил, что да. Вероятно, это связано с тем, что существует много общедоступной информации о других древних империях, таких как Персия, имеющих постоянные армии.
«Если вам расскажут А и Б 100 раз и С 1 раз, а затем зададут вопрос о С, вы можете просто вспомнить А и Б и попытаться экстраполировать это», — сказал дель Рио-Чанона.
Исследователи также выявили другие тенденции, в том числе то, что модели OpenAI и Llama работали хуже в некоторых регионах, таких как Африка к югу от Сахары, что указывает на потенциальную погрешность в их обучающих данных.
Результаты показывают, что степень магистра права по-прежнему не заменяет людей, когда дело касается определенных областей, сказал Питер Турчин, который руководил исследованием и является преподавателем CSH.
Но исследователи все еще надеются, что степень магистра права может помочь историкам в будущем. Они работают над усовершенствованием своего теста, включая больше данных из недостаточно представленных регионов и добавляя более сложные вопросы.
«В целом, хотя наши результаты подчеркивают области, в которых LLM нуждаются в улучшении, они также подчеркивают потенциал этих моделей для помощи в исторических исследованиях», — говорится в документе.