ИИ не очень хорош в истории, находки новой статьи

ИИ может преуспеть в определенных задачах, таких как программирование или создание подкаста. Но, как обнаружила новая газета, ему трудно сдать экзамен по истории высокого уровня.

Команда исследователей создала новый тест для тестирования трех лучших моделей больших языков (LLM) — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — по историческим вопросам. Тест Hist-LLM проверяет правильность ответов согласно базе данных глобальной истории Seshat — обширной базе данных исторических знаний, названной в честь древнеегипетской богини мудрости.

Результаты, представленные в прошлом месяце на громкой конференции по искусственному интеллекту NeurIPS, оказались разочаровывающими, по мнению исследователей, связанных с Complexity Science Hub (CSH), исследовательским институтом, базирующимся в Австрии. Лучшим LLM оказался GPT-4 Turbo, но он достиг точности лишь около 46% — не намного выше, чем случайное угадывание.

«Основной вывод из этого исследования заключается в том, что степень магистра права, хотя и впечатляет, все же не обладает глубиной понимания, необходимой для углубленной истории. Они отлично подходят для изучения основных фактов, но когда дело доходит до более тонких исторических исследований на уровне докторской степени, они пока не справляются с этой задачей», — сказала Мария дель Рио-Чанона, один из соавторов статьи и научный сотрудник. профессор информатики Университетского колледжа Лондона.

Исследователи поделились с TechCrunch примерами исторических вопросов, в которых студенты-магистры права ошиблись. Например, GPT-4 Turbo задали вопрос, присутствовала ли чешуйчатая броня в определенный период времени в Древнем Египте. Магистр права сказал да, но технология появилась в Египте только 1500 лет спустя.

Почему студенты LLM плохо отвечают на технические исторические вопросы, хотя они могут так хорошо отвечать на очень сложные вопросы о таких вещах, как программирование? Дель Рио-Чанона рассказал TechCrunch, что это, скорее всего, потому, что студенты магистратуры склонны экстраполировать исторические данные, которые очень важны, и им трудно получить более неясные исторические знания.

Например, исследователи спросили GPT-4, имела ли древний Египет профессиональную постоянную армию в определенный исторический период. Хотя правильный ответ — нет, LLM неправильно ответил, что да. Вероятно, это связано с тем, что существует много общедоступной информации о других древних империях, таких как Персия, имеющих постоянные армии.

«Если вам расскажут А и Б 100 раз и С 1 раз, а затем зададут вопрос о С, вы можете просто вспомнить А и Б и попытаться экстраполировать это», — сказал дель Рио-Чанона.

Исследователи также выявили другие тенденции, в том числе то, что модели OpenAI и Llama работали хуже в некоторых регионах, таких как Африка к югу от Сахары, что указывает на потенциальную погрешность в их обучающих данных.

Результаты показывают, что степень магистра права по-прежнему не заменяет людей, когда дело касается определенных областей, сказал Питер Турчин, который руководил исследованием и является преподавателем CSH.

Но исследователи все еще надеются, что степень магистра права может помочь историкам в будущем. Они работают над усовершенствованием своего теста, включая больше данных из недостаточно представленных регионов и добавляя более сложные вопросы.

«В целом, хотя наши результаты подчеркивают области, в которых LLM нуждаются в улучшении, они также подчеркивают потенциал этих моделей для помощи в исторических исследованиях», — говорится в документе.

Райан Боуман: Нападающий запрещен в течение 42 месяцев для размещения 6 397 ставок

Трамп выбирает министра транспорта Шона Даффи, чтобы возглавить НАСА на данный момент, после того, как вытащил кандидатуру, поддерживаемую мускусом

Сарина Вигман поживает, когда Льестия возрождает надежды на евро 2025

Лорен Джеймс: «Нет потолка» на «Global Star», чьи цели помогают Англии победить Нидерланды

US Golfer Harris English ожидает на Caddy после проблем с визой после осуждения исторических наркотиков

Администрация Трампа подает в суд на Калифорнию, утверждая, что законы о жестоком обращении с животными вызывают высокие цены на яйца

Почему Рой Ли из «Клюили» не потеет детекторами мошенничества

PSG 4-0 Реал Мадрид: Лука Модрич играет в последнюю игру для Реала после Кубка мира клуба

Бен Аскрен говорит, что он «умер четыре раза» до пересадки двойного легкого

Футбольные сплетни: Гарначо, Мбемо, Гёкеры, Лонгстафф, Алоко, Санчо, Макати, Родриго, Диас

Microsoft делится 500 млн долларов в сберегательстве искусственного интеллекта в течение нескольких дней после сокращения 9 000 рабочих мест

Пластиковые отходы — решаемая проблема — политико