Мы новые гремлины в машине ИИ

Будьте в курсе бесплатных обновлений

Один из моих родственников услышал несколько странных историй, работая над головой в области здравоохранения во время пандемии Covid. Ее задача состояла в том, чтобы помочь абонентам завершить тесты быстрого бокового потока, используемые миллионы раз во время блокировки. Но некоторые абоненты были явно смущены процедурой. «Итак, я выпил жидкость в трубке. Что мне теперь делать?» спросил один.

Эта путаница пользователя может быть экстремальным примером общей технологической проблемы: как обычные люди используют продукт или услугу в реальном мире, может дико расходиться с намерениями дизайнеров в лаборатории.

Иногда это неправильное использование может быть преднамеренным, к лучшему или худшему. Например, журналисты организации кампании без границ пытались защитить свободу слова в нескольких авторитарных странах, скрывая запрещенное содержание на Шахтерское ремесло Сервер видеоигр. Преступники, тем временем, используют домашние 3D -принтеры для производства нетрачевированных оружия. Однако чаще, что злоупотребление непреднамеренным, как в случае тестов Covid. Назовите это непреднамеренной проблемой неправильного использования или «IMP» для краткости. Новые гремлины в машинах вполне могут быть бесками в чат -ботах.

Возьмите чат-боты общего назначения, такие как CHATGPT, которые используются 17 процентами американцев, по крайней мере, один раз в месяц, чтобы самодиагностировать проблемы со здоровьем. У этих чат -ботов есть удивительные технологические возможности, которые казались бы магией несколько лет назад. С точки зрения клинических знаний, сортировки, текстового обобщения и ответов на вопросы пациента, лучшие модели теперь могут соответствовать врачам -людям, согласно различным тестам. Например, два года назад мать в Великобритании успешно использовала CHATGPT для определения синдрома привязанного шнура (связанного с расщеплением позвоночника) у своего сына, которого упустили 17 врачей.

Это повышает перспективу того, что эти чат -боты могут однажды стать новой «входной дверью» для доставки здравоохранения, улучшая доступ по более низкой стоимости. На этой неделе Wes Streeting, министр здравоохранения Великобритании, пообещал обновить приложение NHS, используя искусственный интеллект, чтобы предоставить «врачу в вашем кармане, чтобы провести вас через вашу помощь». Но способы, которыми их можно лучше использовать, не совпадают с тем, как они чаще всего используются. Недавнее исследование, проведенное Оксфордским интернет -институтом, подчеркнуло некоторые тревожные недостатки, когда пользователи пытаются эффективно использовать их.

Исследователи зарегистрировали 1298 участников рандомизированного контролируемого испытания, чтобы проверить, насколько хорошо они могут использовать чат -ботов, чтобы ответить на 10 медицинских сценариев, включая острые головные боли, разбитые кости и пневмонию. Участникам было предложено определить состояние здоровья и найти рекомендуемый курс действий. Были использованы три чат-бота: GPT-4O OpenAI, Meta's Llama 3 и Cohere Command R+, которые имеют немного разные характеристики.

Когда тестовые сценарии были введены непосредственно в модели ИИ, чат -боты правильно определили условия в 94,9 % случаев. Тем не менее, участники сделали гораздо хуже: они предоставили неполную информацию, и чат -боты часто неверно истолковали свои подсказки, что привело к снижению уровня успеха до 34,5 процента. Технологические возможности этих моделей не изменились, но человеческие входы, что привело к очень разным результатам. Что еще хуже, участники теста также были превзошли контрольной группой, которая не имела доступа к чат -ботам, но вместо этого консультировался с регулярными поисковыми системами.

Результаты таких исследований не означают, что мы должны прекратить использование чат -ботов для совета по здоровью. Но это говорит о том, что дизайнеры должны уделять гораздо больше внимания тому, как обычные люди могут пользоваться своими услугами. «Инженеры склонны думать, что люди неправильно используют эту технологию. Поэтому любая неисправность пользователя является ошибкой пользователя. Но думать о технологических навыках пользователя является фундаментальным для проектирования», — говорит мне один из основателей компании по искусству. Это особенно верно для пользователей, ищущих медицинские советы, многие из которых могут быть отчаянными, больными или пожилыми людьми, демонстрирующими признаки психического ухудшения.

Больше специализированных чат -ботов в сфере здравоохранения могут помочь. Тем не менее, недавнее исследование Стэнфордского университета показало, что некоторые широко используемые чат -боты терапии, помогающие решать проблемы психического здоровья, также могут «ввести предубеждения и неудачи, которые могут привести к опасным последствиям». Исследователи предполагают, что необходимо включить больше ограждений, чтобы уточнить подсказки пользователей, активно запросить информацию, чтобы направлять взаимодействие и более четко общаться.

Технологические компании и поставщики медицинских услуг также должны провести гораздо больше пользовательских тестирования в реальных условиях, чтобы убедиться, что их модели используются надлежащим образом. Разработка мощных технологий — это одно; Изучение того, как эффективно их развернуть — это совсем другое. Остерегайтесь беседы.

John.thornhill@ft.com

Previous post Франция, чтобы сократить дополнительные 4,7 млрд евро в этом году, так как долг достигает новой записи — Politico
Next post Hamza Igamane Rangers Плата за перевод на фоне пропадения сравнения продаж кельтов