Утечка данных раскрывает китайскую цензуру AI

Жалоба на бедность в сельском Китае. Новостной отчет о коррумпированном члене Коммунистической партии. Крик о помощи о коррумпированных полицейских, трястившихся предпринимателями.

Это лишь некоторые из 133 000 примеров, которые придают сложную большую языковую модель, которая предназначена для автоматического помещения любого части контента, считающегося чувствительным правительством Китая.

Утечка базы данных, увиденная TechCrunch, показывает, что China разработала систему ИИ, которая надругает свою уже грозную цензуру, выходящую далеко за пределы традиционных табу, таких как резня на площади Тяньаньмэнь.

Система, по -видимому, в основном ориентирована на цензуру китайских граждан в Интернете, но может использоваться для других целей, таких как улучшение и без того, чтобы улучшить уже обширную цензуру китайских моделей ИИ.

Китайский флаг на шесте позади бритвы
Эта фотография, сделанная 4 июня 2019 года, показывает китайский флаг позади бритвы в жилищном комплексе в Йенгисаре, к югу от Кашгара, в западном регионе Китая Синьцзян.Кредиты изображения:Greg Baker / AFP / Getty Images

Сяо Цянь, исследователь Калифорнийского университета в Беркли, который изучает китайскую цензуру и который также изучил набор данных, сказал TechCrunch, что это «четкие доказательства», что правительство Китая или его аспекты хотят использовать LLM для улучшения репрессий.

«В отличие от традиционных механизмов цензуры, которые полагаются на человеческий труд для фильтрации на основе ключевых слов и ручного обзора, LLM, обученный таким инструкциям, значительно повысит эффективность и детализацию контроля информации, под руководством состояния»,-сказал Цян TechCrunch.

Это добавляет к растущим доказательствам, что авторитарные режимы быстро принимают новейшие технологии ИИ. Например, в феврале Openai заявила, что поймала несколько китайских организаций, использующих LLMS для отслеживания антиправительственных постов и мазки китайских диссидентов.

Китайское посольство в Вашингтоне, округ Колумбия, заявило TechCrunch в своем заявлении, что оно противостоит «беспомощным нападениям и клеветам на Китай» и что Китай придает большое значение развитию этического ИИ.

Данные, найденные на виду

Набор данных был обнаружен исследователем безопасности Netaskari, который поделился образцом с TechCrunch после того, как обнаружил, что он хранится в необеспеченной базе данных ElasticSearch, размещенной на сервере Baidu.

Это не указывает на какое -либо участие ни от компании — все виды организаций хранят свои данные с этими поставщиками.

Нет никаких признаков того, кто точно построил набор данных, но записи показывают, что данные являются недавними, с его последними записями, датируемыми с декабря 2024 года.

LLM для обнаружения инакомыслия

В языке жутко напоминает о том, как люди привлекают CHATGPT, создатель системы задает неназванную LLM, чтобы выяснить, имеет ли часть контента каким -либо образом с чувствительными темами, связанными с политикой, социальной жизнью и военными. Такой контент считается «наивысшим приоритетом» и должен быть немедленно помечен.

Темы высшего приоритета включают скандалы с загрязнением и безопасностью пищевых продуктов, финансовое мошенничество и трудовые споры, которые являются горячими проблемами в Китае, которые иногда приводят к общественным протестам-например, протесты против переполнения Shifang 2012 года.

Любая форма «политической сатиры» явно нацелена. Например, если кто -то использует исторические аналогии, чтобы высказать свое мнение о «современных политических деятелях», которые должны быть мгновенно помечены, и поэтому должно что -то связано с «Тайваньской политикой». Военные вопросы активно подвергаются активности, включая сообщения о военных движениях, учениях и вооружении.

Результат набора данных можно увидеть ниже. Код внутри IT ссылается на токены и LLMS, подтверждая, что система использует модель искусственного интеллекта для выполнения своих ставок:

фрагмент кода JSON, который ссылается на токены и LLMS. Большая часть содержимого на китайском языке.
Кредиты изображения:Чарльз Ролет

Внутри учебных данных

Из этой огромной коллекции из 133 000 примеров, которые LLM должен оценить для цензуры, TechCrunch собрал 10 репрезентативных частей контента.

Темы, которые могут вызвать социальные беспорядки, являются повторяющейся темой. Например, один фрагмент — это пост владельца бизнеса, жалующегося на коррумпированные сотрудники местной полиции, дрожащие предпринимателей, что является растущей проблемой в Китае, поскольку его экономика борется.

Другая часть контента сетует на сельскую бедность в Китае, описывая разрушенные города, в которых остались только пожилые люди и дети. Есть также новостной отчет о Коммунистической партии Китая (CCP), который изгнал местного чиновника для суровой коррупции и веры в «суеверия» вместо марксизма.

Существует обширный материал, связанный с Тайванями и военными вопросами, такими как комментарии о военных возможностях Тайваня и подробностями о новом китайском реактивном бою. Китайское слово для Тайваня (台湾) упоминается более 15 000 раз в данных, показывает поиск от TechCrunch.

Тонкое несогласие, кажется, тоже целенаправленно. Одним из фрагментов, включенных в базу данных, является анекдот о мимолетной природе власти, который использует популярную китайскую идиому: «Когда дерево падает, обезьяны разбросаны».

Переходы власти являются особенно обидчивой темой в Китае благодаря ее авторитарной политической системе.

Создан для работы общественного мнения'

Набор данных не включает никакой информации о его создателях. Но в нем говорится, что он предназначен для «работы общественного мнения», что дает большой ключ к тому, что он предназначен для обслуживания целей правительства Китая, сказал один эксперт TechCrunch.

Майкл Кастер, менеджер программы Азии Организации прав, статья 19, объяснил, что «работа общественного мнения» контролируется мощным правительством китайского правительства, Администрацией киберпространства Китая (CAC) и обычно относится к цензуре и усилиям по пропаганде.

Конечной целью является обеспечение защиты повествований китайского правительства в Интернете, в то время как любые альтернативные взгляды очищены. Президент Китая Си Цзиньпин сам назвал Интернет как «фронт -линии» «общественного мнения» КПК.

Репрессии становится умнее

Набор данных, изученный TechCrunch, является последним доказательством того, что авторитарные правительства стремятся использовать ИИ в репрессивных целях.

В прошлом месяце Openai опубликовал отчет, в котором сообщалось, что неопознанный участник, вероятно, действующий из Китая, использовал генеративный ИИ для мониторинга разговоров в социальных сетях — особенно тех, кто выступает за протесты в области прав человека против Китая — и направляют их в правительство Китая.

Связаться с нами

Если вы знаете больше о том, как ИИ используется в штате, вы можете безопасно связаться с Чарльзом Рулетом по сигналу в Charlesrollet.12 Вы также можете связаться с TechCrunch через Securedrop.

Openai также обнаружил, что технология используется для генерации комментариев, которые очень критикуют выдающегося китайского диссидента, Cai Xia.

Традиционно методы цензуры Китая полагаются на более основные алгоритмы, которые автоматически блокируют контент, упоминающие термины с черным списком, такие как «Резня в Tianananmen» или «Xi Jinping», как многие пользователи впервые сталкивались с Deepseek.

Но более новая технология ИИ, как и LLMS, может сделать цензуру более эффективной, обнаружив еще тонкую критику в огромном масштабе. Некоторые системы ИИ также могут продолжать улучшаться, поскольку они поглощают все больше и больше данных.

«Я думаю, что крайне важно подчеркнуть, как развивается цензура, управляемая ИИ, что делает государственный контроль над публичным дискурсом еще более сложным, особенно в то время, когда китайские модели ИИ, такие как DeepSeek, делают головные волны»,-сказал Сяо, исследователь Беркли, исследователь Беркли.

Previous post Англия против Австралии: Шон Уэйн ищет новую историю, когда возродил пепел
Next post После весеннего заявления канцлера мы заканчиваем более или менее, где начали | Политические новости