США проверяют искусственный интеллект на утечку ядерных секретов

Anthropic и Минэнерго США тестируют модель Claude 3 Sonnet для оценки ее способности не раскрывать опасную информацию о ядерных технологиях.
Специалисты Национального управления ядерной безопасности (NNSA) используют «красные запросы» для проверки модели на устойчивость к манипуляциям.
«Красные запросы» - это техника тестирования, при которой специалисты пытаются обмануть, взломать или сбить с толку систему, чтобы выявить ее уязвимости.
В контексте искусственного интеллекта такие запросы используются для проверки способности ИИ противостоять попыткам получить опасную или секретную информацию.
Anthropic рассчитывает, что успешные испытания позволят расширить сотрудничество с другими государственными структурами и улучшить безопасность ИИ.
Компания продолжит работу с правительственными структурами для усиления мер безопасности своих ИИ-моделей.
В рамках пилотного проекта также проверяют новую версию Claude 3.5 Sonnet.