- Anthropic и Минэнерго США тестируют модель Claude 3 Sonnet для оценки ее способности не раскрывать опасную информацию о ядерных технологиях.
- Специалисты Национального управления ядерной безопасности (NNSA) используют «красные запросы» для проверки модели на устойчивость к манипуляциям.
- «Красные запросы» - это техника тестирования, при которой специалисты пытаются обмануть, взломать или сбить с толку систему, чтобы выявить ее уязвимости.
- В контексте искусственного интеллекта такие запросы используются для проверки способности ИИ противостоять попыткам получить опасную или секретную информацию.
- Anthropic рассчитывает, что успешные испытания позволят расширить сотрудничество с другими государственными структурами и улучшить безопасность ИИ.
- Компания продолжит работу с правительственными структурами для усиления мер безопасности своих ИИ-моделей.
- В рамках пилотного проекта также проверяют новую версию Claude 3.5 Sonnet.
США проверяют искусственный интеллект на утечку ядерных секретов
17 ноя 2024
Краткий пересказ
от нейросети YandexGPT
Обложка: Изображение сгенерировано shedevrum.ai