Anthropic: к 2028 году ИИ сможет улучшать сам себя без участия человека

Anthropic предупреждает об опасном сценарии развития ИИ, при котором ИИ сможет самостоятельно создавать улучшенные версии самого себя.
К концу 2028 года могут появиться системы, способные автономно переписывать собственный код и ускорять развитие.
Такое «рекурсивное самосовершенствование» ИИ может привести к «взрыву интеллекта».
Anthropic предлагает развивать системы мониторинга для отслеживания изменений в поведении и возможностях моделей ИИ.
Сооснователь Anthropic Джек Кларк считает, что к концу 2028 года могут появиться ИИ, способные автономно самосовершенствоваться.
Anthropic опасается скрытых ошибок и механизмов самосохранения, препятствующих отключению ИИ.
Исследователи рассматривают возможные «взрывы интеллекта» и их влияние на рынок труда, цифровую инфраструктуру, безопасность и научные исследования.
Anthropic стремится заранее готовить механизмы реагирования на потенциальные кризисы в развитии ИИ.

Сооснователь Anthropic Джек Кларк заявил, что уже к концу 2028 года могут появиться системы, которым достаточно будет дать команду «создай лучшую версию себя», после чего они смогут автономно самосовершенствоваться. По его словам, такие ИИ смогут анализировать свои сильные и слабые стороны, а затем переписывать части собственного кода для повышения эффективности.

В Anthropic считают, что подобный сценарий может привести к непредсказуемым последствиям. Компания опасается появления скрытых ошибок, которые человек уже не сможет обнаружить, а также возникновения механизмов самосохранения, препятствующих отключению ИИ. В документе также упоминаются возможные «взрывы интеллекта» — резкое ускорение развития систем после запуска процесса самосовершенствования.