ИИ против Галины: тест Microsoft на 20 правок
Microsoft Research выпустили исследование - устроили нейросетям проверку.
Взяли 52 профессиональные области — бухгалтерию, код, расписания. В каждой — дали реальный рабочий документ и серию «задач от шефа»: разбей ведомость по категориям расходов, переведи суммы в другую валюту, отсортируй.
Что важно:
модель должна была внести правки в документ 20 раз подряд. То есть даже меньше итераций, чем в среднем у нас по любому документу 😃
Результат
Лучшие модели — Gemini 3.1 Pro, Claude 4.6 Opus, GPT-5.4 — к двадцатой правке потеряли или исказили в среднем 25% содержимого документа.
Средний результат по всем 19 протестированным моделям — минус 50% (потеряли половину документа)
Что я думаю?
🔸Работа с ИИ очень напоминает работу руководителя, в особенности делегирование. С людьми также важно: понятно и четко описывать задачу и конечный результат, устанавливать точки контроля в важных местах, погружать в контекст, давать необходимые ресурсы и полномочия.
И если руководитель требует 20 итераций правок одного документа в страхе «принять неправильное решение» — часто проблема не в исполнителе, а в руководителе.
🔸ИИ может быть еще не совершенен, но в последние полгода качество работы изменилось кардинально. Очевидно что очень скоро и таких ошибок не будет (не так давно он на руке по 6 пальцев рисовал)
🔸Я решаю сейчас огромное количество вопросов с помощью Claude и сэкономил уже несколько сотен тысяч на самых разных задачах (от дизайна сайтов и презентаций до юридических документов)
🔸Шеф звонит в TG
🔸Шеф звонит в Макс
🔸Шеф звонит в ВК