Тестирование больших языковых моделей (LLM) с помощью EVALs – как сделать качество измеримым

Тестирование больших языковых моделей (LLM) с помощью EVALs – как сделать качество измеримым

Почему тестирование больших языковых моделей (LLM) представляет собой сложную задачу? Основная причина кроется в их недетерминированности. Это означает, что один и тот же входной запрос способен генерировать различные выходные данные, некоторые из которых могут содержать фактические ошибки.

23 мая 2026 г. · Степан Корнилов1 мин
Новостная лента

Последние публикации

ИИ в программировании: Когда он действительно выгоден? Три ключевых вопроса и ответа
Наука и технологии

ИИ в программировании: Когда он действительно выгоден? Три ключевых вопроса и ответа

Обсуждения использования искусственного интеллекта в разработке кода часто опираются на отдельные примеры и анекдоты, но редко углубляются в конкретные оценки затрат и выгод. Данный материал предлагает обзор методов, позволяющих произвести расчеты и определить потенциальную окупаемость подобных

23 мая 2026 г. · Степан Корнилов
1 мин
Мэр Лондона блокирует контракт полиции с Palantir
Наука и технологии

Мэр Лондона блокирует контракт полиции с Palantir

Мэр Лондона, Садик Хан, остановил запланированный контракт между Столичной полицией Лондона и американской компанией Palantir, разрабатывающей программное обеспечение для наблюдения.

23 мая 2026 г. · Степан Корнилов
1 мин
Удалено, но не исчезло: Signal хранит сообщения дольше, чем ожидалось
Наука и технологии

Удалено, но не исчезло: Signal хранит сообщения дольше, чем ожидалось

В зависимости от того, насколько активно пользователь применяет мессенджер, удаление сообщения может занимать до нескольких дней. Отмечается, что разработчики Signal игнорировали эту ошибку на протяжении шести месяцев.

23 мая 2026 г. · Сергей Радонежский
1 мин
Proxmox VE 9.2: Динамический балансировщик нагрузки, ядро Linux 7.0 и расширенные функции SDN
Наука и технологии

Proxmox VE 9.2: Динамический балансировщик нагрузки, ядро Linux 7.0 и расширенные функции SDN

Новая версия Proxmox Virtual Environment 9.2 включает в себя ряд важных улучшений и нововведений. Среди ключевых обновлений — внедрение динамического балансировщика нагрузки, призванного оптимизировать распределение ресурсов и повысить эффективность системы. Эта версия также обновлена до ядра L

23 мая 2026 г. · Валерий Светозаров
1 мин
Nvidia нацелена на завоевание рынка CPU с процессорами Vera
Наука и технологии

Nvidia нацелена на завоевание рынка CPU с процессорами Vera

Компания Nvidia официально представила свой новый процессор Vera. По прогнозам, в первый год после запуска этот продукт принесет компании впечатляющую выручку в 20 миллиардов долларов США.

23 мая 2026 г. · Алексей Державин
1 мин
AI-шлюзы: Эффективный контроль расходов на ИИ
Наука и технологии

AI-шлюзы: Эффективный контроль расходов на ИИ

Чтобы избежать непредвиденных затрат и неприятных сюрпризов в счетах за использование решений на базе искусственного интеллекта, крайне полезно применять специализированные AI-шлюзы. Среди таких инструментов можно выделить Helicone, Kong, LiteLLM и Portkey, которые помогают эффективно контр

23 мая 2026 г. · Евгений Бронников
1 мин
Google I/O: Прогресс XR-очков, Project Aura и тестирование прототипа
Наука и технологии

Google I/O: Прогресс XR-очков, Project Aura и тестирование прототипа

Google продолжает активно развивать платформу Android XR. На мероприятии I/O у нас появилась возможность кратко протестировать Project Aura и ознакомиться с последними достижениями в разработке собственных XR-очков Google.

23 мая 2026 г. · Николай Вертушкин
1 мин
Windows 11: Полный провал
Наука и технологии

Windows 11: Полный провал

Операционная система Windows 11 приобрела репутацию крайне нестабильной и изобилующей ошибками. Мы решили разобраться, какие именно проблемы и сбои омрачают ее текущее состояние.

23 мая 2026 г. · Сергей Радонежский
1 мин
Бундестаг одобрил цифровизацию справок о несудимости
Наука и технологии

Бундестаг одобрил цифровизацию справок о несудимости

Парламент Германии, Бундестаг, принял масштабный пакет реформ в сфере юстиции. В рамках этих нововведений процедура получения справок о несудимости будет полностью переведена в цифровой формат, отказавшись от традиционного почтового обмена в пользу онлайн-платформы BundID. Кроме того, закон пре

23 мая 2026 г. · Давид Светлов
1 мин
Лицензионный спор и облачная зависимость: Bambu Lab под мощным давлением
Наука и технологии

Лицензионный спор и облачная зависимость: Bambu Lab под мощным давлением

Конфликт вокруг закрытой экосистемы Bambu Lab достиг новой стадии эскалации. В центре спора — польский разработчик, угроза DMCA и пять китайских законодательных актов, оказывающих значительное давление на компанию.

23 мая 2026 г. · Сергей Радонежский
1 мин