Непригодность существующих тестов и метрик

Тестовый набор представляет собой несколько приложений, позволяющих комплексно оценить работу компьютера. Тест SPEC CPU — основной тест, используемый создателями компьютеров,— включает ряд инженерных и научных приложений, специально отобранных и модифицированных для того, чтобы свести к минимуму взаимодействие с операционной системой. Тест EEMBC содержит ядро и встроенные приложения. Набор Stanford SPLASH измеряет время работы распараллеливаемых алгоритмов, позволяет аналогичным образом оценить традиционные многопроцессорные структуры. Все приложения в этих тестовых наборах независимы и выполняются по отдельности.

Производительность в тесте SPEC измеряется, как ускорение по отношению к эталонной системе. Поскольку цель любого компьютера состоит в том, чтобы обеспечить отличную производительность при любой работе, ускорение каждого приложения трактуется одинаково, а общее ускорение определяется как геометрическое среднее. Геометрическое среднее приписывает большие веса приложениям с меньшей производительностью — если хотя бы один результат равен нулю, то и общий показатель равен нулю, что означает бесконечный вес для конкретного приложения. Таким образом, лучший результат покажут сбалансированные системы, которые больше подходят для приложений общего назначения, но этот метод не оценит адекватно функционирование компьютеров, ориентированных на сценарии.

В комплекте тестов SPEC имеется набор SPEC_rate для измерения пропускной способности многопроцессорных систем. Чтобы определить показатели SPEC_rate, компьютер одновременно выполняет n копий каждой из задач, а затем определяет все их времена выполнения. Такой подход ориентирован на выполнение однородных задач, скажем, на приложения типа инженерного проектирования, Internet-хостинг, работу с базами данных и высокопроизводительные вычисления. Компьютеры, ориентированные на сценарии, напротив, предусматривают различные модели использования.

Некоторые тестовые наборы, такие как SYSmark и 3Dmark, предназначены для оценки коммерческих характеристик компьютера. В тесте SYSmark используются наиболее распространенные коммерческие приложения — Adobe Acrobat Reader, Macromedia Dreamweaver, McAfee VirusScan и Microsoft Office — в сочетании с входной информацией и данными, получаемыми от реальных событий. Различные приложения выполняются совместно в разных сценариях, например, в коммуникациях (электронная почта и поиск в Internet) и анализе данных (запросы в базы данных и операции над таблицами). Для каждого сценария выдается свой отчет. Тест SYSmark оценивает время отклика, а не время счета, отражая тот факт, что многие приложения зависят от происходящих событий и могут находиться в «уснувшем» состоянии, пока пользователь с ними не взаимодействует.

Тест SYSmark в большей степени, чем тест SPEC, подходит для оценки современных приложений, но и он не включает программы, работающие в реальном времени, например, потоковое видео или обработку сигналов и распознавание голоса, что ограничивает способность теста SYSmark описывать модели использования, ориентированные на сценарии.

Тест 3Dmark оценивает производительность устройств при выполнении игровых приложений. Этот тест измеряет скорость выполнения игр с очень интенсивной графикой в режиме реального времени. Тест 3Dmark изначально был сфокусирован на работе графических процессоров, но в дальнейшем в него было добавлены и задачи, позволяющие оценить производительность и центрального процессора.

Таким образом, несмотря на то, что исследователи вкладывают свой талант и творчество в разработку тестов, этого еще недостаточно для оценки компьютеров, ориентированных на сценарии по следующим причинам:

· Метрики приписывают одинаковый вес всем приложениям. Это является наследием компьютеров общего назначения, выполняющих изолированные задачи. При работе в интерактивном режиме быстрый ответ на некоторые события более важен, чем время отклика на другие.

· Метрики определяют производительность компьютеров по их способности ускорять действие, а не открывать новые возможности. Пользователи ожидают интеграции новых возможностей, таких как распознавание речи, а не ускорения уже существующих функций наподобие проверки наличия синтаксических ошибок в тексте.

· Метрики не учитывают взаимодействия между приложениями. Когда несколько приложений работают на общую цель, ускорение некоторых из них не обязательно приведет к улучшению результата, а наоборот, может снизить общую производительность.

Сегодня ни одна из существующих метрик производительности не позволяет оценивать ориентированные на сценарии компьютеры. Исторически компьютерная структура всегда была искусством выявления и устранения «узких» мест с помощью увеличения кэш-памяти или предсказания ветвлений. Для будущих компьютерных структур имеются свои методы оптимизации функционирования, но они применяются только для критических случаев — когда приложение работает на грани возможностей оборудования и производительность резко деградирует. Тестовые наборы, ориентированные на сценарии, должны позволять идентифицировать критические случаи и помогать их разрешить.

<4 5 678 9 10 >

Дата добавления: 2015-09-29; просмотров: 503;

Непри­год­ность су­ще­ству­ю­щих те­стов и мет­рик

Непригодность существующих тестов и метрик