Разработан первый прототип на ПЛИС MALT со специализированными ускорителями
- Информация о материале
- Опубликовано: 25.03.2015, 14:32
Распределение ресурсов ПЛИС Xilinx Virtex 2000T |
Производительность и энергоэффективность достигается с помощью специализации, простота программирования - с помощью универсальных конструкций. Мы попробовали объединить два эти подхода и разработали прототип на ПЛИС многоядерного процессора архитектуры MALT со специализированными ускорителями.
Универсальная составляющая была редуцирована из прототипа 210-ядерного процессора на ПЛИС, спецвычислители были разработаны с нуля для конвейерного вычисления популярных криптопреобразований (по преобразованию за такт) с отбором ключей, соответствующих заданным условиям, в том числе для популярных задач криптомайнинга. Адресное пространство спецвычислителей отображалось в адресное пространство соответствующих ядер общего назначения. Все взаимодействие вычислительного ядра с другими устройствами вне вычислительного ядра осуществлялось с помощью сообщений, передаваемых по пакетной шине.
В такой системе к одному универсальному ядру может быть подключено несколько спецвычислителей. Количество спецвычислителей может меняться в достаточно широких пределах. В наших тестах использовались конфигурации с 4, 5, 10 и 25 ускорителями на одно ядро общего назначения. Количество ядер общего назначения при этом менялось от 94 до 15 соответственно. Оптимальное значение количества ядер общего назначения и количества спецвычислителей зависило от интенсивности обмена данными и вычислительной сложности каждой конкретной задачи. Полученная система обеспечивала, с одной стороны, гибкость универсального многопотокового процессора, с другой - производительность "заточенного" под конкретную задачу RTL-кода.
На днях завершилось первое серьёзное тестирование такого прототипа. В ходе тестов системы исследовалась производительность в задачах перебора ключей при различных потоках отобранных ключей. Были достигнуты значения скорости перебора до 61.25 ГКлючей/с, что составляет 99,86% от теоретического максимума. Были рассчитаны и экспериментально подтверждены оптимальные соотношения количества универсальных ядер и спецвычислителей на различных задачах. Была продемонстрирована практически 100% масштабируемость подхода MALT.