Статьи
- Михеев Н.Г., Антонюк В.А., Елизаров С.Г., Лукьянченко Г.А. Возможности многоядерных процессоров MALT в задачах обработки изображений// Вычислительные методы и программирование, Россия, 2020.
В статье рассматриваются результаты экспериментальной оценки производительности и энергоэффективности многоядерных процессоров MALT в задачах обработки изображений на примере фильтрации изображения с помощью оператора Собеля. Измерения осуществлялись с использованием низкоуровневого эмулятора MALTemu, прототипа процессора в ПЛИС и экспериментальной СБИС модели MALT–Cv2 Rev1. Полученные результаты сравниваются с аналогичными результатами для процессоров общего назначения (последовательная реализация) и графических процессоров с поддержкой технологии CUDA.
Скачать PDF |
- Ahmed A. Abdelrahman, Mohamed M. Fouad, Hisham Dahshan. High Performance CUDA AES Implementation: A Quantitative Performance Analysis Approach// Военный технический Колледж, Каир, Египет, 2017.
В работе представлена реализация шифрования AES-128 ECB на трех разных архитектурах графических процессоров (Kepler, Maxwell и Pascal).
Скачать PDF |
- Удальцов В.А., Павлов В.Э. Увеличение скорости работы алгоритма шифрования «КУЗНЕЧИК» с использованием технологии CUDA.// "Теория. Практика. Инновации", 2017, Апрель
В статье рассматривается симметричный алгоритм блочного шифрования «Кузнечик» ГОСТ Р 34.12-2015 и технология NVIDIA CUDA, позволяющая использовать мощность графического процессора для увеличения вычислительной производительности. В работе показано преимущество в скорости работы алгоритма шифрования использующего для расчетов мощности графического процессора.
Скачать PDF |
- Brent Bohnenstiehl, Aaron Stillmaker, Jon Pimentel, Timothy Andreas, Bin Liu, Anh Tran, Emmanuel Adeagbo, Bevan Baas A 5.8 pJ/Op 115 Billion Ops/sec, to 1.78 Trillion Ops/sec 32nm 1000-Processor Array// University of California, Davis, 2016.
1000 программируемых процессоров и 12 независимых модулей памяти, способных одновременно обслуживать как запросы данных, так и запросы команд, интегрированы в 32-нм КМОП-устройство PD-SOI. При напряжении 1,1 В процессоры работают в среднем с частотой 1,78 ГГц, обеспечивая максимальную общую скорость вычислений чипа 1,78 трлн команд / сек. при напряжении 0,84 В 1000 ядер выполняют 1 трлн команд / сек, рассеивая 13,1 Вт.
Скачать PDF |
- Ayesha Khalid, Goutam Paul, Anupam Chattopadhyay. New Speed Records for Salsa20 Stream Cipher Using an Autotuning Framework on GPUs // Jadavpur University, Индия, 2016
В данной работе предлагается эффективная методология реализации параллельных криптографических функций данных в режиме пакетной обработки на современных графических процессорах в целом и оптимизации для Salsa20 в частности.
Скачать PDF |
- Кролевецкий Алексей. Производительность ГОСТ-шифрования на х86- и GPU-процессорах. // “Storage News”, 2014, № 4 (60), www.storagenews.ru
В статье представлены результаты тестирования оптимизированных алгоритмов шифрования ГОСТ, полученные в сентябре и марте 2014 г. компанией “Код Безопасности”, на новых серверных процессорах Intel, а также на графических процессорах различных производителей.
-
T. Hruby et al., Keep net working - on a dependable and fast networking stack, Boston, MA, USA USA, 2012.
В статье обсуждаются в общих чертах последствия проектирования многосерверных систем и подробно рассмотрена реализация и оценка более надежного сетевого стека.
Скачать PDF |
Скачать PDF |
-
E. Painkras et al., SpiNNaker: A Multi-Core System-on-Chip for Massively-Parallel Neural Net Simulation, The University of Manchester, United Kingdom, 2012.
В статье описывается система SpiNNaker, предназначенная для моделирования до миллиарда импульсных нейронов в режиме реального времени.
- И.Тарасов. Опыт применения ПЛИС в исследовательской и конструкторской деятельности. Сборник статей региональной научно-практической конференции «Системы обработки сигналов на базе ПЛИС и цифровых сигнальных процессоров», стр. 16, 2011, Барнаул.
В статье рассмотрены подходы к проектированию устройств класса "система на кристалле", приведены их достоинства и недостатки. Также описан опыт использования ПЛИС для решения задач при проведении научно-исследовательских и опытно-конструкторских работ на базе физического факультета Ковровской государственной технологической академии имени В.А. Дегтярева.
- ПЛИС пытаются "встроиться". Электронные компоненты, 24 мая 2011 г.
В статье рассказывается о тенденции ПЛИС перейти в разряд встраиваемых систем.
- А.Калачев. Высокопроизводительные многоядерные процессоры для встраиваемых систем. // Компоненты и технологии, 2010, №2
В статье рассмотрены структуры и параметры многоядерных процессоров, предназначенных для широкого спектра встраиваемых приложений — от мобильных устройств до компактных серверных и суперкомпьютерных систем. Представлены как известные процессоры, так и экспериментальные разработки, с количеством ядер от нескольких десятков до сотен. Сделано сравнение многоядерных процессоров по параметрам: общая производительность, энергопотребление, производительность отдельного ядра, скорость обмена с внешними устройствами или соседними процессорами.
В.Корнеев. Модель программирования: Смена парадигмы. // Открытые системы, 2010, №3
После ошеломляющего рывка в росте производительности, вызванного построением «параллельных» суперкомпьютеров из коммерчески доступных компонентов, и выявления проблем, препятствующих дальнейшему повышению быстродействия, пришло осознание того, что параллельная обработка требует особых архитектурных решений.
-
Dongrui Fan, Nan Yuan, Junchao Zhang, et al. Godson-T: An Efficient Many-Core Architecture for Parallel Program Executions. Journal of Computer Science and Technology, Nov. 2009, 24(6):1061-1073.
В этой статье предлагается многоядерная архитектура GodsonT. С одной стороны, Godson-T имеет региональный протокол когерентности кэша, асинхронные агенты передачи данных и аппаратно поддерживаемые механизмы синхронизации, чтобы обеспечить полный потенциал для высокой эффективности использования ресурсов на кристалле. С другой стороны, Godson-T имеет высокоэффективную систему выполнения и универсальные параллельные библиотеки, которые делают этот многоядерный дизайн гибко программируемым.
- А.Фролов, Д.Волков. Оценка быстродействия нерегулярного доступа к памяти. //Открытые системы, 2008, №1
Расширение пропасти между производительностью процессоров и скоростью доступа к памяти, появление приложений, интенсивно взаимодействующих с памятью через единое адресное пространство, стимулировали создание вычислительных систем с новой архитектурой. Однако для оценки таких систем традиционные тесты уже не подходят. Пришло время тестов «анти-Linpack».
- В.Корнеев. Программная настраиваемость аппаратной структуры. //Открытые системы, 2007, №10
Среди существующих путей увеличения производительности, таких как наращивание тактовой частоты, повышение параллелизма и программная настраиваемость структуры для аппаратной реализации вычислений, первые два уже хорошо освоены, а третий только начинает применяться. Однако первые два пути уже практически исчерпали возможности дальнейшего повышения производительности без применения их в комбинации с программной настраиваемостью структуры. Поэтому для построения современных высокопроизводительных систем необходимо применение реконфигурируемых структур, настраиваемых на исполнение алгоритмов.
- А.Слуцкин, Л.Эйсымонт. Российский суперкомпьютер с глобально адресуемой памятью. // Открытые системы, 2007, №9.
В пылу массового увлечения вычислительными кластерами часто забывают, что эти системы непригодны для решения задач, требующих эффективной работы с глобально адресуемой памятью большого объема. Оказывается, что коэффициент полезного использования кластеров на таких задачах не превышает 5-10%, а в ряде случаев равен 0,1-1%. В силу характерных тенденций развития элементной базы данная проблема только обостряется, хотя количество задач такого класса растет. На Западе проблема создания вычислительных систем для эффективной работы с огромными массивами данных решается на уровне федеральных программ, а в России — в рамках работ по созданию перспективного суперкомпьютера с глобально адресуемой памятью.
-
P.M. Kogge et al., Computer Systems with Lightweight Multithreaded Architectures, U.S. Patent 7,584,332.
В патенте описан способ обработки запроса на доступ к ячейке памяти программным потоком, выполняемым процессором в вычислительной системе облегченной многопоточной архитектуры, а также метод оценки поля расширения ячейки памяти для определения состояния поля значений ячейки. Метод, описанный в патенте, позволяет фактически достигать увеличения параллелизма и сокращения задержек. Метод идеально подходят для реализации с использованием современных технологий СБИС-чипов, таких как многоядерные чипы и PIM-чипы.
- Тарасов И. Проектирование конфигурируемых процессоров на базе ПЛИС. // Компоненты и технологии, 2006, № 2. – с. 78–83
Данная статья посвящена вопросам проектирования конфигурируемых, или софт-процессоров, которые способны придать проекту на базе ПЛИС все элементы стандартной микроконтроллерной системы, включая возможность программирования полученного устройства с помощью обычных языков высокого уровня.
- Л.Черняк. Ядра и потоки современных микропроцессоров. // Открытые системы, 2005, №12
Ресурс экстенсивного роста производительности за счет увеличения сложности и тактовой частоты процессоров себя исчерпал. Для того чтобы по-прежнему шагать в ногу с законом Мура, требуются новые архитектурные решения, основанные на росте числа процессорных ядер на кристалле и количества обрабатываемых ими потоков.
-
V.Vlassov and C.A.Moritz, Efficient Fine Grained Synchronization Support Using Full/Empty Tagged Shared Memory and Cache Coherency, Department of Teleinformatics, Royal Institute of Technology, Stockholm, Sweden, 2000.
В этом отчете предлагается новый эффективный способ поддержки мелкозернистых механизмов синхронизации на мультипроцессорах. Здесь предлагается разработать иерархию полной / пустой помеченной памяти с агрессивной аппаратной поддержкой для мелкозернистой синхронизации . Наша цель состоит в том, чтобы улучшить производительность механизма полной/пустой синхронизации, например реализованного в машине MIT Alewife, путем интеграции механизма когерентности кэша с механизмом полной / пустой синхронизации. synchronization.To для достижения этой цели мы предлагаем обрабатывать ошибки синхронизации таким же образом, как промахи кэша в свободном от блокировки кэше. В нашем проекте мы предполагаем, что операция полной/пустой памяти приостанавливается при пропуске синхронизации (по аналогии с пропуском кэша), ожидая в памяти, пока этот промах будет разрешен.
Скачать PDF |
Скачать PDF |
Скачать PDF |
Скачать PDF |
Скачать PDF |
Скачать PDF |
Скачать PDF |
Скачать PDF |
Скачать PDF |
Скачать PDF |
Скачать PDF |
Скачать PDF |
Скачать PDF |