Google раскрывает технические детали и обосновывает экономическую целесообразность процессора TPU

 

Плата с процессором TPU google

Фото: google

 

Несмотря на то, что тензорный вычислительный элемент Google (TPU) используется для глубокого обучения в компании с 2015 года, про процессор было известно очень мало. На этой неделе веб-гигант опубликовал описание чипа и пояснил, почему он на порядок быстрее и эффективнее с точки зрения потребления энергии, чем CPU или GPU.

 

Немного теории. TPU - это специализированный ASIC, разработанный инженерами Google для ускорения операций вывода (или принятия решения - inferencing) в нейронной сети. Он ускоряет промышленную фазу такого рода приложений для сетей, которые предварительно проходят обучение. В тот момент, когда пользователь инициирует операцию голосового поиска, просит перевести текст или ищет совпадающее изображение, в действие вступает подсистема операций вывода (inferencing). Для начальной, обучающей фазы Google, подобно многим другим в бизнесе глубокого обучения, использует процессоры GPU.

 

Такое разделение необходимо, так как операции вывода (inferencing) по большей части обрабатывают восьмибитные целые, тогда как обучение системы обычно производится с 32-битными или 16-битными числами с плавающей запятой. В анализе TPU от компании Google подчеркивается, что перемножение 8-битных целых может расходовать в 6 раз меньше энергии, чем перемножение 16-битных чисел с плавающей запятой и к тому же в 13 раз быстрее.

 

TPU ASIC использует это преимущество, встраивая матричный модуль перемножения 8-битных целых, который может аккумулировать и производить 64 тыс. операций перемножения параллельно. Пиковая производительность на выходе - 92 тераоперации в секунду. Процессор имеет 24 Мб памяти на чипе, что довольно много, учитывая его малый размер. Пропускная способность памяти, однако же, небольшая, всего 34 ГБ/сек. Чтобы оптимизировать энергопотребление, TPU работает на частоте 700 MHz и потребляет 40 Ватт (75 Ватт TDP). ASIC произведен по процессу 28 нм.

 

Для Google вопрос энергопотребления не праздный, т.к. это, в сущности, стоимость владения системой (TCO) в датацентрах. А для таких больших и масштабируемых датацентров стоимость энергии может превысить экономический эффект от самой задачи. Как заявляют авторы: "Когда вы покупаете компьютеры тысячами, соотношение цена/производительность становится основным козырем”.


В проведённом исследовании специалисты Google обнаружили, что TPU работает в 15 - 30 раз быстрее, чем K80 GPU и Haswell CPU. Соотношение производительности к энергопотреблению ещё более впечатляющее: процессорный модуль TPU лучше своих конкурентов в 30 - 80 раз. В проектах Google - создание новой версии процессора TPU, использующего более производительную память (GDDR5), что позволит утроить производительность процессора.


Читать дальше...