Обзор графических ускорителей Nvidia P100 и Nvidia V100 | PARALLEL.RU (2024)

Капридов А.,
ВМК МГУ,
Москва, 2018

1. Введение

Tesla P100 и Tesla V100 — графические ускорители компании Nvidia, специализирующиеся на задачах машинного обучения и супервычислений в области искусственного интеллекта[i]. Tesla P100 была представлена компанией в 2016 году, в то время как Tesla V100 была представлена годом позже — в 2017.

2. Обзор Nvidia Tesla P100

Существует 2 доступные конфигурации Tesla P100: с интерфейсом NVLink и интерфейсом PCIe. В конфигурации с NVlink[ii] на площади 610 мм2 расположено 15.3 миллиарда транзисторов и 3840 CUDA ядер распределенных между 60 потоковыми мультипроцессорами. Конфигурация с PCIe[iii] использует немного урезанную версию Tesla P100 с NVLink — в ней поместилось только 3584 CUDA ядер и частота GPU стала немного меньше, но все равно на момент выхода это было самое производительное решение в своем роде.

NVLink[iv] обеспечивает большую пропускную способность, чем PCIe за счет большего количества соединений и повышенной масштабируемости для конфигураций с несколькими GPU.

Меньшее количество CUDA ядер и уменьшенная частота GPU естественным образом сказалась на производительности Tesla P100 с PCIe. Более подробно различия в мощности представлены на таблице[v] ниже.

Обзор графических ускорителей Nvidia P100 и Nvidia V100 | PARALLEL.RU (1)

Таблица 1: Технические характеристики Nvidia Tesla P100

Помимо большой производительности Tesla P100 отличается еще и увеличенной пропускной способностью памяти благодаря подходу CoWoS. Его применяют для достижения большей плотности упаковки транзисторов на плате, что позволяет достичь большей производительности. Также версия с NVlink выгодно отличается от версии с PCIe как раз увеличенной пропускной способности шины NVlink, что тоже хорошо сказывается на производительности. И последнее, что можно сказать про память — это реализованная технология Page Migration Engine[vi], оптимизирующая работу с данными, превышающие физический объем памяти графического ускорителя путем добавления дополнительных виртуальных адресов обеспечивающих доступ к памяти системы и памяти всех GPU этой системы.

Tesla P100 стали первыми графическими ускорителями нацеленными конкретно на супервычисления в области искусственного интеллекта. Как раз для этих задач Nvidia активно использует особенности архитектуры Tesla P100, что позволяет им достигать еще большей производительности для таких задач.

3. Обзор Nvidia Tesla V100

Tesla V100 — следующее поколение высокопроизводительных графических ускорителей от Nvidia после Tesla P100. Благодаря переходу на 12 нм техпроцесс на чуть большую площадь, чем у Tesla P100 — 815 мм2 — удалось поместить 21 миллиард транзисторов, что на 6 миллиардов больше, чем у предшественника. Соответственно и CUDA ядер у Tesla V100 больше — 5120 против 2584 у Telsa P100. Конечно, количество транзисторов позволили достичь большей произволительности: 15.7 терафлопс на операциях с одинарной точностью для версии Tesla V100 с NVLink, более подробно характеристики представлены на рисунке ниже[vii].
Обзор графических ускорителей Nvidia P100 и Nvidia V100 | PARALLEL.RU (2)

Рисунок 1: Технические характеристики Nvidia Tesla V100

Для Tesla V100 также доступны 2 модификации: с интерфейсом NVLink, и с интерфейсом PCIe. И точно также как и для Telsa P100 версия с PCIe незначительно проигрывает по производительности версии с NVLink, но несмотря на это версия с PCIe Tesla V100 почти в полтора раза превосходит Tesla P100 с NVLink по производительности.

Одним из главных отличий и нововведений Tesla V100 является наличие 640 тензорных ядер. Они специализируются на простых матричных перемножениях: если CUDA ядро вычисляет произведение двух чисел за один такт, то тензорное ядро за один такт производит перемножение двух матриц 4х4. Эти ядра имеют относительно небольшую сложность в реализации на транзисторах и занимают небольшую площадь на плате, но значительно повышают энергоэффективность при работе с обучением искусственного интеллекта.

Tesla V100 как представитель следующего поколения графических ускорителей Tesla тоже нацелена на высокопроизводительные вычисления в области искусственного интеллекта и обучении нейронных сетей. Но, благодаря улучшенной версии NVLink можно более продуктивно соединить несколько ускорителей, тем самым получив больший прирост производительности.
4. Сравнение Tesla P100 и Tesla V100 в задаче линейной алгебры

На следующем рисунке представлены графики производительности Tesla P100 и Tesla V100 на тесте cuBLAS[viii].

Обзор графических ускорителей Nvidia P100 и Nvidia V100 | PARALLEL.RU (3)

Рисунок 2: Сравнение Tesla P100 и Tesla V100 на тесте cuBLAS

Здесь явно заметны преимущества тензорных ядер у Tesla V100. Учитывая, что тензорные ядра как раз лучше всего приспособлены для перемножения матриц со смешанной точностью, неудивительно, что Tesla V100 производительней Tesla P100 до 9ти раз.

5. Сравнение Tesla P100 и Tesla V100 в задаче машинного обучения

Ниже представлены результаты сравнения производительности двух графических ускорителей в интерфейсом PCIe, проведенные независимыми разработчиками[ix].

Для этих тестов использовались версии Tesla P100 и Tesla V100 с интерфейсом PCIe установленные на почти идентичные системы, отличающиеся только размером оперативной памяти: 64 ГБ для Tesla P100 и 128 ГБ для Tesla V100. Тестирование проводилось с использованием технологии TensorFlow для рекуррентных нейронных сетей и для их модификации — рекуррентных сетей с долгой краткосрочной памятью. Каждый тип тестирования усреднялся по нескольким запускам.

Обзор графических ускорителей Nvidia P100 и Nvidia V100 | PARALLEL.RU (4)

Рисунок 3: Сравнение Tesla P100 и Tesla V100 на задаче обучения

Исследователи приводят следующие данные ускорения Tesla V100 относительно Tesla P100 для обучения(trainig) и для предсказания(inference):

Обзор графических ускорителей Nvidia P100 и Nvidia V100 | PARALLEL.RU (5)

Рисунок 4: Сравнение Tesla P100 и Tesla V100 на задаче инференса

Как можно заметить TeslaV100 превосходит своего предшественника везде, но не во всех случаях эта разница сильно заметна. TeslaV100 лучше всего показывает себя при увеличении скрытых слоев сети и понижении точности вычислений. Особенно это заметно на обучении сетей с долгой краткосрочной памятью с половинной точностью и 1024 скрытыми слоями — в этом случае Tesla V100 справляется в 2 раза быстрее, чем Tesla P100. Скорее всего это заслуга новых тензорных ядер Tesla V100, которые как раз нацелены на относительно несложные матричные перемножения.

Однако, это был тест для всего одной видеокарты в каждом случае. В Nvidia же утверждают, что при соединении нескольких ускорителей можно достичь значительно большего ускорения, нежели с одной картой. Для демонстрации они приводят следующие данные:

Обзор графических ускорителей Nvidia P100 и Nvidia V100 | PARALLEL.RU (6)

Рисунок 5: Сравнение производительности 8ми Tesla P100 и Tesla V100

Здесь мы видим уменьшение времени обучения на Tesla V100 в 3 раза. Наверняка, сыграл свою роль NVLink с увеличенной скоростью передачи данных между ускорителями.

6. Заключение

Оба графических ускорителя на момент выхода являлись самыми мощными в своей сфере. Да, Tesla V100 обгоняет своего предшественника по всем характеристикам, однако на практике разница заметна только на очень больших данных. Из этого можно сделать вывод, что обе карты все-таки предназначены для очень масштабных и дорогостоящих вычислений специализированных датацентров.

Обзор графических ускорителей Nvidia P100 и Nvidia V100 | PARALLEL.RU (2024)
Top Articles
PDF online übersetzen mit 3 besten Übersetzern [kostenlos]
🎉 Grundanleitung abgeschlossen | 沉浸式翻译
Camera instructions (NEW)
Trevor Goodwin Obituary St Cloud
Pieology Nutrition Calculator Mobile
Cube Combination Wiki Roblox
Weekly Math Review Q4 3
Thayer Rasmussen Cause Of Death
Craigslist Cars Nwi
Burn Ban Map Oklahoma
Colorado mayor, police respond to Trump's claims that Venezuelan gang is 'taking over'
"Une héroïne" : les funérailles de Rebecca Cheptegei, athlète olympique immolée par son compagnon | TF1 INFO
Uky Linkblue Login
24 Hour Drive Thru Car Wash Near Me
CDL Rostermania 2023-2024 | News, Rumors & Every Confirmed Roster
China’s UberEats - Meituan Dianping, Abandons Bike Sharing And Ride Hailing - Digital Crew
I Saysopensesame
Drift Boss 911
Diakimeko Leaks
Great Clips Grandview Station Marion Reviews
Little Rock Skipthegames
Pirates Of The Caribbean 1 123Movies
UMvC3 OTT: Welcome to 2013!
Hellraiser 3 Parents Guide
Ullu Coupon Code
How rich were the McCallisters in 'Home Alone'? Family's income unveiled
Housing Intranet Unt
Club Keno Drawings
Halsted Bus Tracker
Otis Offender Michigan
Smartfind Express Henrico
Gold Nugget at the Golden Nugget
Trap Candy Strain Leafly
Hometown Pizza Sheridan Menu
Sdn Fertitta 2024
Hawkview Retreat Pa Cost
Accident On 40 East Today
Aloha Kitchen Florence Menu
Rick And Morty Soap2Day
Definition of WMT
60 Second Burger Run Unblocked
Greg Steube Height
Helpers Needed At Once Bug Fables
Sj Craigs
Bumgarner Funeral Home Troy Nc Obituaries
Turning Obsidian into My Perfect Writing App – The Sweet Setup
Cool Math Games Bucketball
Yoshidakins
Latest Posts
Article information

Author: Chrissy Homenick

Last Updated:

Views: 6518

Rating: 4.3 / 5 (54 voted)

Reviews: 93% of readers found this page helpful

Author information

Name: Chrissy Homenick

Birthday: 2001-10-22

Address: 611 Kuhn Oval, Feltonbury, NY 02783-3818

Phone: +96619177651654

Job: Mining Representative

Hobby: amateur radio, Sculling, Knife making, Gardening, Watching movies, Gunsmithing, Video gaming

Introduction: My name is Chrissy Homenick, I am a tender, funny, determined, tender, glorious, fancy, enthusiastic person who loves writing and wants to share my knowledge and understanding with you.