NVIDIA представила новую серию игровых видеокарт GeForce RTX с технологией трассировки лучей
NVIDIA GeForce RTX в 6 раз мощнее предыдущей игровой серии компании. Первые карточки новой линейки появятся на прилавках в конце сентября 2018 года.
На проходящей в Кельне видеоигровой выставке Gamescom 2018 NVIDIA презентовала новую серию графических ускорителей, ориентированных на геймеров — GeForce RTX. Самая продвинутая карта линейки — RTX 2080 Ti — совершает до 78 трлн RTX-OPS (разработанная в NVIDIA оценка производительности, обозначающая операции с трассировкой лучей в секунду). Первые продукты серии RTX 20хх появятся на прилавках в сентябре 2018 года.
Технические характеристики GeForce RTX
Во время выступления представители компании заявили, что новые видеокарты «в 6 раз мощнее предыдущего поколения видеоускорителей NVIDIA». Графические процессоры серии GeForce RTX поддерживают все технологии платформы Turing, включая RT-ядра для расчетов трассировки лучей и тензорные ядра для использования нейронных сетей. Среди ключевых характеристик, упомянутых на презентации:
- RTX 2070: 1410 МГц, 8 ГБ 256-битной оперативной памяти типа GDDR6 пропускной способностью 448 ГБ/с, 2304 CUDA-ядра. Обеспечивает 60 трлн RTX-OPS и 6 гигалучей (Gigarays) в секунду.
- RTX 2080: 1515 МГц с аналогичной памятью, а также 2944 CUDA-ядра. Производит 60 трлн RTX-OPS и уже 8 гигалучей/с.
- RTX 2080 Ti: 1515 МГц, 11 ГБ 352-битной оперативной памяти типа GDDR6, работающей на скорости 616 ГБ/с, 4352 CUDA-ядра. Предоставляет до 78 трлн RTX-OPS и 11 гигалучей/с.
Все видеоускорители поддерживают новый стандарт создания вычислительного кластера из нескольких карт — NVIDIA NVLink. Кроме того, энтузиасты, которые оформят предзаказ на новые продукты NVIDIA, получат карты ограниченного издания Founders Edition с «разогнанными» характеристиками.
Стоимость и дата выхода
На презентации CEO NVIDIA Дженсен Хуанг (Jensen Huang) объявил цены на новые графические процессоры:
- 499 $ за RTX 2070;
- 699 $ за RTX 2080;
- 999 $ за RTX 2080 Ti.
Однако это стоимость видеокарт, произведенных партнерами компании, среди которых Asus, Gigabyte и MSI. Сама NVIDIA открыла предзаказ на GeForce RTX Founders Edition на своем сайте, но стоят они на 100 $ дороже.
NVIDIA GeForce RTX 2080 и 2080 Ti появятся на рынке уже 20 сентября 2018 года. Тогда же они отправятся покупателям, оформившим предзаказ. «Младшую» карту RTX 2070 придется подождать до неопределенного срока.
Напомним, что платформа Turing была представлена на конференции SIGGRAPH 2018 в начале августа 2018 года. В NVIDIA говорят, что, разработав эту архитектуру, они «придумали компьютерную графику заново».
API Vulkan.
API Vulkan от Khronos Group (Vulkan — это графический и вычислительный API нового поколения, который обеспечивает высокопроизводительный кросс-платформенный доступ к современным графическим процессорам, используемым в самых разных устройствах от ПК и консолей до мобильных телефонов и встроенных платформ).
API Vulkan изначально был известен как «новое поколение OpenGL» или просто «glNext», но после анонса компания отказалась от этих названий в пользу названия Vulkan.
Спецификация Vulkan 1.1 была запущена в март е 2018 года, чтобы расширить основные функциональные возможности Vulkan с функциями, запрошенными разработчиками, такими как операции с подгруппами, а также интегрировать широкий спектр проверенных расширений от Vulkan 1.0. 2018 год для игровой индустрии положи л начало внедрению трассировки лучей в реальном времени: многие крупные компании и разработчики трудятся над решением этой проблемы. Очередным шагом NVIDIA в этой области стала работа над расширением для API Vulkan, которое, по аналогии с RTX для DXR, позволит использовать в играх трассировку лучей.
NVIDIA работает над переносом своей технологии RTX в Vulkan через расширение VK_NV_raytracing, которое хорошо совместимо с открытым графическим API. Компания предложила свой метод группе Khronos и стремится к стандартизации технологии трассировки лучей в реальном времени в рамках Vulkan. Другими словами, в перспективе такой метод сможет работать как на ускорителях GeForce, так и на Radeon и даже Intel Graphics (если будут достаточно мощные решения). NVIDIA подчёркивает, что структура близка к Microsoft DXR, что упростит жизнь разработчикам (DXR — это расширение программного интерфейса DirectX 12 новым компонентом DirectX Raytracing API (DXR). Благодаря данным технологиям разработчики смогут применять трассировку лучей в реальном времени для создания реалистичных графических эффектов в играх).
В Кельне на видеоигровой выставке Gamescom 2018 NVIDIA презентовала новую серию графических ускорителей, ориентированных на геймеров — GeForce RTX. Самая продвинутая карта линейки — RTX 2080 Ti — совершает до 78 трлн RTX-OPS (разработанная в NVIDIA оценка производительности, обозначающая операции с трассировкой лучей в секунду). Первые продукты серии RTX 20хх появились на прилавках уже в сентябре 2018 года.
Во время выступления на выставке представители компании заявили, что новые видеокарты «в 6 раз мощнее предыдущего поколения видеоускорителей NVIDIA». Графические процессоры серии GeForce RTX поддерживают все технологии платформы Turing, включая RT-ядра для расчетов трассировки лучей и тензорные ядра для использования нейронных сетей. Среди ключевых характеристик, упомянутых на презентации:
- RTX 2070: 1410 МГц, 8 ГБ 256-битной оперативной памяти типа GDDR6 пропускной способностью 448 ГБ/с, 2304 CUDA-ядра. Обеспечивает 60 трлн RTX-OPS и 6 гигалучей (Gigarays) в секунду.
- RTX 2080: 1515 МГц с аналогичной памятью, а также 2944 CUDA-ядра. Производит 60 трлн RTX-OPS и уже 8 гигалучей/с.
- RTX 2080 Ti: 1515 МГц, 11 ГБ 352-битной оперативной памяти типа GDDR6, работающей на скорости 616 ГБ/с, 4352 CUDA-ядра. Предоставляет до 78 трлн RTX-OPS и 11 гигалучей/с.
- Благодаря NVIDIA и её видеокартам серии Quadro RTX память GDDR6 поступила на рынок. Во всех анонсированных видеокартах Quadro моделей RTX 8000, RTX 6000 и RTX 5000 используется память GDDR6 объёмом 16 Гб от Samsung, обеспечивая высокую скорость и эффективность. Эта память на 35% более экономична, чем GDDR5. Это достигается новой конструкции цепи, что позволяет памяти GDDR6 от Samsung работать на напряжении 1,35 В против 1,55 В у GDDR5. Скорость в новой памяти достигает 14 Гб/с на контакт, а общая скорость передачи данных составляет 56 ГБ/с, что на 75% быстрее, чем 8 Гб чипов GDDR5.
Все видеоускорители поддерживают новый стандарт создания вычислительного кластера из нескольких карт — NVIDIA NVLink. Кроме того, энтузиасты, могут получить карты ограниченного издания Founders Edition с «разогнанными» характеристиками.
Nvidia RTX 2070 – видеокарта уровня 2016 года с бесполезными новшествами
Уже появились первые обзоры на RTX 2070, и карта со своей производительностью и позиционированием несёт в себе мало пользы для новой линейки Nvidia. В материалах про RTX 2080 Ti мы уже обсуждали, что быстрому успеху видеокарт сегодня мешает ряд экономических и технологических препятствий. Nvidia лишь усугубила проблему резким скачком цен, и RTX 2070 продолжает двигаться всё в том же направлении.

2070 должна предлагаться не дороже $500, но обзорщики советуют не ожидать подобных цен в ближайшее время. Видеокарта будет стоить $600 и больше (48990 руб), то есть будет конкурировать не с GTX 1080, а скорее с GTX 1080 Ti. GTX 1080 сегодня можно найти на Newegg за $434, следовательно, 2070 для звания достойной покупки должна быть в 1,38 раза производительнее.
Обзоры демонстрируют, что на подобное 2070 не способна. Плохие новости от Anandtech в одном абзаце:
«Вернёмся к цифрам: преимущество RTX 2070 Founders Edition в частотах и TDP оборачивается четырьмя процентами прироста над референсной 2070 в 4K. Само по себе это мало о чём говорит, но давайте взглянем на сравнение с GTX 1080. Референсная RTX 2070 в 4K и 1440p быстрее GTX 1080 всего на 10 %, и эта разница легко покрывается заводским разгоном от сторонних компаний».

Сравнение разных поколений карт xx70 тоже не выставляет новинку в выгодном свете. GTX 1070 была в 1,57 раза быстрее предшественницы в 1440p. При этом RTX 2070 превосходит её в 1,36 раза. А теперь взглянем на стартовые цены (мы выбрали дорогие версии FE, чтобы сравнение было максимально выгодным для Nvidia):
- Стартовая цена GTX 970: $329
- Стартовая цена GTX 1070: $449
- Стартовая цена RTX 2070: $600
В 2016 вы получали 1,57-кратную производительность за 1,36-кратную цену. Сегодня вы получаете 1,36-кратную производительность за 1,33-кратную цену. Правда, GTX 1070 вышла не сегодня, и её нынешняя цена на Newegg– $339, так что по факту 2070 дороже в 1,76 раза.
Не самое заманчивое ценовое предложение.
RTX 2070 опасно брать ради нововведений
Проблема в том, что лишние деньги Nvidia просит, не демонстрируя, насколько хорошо 2070 справится с новыми технологиями. И это не надуманные придирки. На мероприятии по случаю представления семейства RTX Nvidia упоминалось, что игры вроде Battlefield V с включённым рейтрейсингом выдавали фреймрейт «в районе» 60 к/с, однако многие обзорщики выражали сомнения по поводу его стабильности.
Конечно, делать заключительные выводы о производительности RTX на основе таких данных не стоит, но кое-какие предположения напрашиваются. Для начала, предположим, что с помощью драйверов и оптимизации самого эффекта RTX 2080 будет способна на те же 60 к/с, что и RTX 2080 Ti. «RTX-Ops» – ничего не значащая единица измерения производительности от Nvidia, но раз уж у нас есть данные по ней, давайте на них взглянем. RTX 2080 Ti предлагает 76 триллионов RTX-Ops, а RTX 2080 57 триллионов. То есть, по этому показателю 2080 Ti в 1,33 раза мощнее, а значит, Nvidia предстоит очень и очень много работать над оптимизацией.
И даже если столь оптимистичные ожидания оправдаются, RTX 2070 можно в расчёт не брать. Она обрабатывает рейтрейсинг на 22 % медленнее 2080, то есть геймерам остаётся рассчитывать на ~47 к/с в 1080p – вот всё, на что способна их новенькая видеокарта за $600. Эксперты в своих обзорах, уже отметили, что покупки «на будущее» ради новых технологий редко оправдывают себя. Не верите – спросите покупателей 8800 GTS, каково им было обладать видеокартой за $400 (в 2006), которую через год обогнала новинка за $300.
Когда дело касается видеокарт, математика не обманывает. Да, всегда могут найтись какие-нибудь подводные камни, но если RTX 2070 способна лишь на 55 % «RTX-производительности» 2080 Ti, то можно смело предполагать, что её реальное быстродействие будет составлять 45-65 % от 2080 Ti. На данный момент у нас имеется лишь одна точка отсчёта: RTX 2080 Ti за $1200 в BattleField V едва способна продемонстрировать стабильные 60 к/с. Предположим, Nvidia и Dice улучшат этот показатель. А, возможно, и не улучшат – и в таком случае потолком RTX 2070 в BFV будут 30 к/с в 1080p с включённым рейтрейсингом. Не впечатляет для видеокарты за $600.

Я чётко дал понять, что не считаю нужным покупать видеокарты Turing. Ценник даже отдалённо не оправдывает разницу в производительности, а о реальной работе трассировки лучей и DLSS ничего не известно. Но я скажу вот что: чем больше вас манят игры с рейтрейсингом, тем дальше стоит держаться от RTX 2070. Сомневаетесь – взгляните на тесты первых видеокарт для DirectX 10 и даже DX11 (HD 5770, например). Модели среднего уровня нередко испытывают проблемы с новыми API. А трассировка лучей, как гласит и сама Nvidia – не просто смена API, это технология, требующая серьёзной поддержки со стороны видеокарт.
Если вас действительно волнует производительность, не спешите. Не покупайте мыльный пузырь. Не покупайте идею о том, что Nvidia не стала бы выпускать видеокарту с поддержкой рейтрейсинга, от которой на деле в играх не будет проку. Вполне вероятно, игры будут предлагать разные настройки рейтрейсинга для разных видеокарт, но мы не знаем этого наверняка, и тем более неизвестно, как будут смотреться пониженные настройки. Скорее всего, RTX 2070 обеспечит посредственный уровень эффекта, а для захватывающих дух лучей из Battlefield V потребуется видеокарта на 200-600 долларов дороже.
Парадокс архитектуры Turing в похвальности попыток Nvidia продвигать трассировку лучей в игры. Как знать, может, через десяток лет все игры будут полагаться исключительно на рейтрейсинг, либо использовать его наряду с растеризацией для извлечения максимальной пользы из обеих технологий. Я ни в коем случае не отвергаю подобной вероятности.
Но это не значит, что потенциал рейтрейсинга раскроет именно Turing. И в целом, весьма тяжело рекомендовать видеокарту, едва превосходящую прежнее поколение и не гарантирующую нормальную работоспособность новых технологий на практике.
Архитектура Turing и особенности новых видеокарт GeForce RTX
Жизненный срок видеокарт семейства Pascal оказался довольно долгим. Старшие модели продержались на рынке более двух лет и еще будут присутствовать некоторое время в продаже. В течение этого периода мы увидели новые решения на архитектуре Volta, которые остались уделом специализированных ускорителей вычислений. Единственным игровым продуктом семейства Volta стал TITAN V, выпущенный небольшим тиражом при чрезвычайно высокой цене. Но теперь настал момент старта нового поколения, которое должно изменить все. Новые видеокарты на архитектуре Turing не просто привносят очередное повышение производительности, они несут в себе ряд технологических инноваций и являются первыми игровыми решениями, которые поддерживают трассировку лучей в реальном времени. Поэтому даже привычное название GeForce GTX было изменено на GeForce RTX. В данном обзоре мы поговорим об особенностях архитектуры Turing и технических параметрах новых GPU. Практическому знакомству с видеокартами, включая тестирование и сравнение со старыми моделями NVIDIA, будут посвящены следующие обзоры.

Видеокарты GeForce RTX
В семействе Turing можно выделить несколько ключевых изменений. Это абсолютно новая архитектура GPU, появление новых вычислительных блоков — тензорных и RT ядер, ускоренная обработка шейдеров.

На данный момент представлено три видеокарты — GeForce RTX 2080 Ti, GeForce RTX 2080 и GeForce RTX 2070. Все они базируются на разных GPU Turing. Топовая модель получила самый мощный процессор TU102, кристалл которого изображен ниже на слайде.

Вначале приведем блок-схему каждого нового GPU, опишем общие характеристики видеокарт, а потом детально рассмотрим архитектурные изменения. Все процессоры производятся по технологии 12-нм FinFET. Они сохраняют кластерную структуру, когда GPU состоит из нескольких GPC, и, меняя количество таких кластеров, масштабируется производительность каждого конкретного чипа.

TU102 (GeForce RTX 2080 Ti)
Старший графический процессор TU102 состоит из 18,6 миллиардов транзисторов при площади кристалла 754 кв.мм. Если сравнить его с GP102 (GeForce GTX 1080 Ti), то площадь нового чипа и количество транзисторов выросло на 55–60%. У TU102 всего шесть кластеров GPC, каждый содержит по шесть текстурно-процессорных кластеров TPC, объединяющих мультипроцессорные блоки SM. Последние заметно реорганизованы и включают новые блоки, о чем подробнее будет сказано ниже. Каждый SM-блок насчитывает 64 основных вычислительных блока (CUDA-cores). При 72 SM всего получается 4608 потоковых процессоров. Однако GPU GeForce RTX 2080 Ti (как в свое время и у GeForce GTX 1080 Ti) немного урезан. У топовой видеокарты отключены два SM, в итоге общее количество потоковых процессоров равно 4352. Также у данного решения имеется 544 новых тензорных ядра и 68 RT-ядер, 272 текстурных блока и 88 блоков растеризации ROP.
Для сравнения можно напомнить, что GeForce GTX 1080 Ti на базе GP102 оперировал только 3584 ядрами CUDA при 224 текстурных блоках. Так что наращивание потенциала у нового TU102 весьма значительное. Шина памяти осталась 352-битной, но используются новые микросхемы памяти GDDR6 с эффективной частотой обмена данными, эквивалентной значению 14 ГГц. Объем памяти 11 ГБ на уровне старого флагмана, и это вполне достаточно для современных игр в высоких разрешениях.
Судя по блок-схеме у процессора TU102 всего 12 контроллеров памяти разрядностью 32 бита. Поэтому чип может работать с 384-битным интерфейсом. Возможно, мы увидим такую шину вместе с 4608 потоковыми процессорами в новых Titan. Кэш L2 у GeForce RTX 2080 Ti достигает 5632 КБ. Очевидно, что полный объем L2 равен 6 МБ, но он немного порезан вместе с шиной.

TU104 (GeForce RTX 2080)
Следующий в иерархии процессор TU104 имеет конфигурацию из шести кластеров GPC по четыре TPC. В прошлом поколении Pascal сохранялась идентичность внутренней структуры кластеров для решений среднего и топового уровня, лишь в бюджетных GPU уменьшалось количество TPC. Вероятно, такая конфигурация TU104 является оптимальной для сохранения некоего баланса производительности и гибкого управления ресурсами — число кластеров на уровне топового GPU, но они слабее. При этом задействовано 46 SM-блоков из 48, что дает 2944 активных вычислительных ядер CUDA, 368 тензорных ядер, 46 ядер RT и 184 текстурных блока. Объем кэш-памяти L2 равен 4 МБ, что вдвое выше объема L2 у GP102 (GeForce GTX 1080).

TU106 (GeForce RTX 2070)
Неожиданностью стала премьера третьего чипа для GeForce RTX 2070. По аналогии с прошлыми поколениями можно было ожидать простого урезания блоков на процессоре старшей видеокарты. Но основой GeForce RTX 2070 стал GPU TU106 с тремя стандартными кластерами по шесть TPC. Общее количество потоковых процессоров 2034, тензорных блоков 288, блоков RT 36, текстурных блоков 144. При прямом сравнении GeForce RTX 2070 с GeForce RTX 2080 получается разница 28% по вычислительным блокам. Кэш-память L2 осталась на уровне 4 МБ.
TU104 и TU106 обладают 256-битной шиной памяти (8 контроллеров разрядностью 32 бит). При этом видеокарты используют память GDDR6 с эффективной частотой 14 ГГц, что обеспечивает рост пропускной способности памяти относительно прошлого поколения.
Как видим, общая конфигурация вычислительных блоков даже у младшего GPU достаточно мощная, не говоря уже о топовом TU102. А ведь в них еще появились и новые функциональные блоки. Поэтому чипы Turing являются сложными и довольно крупными кристаллами. TU102 состоит из 18,6 млрд. транзисторов, TU104 из 13,6 млрд., а TU106 насчитывает 10,8 млрд. транзисторов. В итоге даже при переходе на 12-нм техпроцесс мы не видим роста рабочих частот. Если говорить, о GeForce RTX 2080 Ti, то тут вообще заявлено базовое значение в 1350 МГц при Boost Clock до 1635 МГц. Для младших GPU рабочие частоты выше, но они примерно на уровне моделей Pascal.
С частотами связан один интересный момент. Впервые NVIDIA вводит разные Boost-частоты при одинаковых базовых значениях. В официальных спецификациям мы видим более высокие значения Boost для моделей Founders Edition производства самой NVIDIA. При этом остальные карты тоже обозначены как Reference, что вводит в заблуждение, поскольку именно референсные версии мы привыкли ассоциировать с Founders Edition. У нас была возможность быстро сравнить видеокарту от NVIDIA с моделью другого производителя, и в реальности разница по частотам минимальная. Так что не стоит бояться разных характеристик. При наличии хорошего охлаждения производительность всех GeForce RTX одной серии будет схожей. Хуже остальных могут оказаться те редкие модели с кулером турбинного типа, которые анонсировали некоторые партнеры.
| Видеоадаптер | GeForce RTX 2080 Ti | GeForce RTX 2080 | GeForce RTX 2070 |
|---|---|---|---|
| Ядро | TU102 | TU104 | TU106 |
| Количество транзисторов, млн. шт | 18600 | 13600 | 10800 |
| Техпроцесс, нм | 12 | 12 | 12 |
| Площадь ядра, кв. мм | 754 | 545 | 445 |
| Количество потоковых процессоров CUDA | 4352 | 2944 | 2304 |
| Количество тензорных ядер | 544 | 368 | 288 |
| Количество ядер RT | 68 | 46 | 36 |
| Количество текстурных блоков | 272 | 184 | 144 |
| Количество блоков рендеринга | 88 | 64 | 64 |
| Частота ядра Base, МГц | 1350 | 1515 | 1410 |
| Частота ядра Boost, МГц (Reference) | 1545 | 1710 | 1620 |
| Частота ядра Boost, МГц (Founders Edition) | 1635 | 1800 | 1710 |
| Шина памяти, бит | 352 | 256 | 256 |
| Тип памяти | GDDR6 | GDDR6 | GDDR6 |
| Частота памяти, МГц | 14000 | 14000 | 14000 |
| Объём памяти, ГБ | 11 | 8 | 8 |
| Поддерживаемая версия DirectX | 12 | 12 | 12 |
| Интерфейс | PCI-E 3.0 | PCI-E 3.0 | PCI-E 3.0 |
| Мощность, Вт | 250/260 | 215/225 | 175/185 |
| Официальная стоимость | MSRP $999 Founders $1199 |
MSRP $699 Founders $799 |
MSRP $499 Founders $599 |
TDP новых видеокарт остался примерно на старом уровне. Так, для GeForce RTX 2080 Ti Founders Edition заявлено 260 Вт и 250 Вт для партнерских версий. Для GeForce RTX 2080 это 225 и 215 Вт, что выше TDP серии GeForce GTX 1080, но в целом приемлемо для топовых продуктов.
После общего обзора новых GPU поговорим непосредственно об инновациях архитектуры Turing.
Особенности архитектуры Turing
Важные изменения произошли на уровне мультипроцессорных блоков SM, которые имеют стандартную структуру во всех вариантах GPU Turing. Новая архитектура наследует возможности вычислительной архитектуры Volta и игровой архитектуры Pascal. Все вычислительные блоки внутри SM сгруппированы в четыре массива обработки данных со своей управляющей логикой (данные регистров, планировщик). В одном SM насчитывается 64 потоковых процессора. И эти вычислительные блоки теперь умеют одновременно выполнять целочисленные операции (INT32) и операции с плавающей запятой (FP32). Кстати, на схеме SM они обозначены, как разные функциональные блоки. Интересно, что у Pascal было по 128 ядер CUDA в SM, но расчеты формата INT и FP производились в последовательном порядке.

Согласно данным NVIDIA в современных приложениях при выполнении игровых шейдеров целочисленные вычисления занимают до 36%. И выполнение операций двух типов в один поток значительно ускорит общие вычисления. Тут заодно можно сказать о некоем дисбалансе, поскольку полное дублирование INT32 и FP32 не нужно. Но такая структура может быть актуальной для неигровых вычислений и задач.

Обновленная унифицированная структура кэша L1 позволяет конвейеру TPC эффективнее работать с ним. При сохранении общего объема кэша L1 на уровне 96 КБ меньше латентность, а общая пропускная способность может вырасти до двух раз. Также во всех процессорах увеличен объем общего кэша L2. К примеру, в GPU TU102 это 6 МБ вместо 3 МБ у старого GP102.

Появились и абсолютно новые блоки. Это восемь тензорных ядер для математических операций машинного обучения и один блок RT (Ray-tracing) для расчетов трассировки лучей. Но даже без учета новых блоков и новых возможностей рендеринга NVIDIA говорит о среднем росте шейдерной производительности около 50%, что звучит весьма внушительно. В виртуальной реальности VR этот прирост двукратный и даже выше. Это выглядит очень оптимистично, и походу статьи мы раскроем много нюансов, которые дают такой комплексный эффект.

В очередной раз улучшены алгоритмы сжатия данных в буфере кадра, что уменьшает количество обращений к внешней памяти. В сочетании с чипами GDDR6, которые работают при 14 Гбит/с, утверждается о росте эффективной пропускной способности до 50%. Отдельных пользователей насторожило, что GeForce RTX 2080 Ti сохранил объем в 11 ГБ, а GeForce RTX 2080/2070 получили по 8 ГБ памяти, ведь это на уровне существующих моделей Pascal. Однако такого объема сейчас хватает для высоких разрешений, а Turing в теории еще более эффективно работает с памятью.
Чипы Turing получили поддержку новых feature level из Direct 12. Улучшены асинхронные вычисления. Также новая архитектура имеет ряд улучшений для ускоренной обработки шейдеров.
Mesh Shading предлагает новый единый конвейер геометрии, заменяя вершинные, геометрические шейдеры и тесселяцию. Это более гибкий в управлении конвейер с новым типов шейдеров Task Shaders и Mesh Shaders, который позволяет одновременно работать с геометрией группы объектов, уменьшая общее количество draw calls.

Mesh Shading будет эффективен в сценах со множеством объектов и сложной геометрией, позволяя более гибко управлять LOD. На уровне DirectX 12 его можно реализовать через NVAPI. Также поддержку Mesh Shading добавят в OpenGL и Vulkan.

Перспективно выглядит технология Variable Rate Shading (VRS). Этот метод позволяет регулировать качество шейдинга в семплах 4×4 пикселя. Это дает возможности для гибкой оптимизации. Например, на периферии изображение может быть размыто эффектами Motion Blur и высокая точность проработки семплов тут не имеет значения. Это весьма актуально для гоночных игр, где дорога и окружение на периферии кадра часто смазываются.

Три алгоритма используют VRS:
- Content Adaptive Shading — уменьшает скорость шейдинга для зон со слабо изменяющимся цветом;
- Motion Adaptive Shading — вариативное качество для движущихся объектов;
- Foveated Rendering — снижение качества для областей вне зоны фокусировки.

Все это требует внедрения со стороны разработчиков. Однако VRS может реально улучшить производительность. Также это один из факторов, снижающих нагрузку на видеопамять.
Turing поддерживает новую модель Texture Space Shading (TSS). Значения шейдерных данных хранятся в памяти в специальном текстурном пространстве, откуда потом могут повторно вызываться. TSS позволяет использовать такие тексели для временного рендеринга и разных систем координат.

TSS является одним из элементов ускорения обработки VR. Каждый глаз видит похожее изображение. При визуализации кадра правого глаза используются данные из кадра левого глаза, а заново обработаны будут только те текстели, где нет подходящих образцов.

Тензорные ядра Turing являются улучшенными ядрами Volta. Они нужны для выполнения задач с применением искусственного интеллекта. Эти блоки поддерживают расчеты в режимах INT8, INT4 и FP16 при работе с массивами матричных данных для глубокого обучения в реальном времени. Каждое тензорное ядро выполняет до 64 операций с плавающей запятой, используя входные данные формата FP16. То есть один SM с восемью ядрами обрабатывает 512 операций FP16 за такт. Вычисления INT8 проходят на удвоенной скорости 1024 операций, а для INT4 выполняется 2048 операций за такт. И топовый GPU TU102 способен обеспечить пиковую тензорную производительность до 130,5 TFLOPS (Quadro RTX 6000).

Компания NVIDIA давно работает в области искусственного интеллекта. Однако до недавнего времени все технологии на базе обучаемых нейросетей казались уделом каких-то узкоспециализированных областей и больших дата-центров. С появлением Turing ситуация меняется, ведь мы получаем не только аппаратную платформу, но и новые программные возможности. Для интеграции возможностей искусственного интеллекта используется NVIDIA NGX (Neural Graphics Acceleration), позволяя задействовать возможности глубокого обучения для улучшения графики и визуального отображения.

На базе NGX уже реализована технология повышения разрешения изображения AI Super Rez, технология InPainting для восстановления фрагментов фотографий и некоторые другие интересные функции.

Но самым важным является сглаживание Deep Learning Super-Sampling (DLSS). Это развитие Temporal AntiAliasing (TAA) с использованием новых интеллектуальных возможностей Turing. Сейчас TAA является самым распространенным методом сглаживания, который дается с мизерными потерями производительности в несколько процентов. TAA использует данные прошлого кадра для семплов нового. При хорошем результате сглаживания краев этот метод дает определенное смазывание и дрожание картинки, особенно в динамике. DLSS использует специально обученную нейронную сеть для более быстрой и качественной выборки. Новый метод дает четкую картинку при еще меньших затратах производительности.


Сглаживание DLSS выглядит очень перспективно, причем оно легко интегрируется в игры, что упростит его популяризацию. Интересно, что на графиках NVIDIA показан весьма значительный рост fps при активации DLSS. Причина в том, что при DLSS возможны разные методы выборки, и в некоторых режимах речь, по сути, идет о реконструкции финального изображения из меньшего. То есть это действительно может ускорять рендеринг. Также надо понимать, что многие игры сейчас используют технологии адаптивного разрешения со сглаживанием через TAA. Не каждый пользователь в курсе таких тонких настроек. И если ему при автоматической настройке будет выставлен режим DLSS, то он получит заметное улучшение качества картинки при реальном росте быстродействия.
На данный момент известно об интеграции DLSS в движки Unreal Engine и Unity. А список игр, в которые добавят это сглаживание, постоянно растет.

Трассировка лучей
Также технологии нейронных сетей нужны для очистки изображения от шумов при рендеринге с использованием трассировки лучей. И тут мы подбираемся к главной особенности Turing — поддержке трассировки лучей в реальном времени. По сути, мы имеем первое поколение видеокарт, которое поддерживает новый метод рендеринга. Сейчас используется метод растеризации: объекты проецируются на плоскость экрана с последующей обработкой пикселей с учетом расстояния до плоскости проекции и наложения текстур. Поскольку индустрия развивалась много лет, то эффективность современных методов визуализации на актуальных GPU достаточно высокая. Трассировка лучей использует метод построения изображения, приближенный к реальному, имитируя прохождение лучей света в окружающей среде. При трассировке для каждого пикселя строится луч, определяющий его видимость. Далее строятся вторичные лучи от точки пересечения к источнику света для определения освещенности точки.

При трассировке можно корректно просчитывать не только освещенность каждой точки, но и взаимное влияние объектов друг на друга с учетом их материалов. При стандартных методах рендеринга мы видим качественную симуляцию, где правильное затенение или какие-то особенности освещения воссоздаются с использованием определенных упрощений, используются заранее подготовленные отражения, карты теней и разные методы симуляции глобального затенения. Трассировка лучей позволяет сделать все это более достоверным, лучше учитывая особенности окружающей среды и материалов объектов. И чем сложнее сцена, тем более очевидны будут преимущества трассировки.

К примеру, с трассировкой можно создавать корректные отражения с учетом всего окружения. При обычных методах лишние объекты вне зоны кадра просто отсекаются. Также лучше учитываются особенности преломленного и отраженного света, который определяется взаимным влияниеем объектов. Проще воссоздавать полупрозрачные объекты. Сейчас это неплохо симулируется, но не всегда картинка выглядит корректно во всех нюансах.
Трассировка позволяет воссоздавать реалистичные тени, учитывая направленность света и его рассеянность. Мы получим более точные контуры тени и реалистичное размытие по мере удаленности от источника освещения. Кстати, похожий эффект работает с технологией мягких теней NVIDIA HFTS.


Ну и ключевым моментом является воссоздание реалистичного объемного освещения и затенения. Многие преимущества рендеринга с использованием трассировки хорошо показаны в нижнем видеоролике.
Главным препятствием по внедрению трассировки были высокие требования к производительности системы, ведь еще недавно для этого требовались мощные графические фермы. С момента разработки этого алгоритма прошли десятки лет. Сейчас трассировка активно используется в киноиндустрии, а с выходом Turing начинается путь по внедрению данной технологии в игровую индустрию. Все понимают, что это первые шаги в данном направлении. Поэтому о полноценной трассировке пока речь не идет. NVIDIA внедряет гибридный метод рендеринга, который позволяет совмещать растеризацию с трассировкой для некоторых эффектов.

И среди новых игр, где уже заявлена поддержка трассировки, мы видим упоминание лишь некоторых эффектов. Так, в Shadow of the Tomb Raider будут реализованы реалистичные тени, в Battlefield V более качественные отражения, а в Metro Exodus реалистичное глобальное затенение.
Проект Atomic Heart обещает сразу несколько эффектов. Тут будет как реалистичное затенение, так и корректные отражения. Обратите внимание на рекурсию отражений в зеркальной поверхности в конце ролика — выглядит действительно круто.
И это лишь первая волна игр и первое поколение ускорителей GeForce RTX, которые могут обрабатывать трассировку в реальном времени.
Подробнее поговорим о технической реализации гибридного рендеринга. Процессоры Turing могут одновременно сочетать работу конвейера растеризации и трассировки. Растеризация быстрее для определения видимости объекта. Вторичные лучи при трассировке могут уже использоваться для создания качественных отражений, теней и прочих эффектов. Разработчики получат возможность регулировать степень покрытия отраженными лучами нужной поверхности. В целом же количество первичных и вторичных лучей зависит от сложности сцены и многих иных параметров.

Сама трассировка не является некоей эксклюзивной особенностью NVIDIA. Компания Microsoft уже приняла расширение DirectX Raytracing (DXR) для DirectX 12. API определяет команды на выполнение, не ограничивая аппаратное устройство в методах их исполнения. Технология NVIDIA RTX предлагает сочетание программных алгоритмов и аппаратных возможностей для реализации трассировки. Естественно, что NVIDIA RTX работает в среде DirectX 12, но также NVIDIA работает над стандартизацией и внедрением технологии в Vulkan API. По слухам трассировку в среде Vulkan добавят в Final Fantasy XV: Windows Edition.
Одним из методов ускорения трассировки является применение алгоритма Bounding Volume Hierarchy (BVH). Он предполагает разбиение сцены на структуру иерархически связанных блоков, в которые входят разные геометрические примитивы. Каждый луч тестируется, проходя по этому дереву, пока не встретит на своем пути примитив. Создание иерархической структуры BVH избавляет от лишних тестов для луча.

Специальные RT-ядра берут на себя аппаратные расчеты по алгоритму BVH. Без этих блоков процессор вынужден выполнять тысячи лишних операций и расчетов.


Pascal не имеет таких блоков и его производительность в трассировке значительно ниже. Для GeForce GTX 1080 Ti озвучивается цифра в 1,1 гигалучей в секунду (Giga Rays/s). GeForce RTX 2080 Ti с RT-блоками обрабатывает 10 гигалучей в секунду. Разница огромная.
При использовании трассировки лучей на изображении образуется шум, который убирается специальными фильтрами. У Turing используется аппаратное шумоподавление на основе интеллектуальных алгоритмов с использованием глубокого обучения, обеспечивая работой тензорные блоки.
С переходом к гибридному рендерингу получается разная нагрузка на определенные блоки GPU. Нижняя схема показывает примерное распределение нагрузки для вывода одного кадра. При использовании DLSS около 20% времени кадра нужно для тензорных вычислений, а 80% — для обычного рендеринга с использованием ядер CUDA. При этом трассировка требует примерно половину времени от обработки шейдеров FP32, т.е. ядра RT занимают 40% времени кадра. И еще 28% уходит на операции INT32.

Из этого всего NVIDIA выводит новую метрику измерения комбинированной производительности в гибридном рендеринге:
RTX-OPS = TENSOR * 20% + FP32 * 80% + RTOPS * 40% + INT32 * 28% (Tera-OPS)
Для GeForce RTX 2080 Ti это 76–78 Tera-OPS, для GeForce RTX 2080 это 57–60 Tera-OPS, а для старого флагмана GeForce GTX 1080 Ti лишь 11,3 Tera-OPS.
Для наглядности приведем таблицу, в которой сведены вместе данные по скорости выполнения разных вычислений. Это пиковые показатели, с учетом небольшого различия в частотах Boost Clock.
| GeForce RTX 2080 Ti | GeForce RTX 2080 | GeForce RTX 2070 | GeForce GTX 1080 Ti | |
|---|---|---|---|---|
| RTX-OPS (Tera-OPS) | 76–78 | 57–60 | 42–45 | 11,3 |
| Rays Cast (Giga Rays/s) | 10 | 8 | 6 | 1,1 |
| FP32 TFLOPS | 13,4–14,2 | 10–10,6 | 7,5–7,9 | 16,3 |
| INT32 TIPS | 13,4–14,2 | 10–10,6 | 7,5–7,9 | н/д |
| FP16 TFLOPS | 26,9–28,5 | 20,1–21,2 | 14,9–15,8 | н/д |
| FP16 Tensor TFLOPS совместно с FP16 | 107,6–113,8 | 80,5–84,8 | 59,7–63 | н/д |
| FP16 Tensor TFLOPS совместно с FP32 | 53,8-56,9 | 40,3–42,4 | 29,9–31,5 | н/д |
| INT8 Tensor TOPS | 215,2–227,7 | 161,1–169,6 | 119,4–126 | н/д |
| INT4 Tensor TOPS | 430,3–455,4 | 322,2–339,1 | 238,9–252,1 | н/д |
Виртуальная реальность
Ускорители Turing станут самым быстрым решением для виртуальной реальности VR. Поддерживается технология Multi-View Rendering, которая является развитием Simultaneous Multi-Projection (Pascal). Это метод отрисовки изображения для разных проекций (вплоть до 32) с просчетом геометрии одновременно для нескольких проекций. Новый метод предусматривает возможность большего смещения точек обзора, позволяя работать в VR с большим углом обзора, вплоть до 200 градусов.

Из-за особенностей линз в очках виртуальной реальности на периферии качество изображения ниже, и тут можно снизить качество рендеринга. Для ускорения можно применить Foveated Rendering. Также важную роль в виртуальной среде играет правильное позиционирование звука. Качество объемного звука улучшит технология NVIDIA VRWorks Audio, которая использует метод трассировки для просчета пути звуковой волны. А поскольку теперь есть специальные блоки трассировки, то такие вычисления заметно ускорились.

Среди прочих достоинств новые видеокарты NVIDIA поддерживают VirtualLink USB Type-C для коммутации устройств VR через один интерфейс без лишних проводов.
Блок вывода изображения
Turing получил новый блок вывода изображения с интегрированной поддержкой HDR и более высоких разрешений. Появилась поддержка DisplayPort 1.4a с возможностью передавать картинку 8K при 60 Гц, плюс технология сжатия данных без потерь VESA Display Stream Compression (DSC) 1.2. Turing могут управлять двумя дисплеями 8K при частоте 60 Гц с HDR. Для сохранения оригинальных цветов рекомендуется подключать HDR-мониторы стандарта BT.2100. Всего же у видеокарт три порта DisplayPort. Еще есть один HDMI 2.0b с поддержкой HDCP 2.2.

Упомянутый VirtualLink тоже позволяет подключать 8K-мониторы. Физически он выполнен в виде порта USB Type-C. Изначально интерфейс разработан для простого подключения гарнитур VR.
В процессорах Turing улучшен блок кодирования видео NVENC. Появилась поддержка кодирования H.265 8K при 30 кадрах. Заявлена некая экономия битрейта до 25% для HEVC и до 15% для H.264, что, вероятно, стоит понимать, как повышение качества кодирования относительно прошлого поколения видеокарт. При этом аппаратный кодер работает заметно быстрее программного x264, обеспечивая минимальную нагрузку на CPU при стриминге даже в 4K. Кроме качественного стриминга можно ожидать и новые возможности для обычного захвата видео. При наличии аппаратного 8K-кодировщика функция захвата в 8K должна появиться и в Shadowplay, хотя пока она не заявлена.

Обновлен и декодер видео для воспроизведения видеоконтента: поддерживается декодирование HEVC YUV444 10/12b HDR с частотой 30 кадров в секунду, H.264 8K и VP9 10/12b HDR.
Технология SLI
В поколении Pascal была улучшена пропускная способность в SLI-режиме благодаря использованию двух разъемов MIO с парой соответствующих мостиков. В новых процессорах Turing TU102 и TU104 используется интерфейс NVLink второго поколения для обмена данными между GPU. В TU102 реализовано две линии x8 второго поколения NVLink, а в TU104 одна линия x8. Двунаправленная пропускная способность одной такой линии составляет 50 Гбайт/с. Благодаря новому интерфейсу SLI поддерживаются новые высокие разрешения. Для GeForce GTX 2080 в SLI доступен режим 8K, 4K Surround 144 Гц или 5K при 75 Гц. GeForce GTX 2080 Ti поддерживает даже 8K Surround.

SLI позволяет объединять только две видеокарты. И сам этот режим доступен лишь на GeForce GTX 2080 Ti и GeForce GTX 2080. Стоимость нового мостика SLI на официальном сайте 79 долларов.
Новые возможности GeForce Experience
Появление новых аппаратных возможностей позволило расширить функциональность программного приложения GeForce Experience. В частности, владельцам новых видеокарт будет доступен Ansel RTX.

В новом Ansel можно создавать скриншоты с трассировкой лучей. Причем в режиме паузы качество трассировки будет выше, чем в игре в режиме реального времени.

Технология нейронных сетей позволит делать скриншоты повышенного разрешения с лучшим качеством и проработкой.

Плюс возможность обрабатывать снимки, накладывая разные изображения друг на друга, добавлять стикеры. Будут новые фильтры. Интеграцию Ansel получат многие новые игры, хотя не везде доступны абсолютно все функции. Среди громких релизов осени с Ansel подружатся Battlefield V, Hitman 2, некоторые функции будут в Metro: Exodus.
GPU Boost 4.0 и разгон
В видеоадаптерах NVIDIA давно применяется технология GPU Boost, которая регулирует и повышает частоты ядра. Это ускорение со множеством промежуточных значений, где ключевым является удержать видеокарту в определенных рамках мощности и температур. В очередной раз напомним, что NVIDIA указывает базовое (минимальное) значение частоты и среднее значение Boost Clock. При определенных условиях в игровой нагрузке частоты будут выше заявленного Boost. При хорошем охлаждении так зачастую и происходит. И это отличается от системы обозначений частот у видеокарт AMD, где вплоть до семейства Vega указывалось максимальное значение частоты ядра.
Алгоритм работы GPU Boost постоянно совершенствуется. В прошлом поколении был реализован GPU Boost 3.0, где впервые ппользователь получил возможность настроить кривую частот через через программные настройки специальных утилит. В новом GPU Boost 4.0 пользователю доступно еще больше возможностей для тонкой настройки, где можно контролировать вторую точку целевой температуры и определять время работы при достижении температурных лимитов.

Новые функции настройки Boost с гибким подбором параметров температурной кривой доступны в утилите EVGA Precision X1.

Также в Turing появилась функция автоматического подбора частот для разгона. NVIDIA Scanner запускает специальный тест для проверки на стабильность при постепенном повышении частот. Такое сканирование и тест занимают 20 минут, но довольно точно определяют потолок максимальных частот, избавляя пользователя от лишних тестов. Очень удобно, особенно, для тех, кто слабо разбирается в этой теме. Поддержка NVIDIA Scanner есть в новой версии MSI Afterburner и EVGA Precision X1.

Если производитель дает некие возможности для ускорения видеокарт, то он уверен в качественной реализации питания и дополнительном потенциале охлаждения для таких манипуляций.

Не случайно установлены столь высокие цены на версии Founders Edition. Если в прошлом поколении это казалось переплатой исключительно за раннюю доступность на рынке и эксклюзивность, то теперь чувствуется серьезный основательный подход. Видеоадаптеры Turing получили новое охлаждение с большим радиатором, испарительной камерой и двумя вентиляторами. Даже по весу чувствуется, что это качественный продукт с мощным охлаждением.

Впервые референсные карты от NVIDIA не требуют компромиссов, а сразу обеспечивают отличные температурно-шумовые характеристики. Плюс изначально прошиты более высокие частоты Boost, и есть все возможности для реализации разгона без замены охлаждения.
Подробнее о конкретных экземплярах GeForce RTX мы поговорим в будущих обзорах.
Выводы
NVIDIA Turing — передовая графическая архитектура, которая расширяет возможности привычного рендеринга, добавляя трассировку лучей в реальном времени и возможность использовать нейронные сети для вспомогательных функций. Новые аппаратные возможности обеспечивают поддержку совершенно новых технологий и графических эффектов. Появление Turing стало знаковым событием, которое обозначает старт новой эры и постепенную интеграцию трассировки в игровую индустрию. Уже есть первые проекты, где будет поддержка эффектов на базе трассировки NVIDIA RTX. Еще больше игр получат поддержку нового сглаживания NVIDIA DLSS. Также в Turing есть много улучшений для ускорения традиционного рендеринга. Даже без учета трассировки вы изначально получаете самые быстрые игровые видеокарты с потенциалом для наращивания производительности после внедрения новых технологий.
Наряду со своей технологичностью новое поколение радует качественным подходом к проектированию конечных устройств. Референсные ускорители GeForce RTX перешли на новое охлаждение, есть функции для более простого разгона. Все сделано для того, чтобы удовлетворить запросы самого требовательного пользователя и оправдать высокую стоимость видеокарт.
О производительности GeForce RTX 2080 и GeForce RTX 2080 Ti в существующих играх мы поговорим в следующих обзорах, которые выйдут в ближайшие дни. Оставайтесь с нами и следите за новостями!