MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
Modern gpu optimize
1. http://ozlael.egloos.com
Modern
GPU
Optimize
In
DirectX 9
사실은 GPU 프로그래밍 가이드 문서 정리
ATI Radeon HD 2000 programming guide
GPU Programming Guide GeForce 8 and 9 Series
2. Modern
GPU
Optimize
In
DirectX 9
현대의 H/W의 기준 이야기이므로
석기시대의 H/W에서는 역효과인 것도 존재
이미지 출처 : ndc11
3. Modern
GPU
Optimize
In
DirectX 9
열린글도 아니고 DX10도 아니고 DX11도 아니고...
5. 병목 측정
병목을 찾기 위해서는 정확한 측정 환경 필요
이미지 출처 : http://www.hellodd.com
6. 병목 측정
DirectX retail runtime
DirectX 최종 version
어플리케이션 release versions
디스플레이 컨트롤 패널 기본 값
Anisotropic filtering, Anti aliasing, Vertical sync
평균 값으로 벤치마킹
타겟 하드웨어에서 실행
하드웨어마다 병목이 다름
7. 병목 측정
DirectX retail runtime
심지어 프레임 마다도 바뀜 최종 version
DirectX
어플리케이션 release versions
병목을 찾는다 =
디스플레이 컨트롤 패널 기본 값
Anisotropic filtering, Anti aliasing, Vertical sync
현 시나리오에서의벤치마킹 찾는다
평균 값으로
병목을
타겟 하드웨어에서 실행
하드웨어마다 병목이 다름
13. 병목 측정
Ctrl + T: 텍스쳐 유닛을 고립.
2x2 사이즈로 바꾸어 텍스쳐 대역폭 제한인지 확인
Ctrl + V: 버텍스 유닛을 고립.
버텍스 트랜스폼, CPU 워크로드, 버스 트랜잭션 제한인지 확인
Ctrl + N: GPU 제거
모든 DP calls을 무시하여 로직 오버헤드인지 확인
14. 병목 측정
타이밍 그래프
Driver Time (ms)
CPU가 처리한 드라이버 코드 시간. Driver Sleeping 포함.
GPU Idle (ms)
GPU가 idle였던 시간.
Driver Sleeping (ms)
드라이버가 GPU를 위해 기다린 시간 이미지 출처 : PurfHUD6 UserGuide
15. 병목 측정
Q:
CPU
드라이버가 GPU를
command
기다리는 이유 ?
Push Buffer Queue
command command command command command
command
GPU
16. 병목 측정
A:
CPU
요게 꽉 차서
command
Push Buffer Queue
command command command command command
command
GPU
* Lock(): 은 Push Buffer가 비워지길 기다림
17. 병목 측정
이미지 출처 : http://www.patsnap.com/patents/view/US7773090.html
18. 병목 측정
Driver Sleeping이 높다면 컬링 ,
물리,
로직,
CPU의 할 일을 추가해도 FPS가 줄지 않을 것. AI
Driver Sleeping이 적당하지 않다면
GPU 로드를 가볍게 하기 위해 장변의 복잡도를 줄여야 함.
GPU Idle이 존재한다면
GPU로 데이터를 보내지 않고 있는 경우 발생.
19. 병목 측정
Driver Time과 Frame Time이 같이 튄다면,
드라이버가 텍스쳐 등을 CPU에서 GPU로 업로딩 중..
Driver Time은 정상이고 Frame Time만 튄다면,
CPU가 빡신 일 하던가, 하드를 긁거나, OS가 딴짓 하거나..
Driver Time과 Frame Time의 차이가 크다면,
CPU 의존적
25. API Overhead
상태 및 상수 변화를 줄일 것.
필요치 않을 시 상태를 재 설정 하지 말 것.
셰이더 상수를 개개로 많이 설정 하는 것 보다는 그룹으로 한번에.
26. API Overhead
텍스쳐 아틀라스
여러 텍스쳐를 하나로 묶어서 상태 변화 및 call 절약
이미지 출처 : http://www.gamasutra.com/view/feature/2530/practical_texture_atlases.php
27. API Overhead
인스턴싱
여러 DP call을 하나의 DP call로 합침
이미지 출처 : http://http.developer.nvidia.com/GPUGems2, http://blog.csdn.net/
28. Vertex Processing
Indexed Primitive 사용.
버텍스 캐시 성능을 위해 ID3DXMesh Optimize() 사용.
Attribute 병목 제거 (input assembly)
이미지 출처 : http://blog.naver.com/seiclub
30. Vertex Processing
Setup 시 각 버텍스의 float 데이터를
버텍스 스트림과 오프셋 정보에 기반하여
비디오 메모리의 적절한 위치에서 가져옴.
Setup : single data chunk에 assembled vertex를 설정
31. Vertex Processing
한 싸이클 내 처리
Attribute 양이 정해져 있음.
Setup 시 각 버텍스의 float 데이터를
버텍스 스트림과 오프셋 정보에 기반하여
비디오 메모리의 적절한 위치에서 가져옴.
Setup : single data chunk에 assembled vertex를 설정
32. Vertex Processing
Attribute 병목 탐지
버텍스 선언의 사이즈 늘림 :
셰이더 코드를 변경하지 말고 더미 데이터만 추가
버텍스 선언의 사이즈 줄임 :
셰이더 로직이 변경되지 않게 주의. 셰이더 바운드와 겹치면 시ㅋ망ㅋ
33. Vertex Processing
Attribute 병목 해결
미 사용 Attribute 제거 :
ex> 포지션으로 float4를 사용하지만 w 속성을 사용 안하는 경우
하나의 벡터에 그룹화:
ex> 텍스쳐 좌표 float2 두개를 하나의 float4에 담기
Attribute 재 연산:
ex> 노말과 탄젠트만 데이터에 담고 바이노말은 셰이더에서 재 연산
34. Shaders
최신 셰이더 모델 사용:
석기 시대에는 낮은 버젼을 사용 하는 것이 미덕이였으나,
통합(Unified) 모델 이후부터는 최신 버젼을 권장
최신 버젼의 fxc 사용: 최적화
SM 2 SM 3
35. Shaders
낮은 정밀도 사용:
위치 등 고 정밀 연산은 float. 색상 등의 연산은 half로도 충분
필요시에만 Uniform 파라미터:
런타임 동안 변하지 않는 값은 const 키워드로 사용
Uniform 파라미터 접기:
Ex > return tex2d( sampler, uv) * g_color * 3.0f;
애초에 3.0을 곱해서 셋팅
38. Shaders
범용 함수 남발 금지
float3 reflect(float3 I, float3 N)
{
Return ( 2 * dot(I,N) / dot(N,N) ) * N – I;
}
39. Shaders
범용 함수 남발 금지
float3 reflect(float3 I, float3 N)
{
Return ( 2 * dot(I,N) / dot(N,N) ) * N – I;
}
2 * dot(I,N) * N - I
노말라이즈가
딱!
단위 벡터의 길이를 구하지 않도록
40. Shaders
병렬 코드 사용
float x = a + b + c + d;
== ?
float x = ( a + b ) + ( c + d );
41. Shaders
병렬 코드 사용
float x = a + b + c + d; 3 operation
!=
float x = ( a + b ) + ( c + d ); 2 operation
42. Shaders
타입 혼용 금지
int4 main(int4 a: TEXCOORD)
{
return a + 1.0f;
}
== ?
int4 main(int4 a: TEXCOORD)
{
return a + 1;
}
43. Shaders
타입 혼용 금지
int4 main(int4 a: TEXCOORD)
{
return a + 1.0f;
} 타입 캐스팅을 위한 추가 연산
!=
int4 main(int4 a: TEXCOORD)
{
return a + 1;
}
44. Shaders
스탠다드 라이브러리 함수:
Ex > 벡터와 매트릭스의 곱은 mul().
어드레싱 직접 구현 금지:
saturate()대신 D3DTADDRESS_CLAMP
적절한 타입 사용:
tex2d()가 float4 리턴한다고 해서 꼭 float4로 사용 할 필요 없음
45. Shaders
픽셀 셰이더 병목
스카이 박스를 마지막에:
대부분의 스카이는 가려지므로 최후에 랜더하여 픽셀 연산 및 대역폭 절약
Early Z:
한 패스를 추가하여 깊이만을 먼저 그려서 은면의 비싼 연산 방지
Front to Back 정렬:
앞의 오브젝트에 의해 가려지는 픽셀의 오버드로우 방지
지연 랜더: 보이는 픽셀만 라이팅 연산
46. Shaders
PS 연산의 VS로 이동
픽셀 셰이더의 연산은 비싸다.
그러므로,
선형 보간으로 가능 한 연산은 무조건
버텍스 셰이더에서 연산하고
픽셀 셰이더로 넘겨줘라!
47. Shaders
PS 연산의 VS로 이동
그건 옛날 이야기!
요즘은 셰이더 연산이 짱 쎄서 오히려
버텍스 캐시 퍼포먼스나 어트리뷰트 병목이
방해가 될 수 있다구요!
밸런스를 잘 판단하고 사용해야되욧!
픽셀 셰이더의 연산은 비싸다.
그러므로,
선형 보간으로 가능 한 연산은 무조건
버텍스 셰이더에서 연산하고
픽셀 셰이더로 넘겨줘라!
50. Shaders
통합 셰이더( Unified Shader) 모델
이미지 출처 : PurfHUD6 UserGuide
51. Shaders
DX10을 지원하기 위한 아키텍쳐
모든 셰이더 타입이 같은 하드웨어 유닛을 사용
GPU가 셰이더 로드 밸런싱을 조절
이미지 출처 : PurfHUD6 UserGuide
52. Shaders
동적 분기
현대의 GPU는 다이나믹 브랜치의 퍼포먼스가 우왕ㅋ굿
이를 이용하여 성능 향상을 볼 수 있음
ex>
-라이팅 연산이 필요 없는 그림자 영역은 연산을 건너 뜀
-N dot L 이 0 이하면 스페큘라 연산 건너 뜀
53. Shaders
주의점:
최소 64개의 버텍스 또는 픽셀(8x8)이 연속적이어야 함.
아니면 오히려 성능 저하를 초래 할 수도 있음
넓은 범
ex> 위가 아
닐 경우
-라이팅 연산이 필요 없는 그림자 영역은 연산을 건너 뜀 는 부적합
-N dot L 이 0 이하면 스페큘라 연산 건너 뜀
말맵에는 부적합
고 주파 노
54. Shaders
Uber-shaders
동적 분기의 성능을 활용
여러 매터리얼의 처리를 한 셰이더로 몰아넣어
셰이더 설정 비용을 줄임.
셰이더가 길어지면 셰이더 캐시 문제가 발생 할 수도 있음
55. Shaders
텍스쳐 룩업
라이팅 등 복잡한 연산을 텍스쳐에 미리 그려넣어 사용
Tera StarWars : The Old Republic
log(), exp()로등은 마이크로 인스트럭션이므로 그냥 사용 해도 됨
56. Texture
밉맵 사용
비싼 필터링은 필요 시만 사용
Bilinear의 두배
• Trilinear
• Anisotropic Max anisotropic 만큼 느림
• Wide texture formats
• Volume
• Cubemap
• Texture projection
57. Texture
RGBA8
예전 세대의 하드웨어는 한 싸이클에 32bit 처리
RGBA16F
요즘 세대의 하드웨어는 한 싸이클에 64bit 처리
Fixed poinf RGBA16은 여전히 두 싸이클
58. ETC
clear()
석기 시대에는 clear()를 건너 뛰는 것이 트릭 중 하나였음.
하지만, 현대의 하드웨어에서는 항상 클리어 되어야 함.
nVIDIA : Hyper Z
ATI : Fine-grained Z
풀 스크린 쿼드 시에는 불필요.
59. ETC
메모리 할당
다음과 같은 순위로 메모리 할당
1. 랜더타겟 pitch ( 폭 X 픽셀비트 ) 에 의한 정렬로 할당
2. 셰이더 생성
3. 남은 텍스쳐 로드