Page cover

분산 트레이닝

분산 tensorflow 및 pytorch 트레이닝 기능과 Horovod 기반 분산 트레이닝 기능을 제공

1. APP 추가 클릭 후 추가할 앱 선택 화면에서 분산 트레이닝을 선택한다.

2. 이미지를 선택하고 추가 버튼을 클릭한다.

3. APP 추가 후 분산 트레이닝 APP을 클릭하면 브라우저의 새로운 탭에서 분산 트레이닝이 실행된다.

4. 화면 구성은 아래와 같다.

설정

1

작업 목록

2

작업을 생성하기 위한 화면이 표시된다.

3

작업 목록에서 선택한 작업을 삭제한다.

4

클릭 시 작업 하위 POD 정보를 표시한다.

5

POD 의 상태 정보를 표시한다.

6

결과 정보를 표시한다.

7

로그 정보를 표시한다.

5. 새로 만들기를 클릭하면 분산 트레이닝 생성을 위한 화면이 표시된다.

1) Wizard 를 사용한 방법

설명

1

Wizard 를 사용하여 생성 시 선택한다.

2

분산 트레이닝 플랫폼 을 선택한다. - Horovod(MPIJob), PyTorch(PyTorchJob), TensorFlow(TFJob) 를 지원한다.

3

생성 정보를 입력한다.

4

사용할 자원 정보를 입력한다.

5

작업 생성을 요청 한다.

2) YAML 를 사용한 방법

설명

1

YAML 를 사용하여 생성 시 선택한다.

2

YAML 형식으로 생성 정보 및 사용할 자원 정보를 입력한다.

3

작업 생성을 요청 한다.

6. 목록에서Log 아이콘을 클릭하면 로그 정보를 표시한다.

7. 목록에서 Output 아이콘을 클릭하면 결과 정보를 표시한다.

1) 작업이 진행 중인 경우 결과 정보가 표시되지 않을 수 있다.

Last updated