분산 트레이닝

분산 tensorflow 및 pytorch 트레이닝 기능과 Horovod 기반 분산 트레이닝 기능을 제공

1. APP 추가 클릭 후 추가할 앱 선택 화면에서 분산 트레이닝을 선택합니다.

2. 이미지를 선택하고 추가 버튼을 클릭합니다.

3. APP 추가 후 분산 트레이닝 APP을 클릭하면 브라우저의 새로운 탭에서 분산 트레이닝이 실행됩니다.

4. 화면 구성은 아래와 같습니다.

설정

1

작업 목록

2

작업을 생성하기 위한 화면이 표시됩니다.

3

작업 목록에서 선택한 작업을 삭제합니다.

4

클릭 시 작업 하위 POD 정보를 표시합니다.

5

POD 의 상태 정보를 표시합니다.

6

결과 정보를 표시합니다.

7

로그 정보를 표시합니다.

5. 새로 만들기를 클릭하면 분산 트레이닝 생성을 위한 화면이 표시됩니다.

1) Wizard 를 사용한 방법

설명

1

Wizard 를 사용하여 생성 시 선택

2

분산 트레이닝 플랫폼 을 선택 - Horovod(MPIJob), PyTorch(PyTorchJob), TensorFlow(TFJob) 를 지원

3

생성 정보 입력

4

사용할 자원 정보 입력

5

작업 생성 요청

2) YAML 를 사용한 방법

설명

1

YAML 를 사용하여 생성 시 선택

2

YAML 형식으로 생성 정보 및 사용할 자원 정보를 입력

3

작업 생성을 요청

6. 목록에서 Log 아이콘을 클릭하면 로그 정보를 표시합니다.

7. 목록에서 Output 아이콘을 클릭하면 결과 정보를 표시합니다.

1) 작업이 진행 중인 경우 결과 정보가 표시되지 않을 수 있습니니다.

Last updated