BoostCamp

2021.09.23 - [Week 8] Day 1. Comma

배기니어 2021. 9. 24. 03:33

공부한 내용

특강

이활석님 - 서비스 향 AI 모델 개발하기

1. 이력

 대단하신분임! 암튼 대단하신 분임!!

 

2. 서비스향 AI 모델 개발 vs. 수업, 학교, 연구 AI 모델 개발

 2.1. 연구 관점에서의 AI 개발

  • 수업, 학교, 연구 목적의 AI 개발은 데이터셋, 평가 방식이 정해짐

  • 더 좋은 모델을 찾는 과정

 2.2. 서비스 관점에서의 AI 개발

  • 학습 데이터셋이 없다.

  • 테스트 데이터셋과 테스트 방법도 없다.

  • 대신 서비스 요구사항이 있다.

 2.3. 학습 데이터셋 준비

  • 첫 번째로 해야할 작업

  • 서비스 요구사항으로부터 학습 데이터셋의 종류, 수량, 정답을 정의

  • 질의응답을 통해 데이터셋의 종류, 수량, 정답 관련 요구사항을 구체화

  • 기술모듈 설계

   - 데이터 수집에 따라 모듈 추가, 수정 필요

   - 모델 별 정답 설계

   - 모델 분리, 구성

  • 학습 데이터셋 준비하기 위해 모델 파이프 라인 설계 필요

  • 모델링과 학습 데이터셋 구성을 반복하며 작업

  • 서비스 기획자, 외주 업체, AI 모델 개발자와 논의하며 요구사항에 맞게 데이터셋 구성

 2.4. 테스트 데이터셋 / 테스트 방법 준비

  • 학습 데이터셋의 일부를 테스트 데이터셋으로 사용

  • 서비스 요구사항으로부터 테스트 방법 도출

  • OFFLINE 테스트 : 서비스 적용 전 성능 평가

  • ONLINE 테스트 : 서비스 적용 시 성능 평가

  • OFFLINE, ONLINE, 정량 평가, 정성 평가 모두에 대해 테스트

 2.5. 모델 요구사항 도출

  • 모델에 관련된 요구사항 도출

  • 처리시간, 목표 정확도, 목표 QPS(Query Per Second), Serving 방식, 장비 사양

 

3. 서비스향 AI 모델 개발 기술팀 조직 구성

 3.1. AI 모델팀

  • Modeler : 모델링 담당

  • Data Curator : 데이터셋, 평가 담당

  • IDE Developer : 부가적인 기능의 툴, 개발 담당

  • Model Quality Manager : 총괄, 모델 품질 관리 담당

 3.2. 모델 서빙팀

  • Model Engineer : Model Engineering 담당, 개발과 모델링 사이의 매개 역할

  • BE, FE, App 등 세분화

 

4. 조언

 4.1. 개발자에서 AI 관련 직무로 전환

  • AI 모델링 쪽으로 한 번에 넘어가지 말고 Model Engineering부터 시작하는 것이 좋다.

 4.2. 모델러

  • 모델에만 집중하지 말고 역량 확대

 4.3. All

  • AI 기술 트렌드에 민감해야 한다.

  • 변화에 효율적이고 빠르게 적응 필요

 

김상훈님 - 캐글 그랜드마스터의 경진대회 노하우 대방출

1. 캐글을 해야하는 이유

 • 취업목적 : 세계적으로 실력을 인정받기 위해

2. 캐글 활용법

 • 랭킹 시스템 활용 : 순위에 따라 포인트, 메달 획득

 • 티어 시스템 활용 : 획득한 메달에 따라 티어 결정

3. 대회 위한 파이프라인

 • 데이터 전처리

 • 학습

 • 제출 준비

 • 리더보드 제출 (추론)

4. 캐글로 파이프라인 경험

 • Notebook -> Most Vostes -> Train / Inference notebook 활용

5. 노하우

 • 파이프라인의 빠르고 효율적인 반복 : 장비, 시간, 베이스라인 코드 필요

 • 점수 개선 아이디어 : Notebooks, Discussion 탭 참고

 • 탄탄한 검증 전략 필요

  - 좋은 모델은 Training set에서 얻은 점수가 Test set에서도 비슷하게 나오는 모델

  - 검증 전략 : Training set에서 얻은 점수와 Test set에서 얻은 점수의 차이를 줄이는 평가 방법

 • 캐글 데이터 구성

  - Training set : 참가자에게 공개

  - Test set : 참가자에게 비공개

 • 검증 전략 구축

  - Training set 나누기 : Training set(80%), Validation set(20%)

  - 점수 차이 줄이기 위해 k-fold (cross validation) 활용

  - cf. Stratified k-fold

 • 앙상블을 이용하면 싱글 모델보다 항상 좋은 성능

 • 서로 다른 구조의 네트워크를 앙상블하면 더 많이 개선되는 효과

6. 코드관리

 • 버전 별로 폴더 만들어 코드 관리

 • 버전 별 전처리된 데이터, 모델 관리 가능

 • 여러 버전의 모델 앙상블 위해 효과적으로 관리

 

구종만님 - AI + ML과 Quant Trading

1. Trading

 • 투자(investment) : 장기간

 • 트레이딩(trading) : 단기간

2. Quantitative Trading

 • 가격이 수학적 성질 가진다고 가정하여 데이터 기반으로 예측

 • 모델, 데이터 기반

 • automated, system, algorithmic trading

3. arbitrage

 • 싼 곳에서 사서 비싼 곳에서 파는 방법

 • 같은 상품의 가격을 맞추는 역할

 • 속도 경쟁

4. market making

 • 매수 주문과 매도 주문을 동시에

 • 누구나 쉽게 거래할 수 있도록 하는 역할

 • 속도 50%, 50% 알파 경쟁

5. statistical arbitrage

 • 미래 가격을 예측

 • 데이터 기반 접근 필수

 • 10% 속도, 90% 알파

6. 현실 세계의 statistical arbitrage 전략

 • 선형회귀, 머신러닝, 딥러닝의 조합

7. 딥러닝을 사용하지 않는 이유

 • 시장 예측이 어렵다.

  - 시장 변동 원인이 매우 많고 다양

 • 시장은 계속 변한다.

 • 문제가 어려워 오버피팅 위험

 • 변화하는 속성과 변하지 않는 속성 구분 필요

8. 리서치

 • 대부분의 리서치는 가설로부터 시작

 • 설득력 있는 가설이 없이 시작된 리서치는 결론이 조금만 

 • 결과로부터 가설을 수정, 정의하기도 한다.

 • 가설을 잘 표현할 수 있는 알고리즘, 모델, 목적함수

 • 엔지니어링적, 모델링적 접근으로 데이터, 모델 스케일링

9. 리서치 과정에서 주의할 것

 • 프로덕션 시스템, 백테스트 시스템의 차이 줄이기

 • 마켓 임팩트 주의

 • 데이터 스누핑 주의

 • 반복적이고 지루한 과정의 반복

 • 효율적으로 가설 검증할 수 있는 플랫폼에 대한 투자 중요

10. 퀀트 트레이딩 관련 직무 선택

 • 플랫폼과 프로세스에 투자하는 회사

 • 내부적으로 연구 결과와 자료 공유하는 회사

 


추석 연휴 순삭!

계획했던 것들을 못해서 아쉽다.

몸이 갑자기 망가진 것 같아서 약먹고 쉬었다!

쉬었으니까 P stage에서 다시 힘내서 열심히 할 수 있기를..

팀원 분들과의 밋업과 피어 세션은 재밌었다 ㅋㅋ 역시 좋은 분들 👍👍