공부한 내용
특강
이활석님 - 서비스 향 AI 모델 개발하기
1. 이력
대단하신분임! 암튼 대단하신 분임!!
2. 서비스향 AI 모델 개발 vs. 수업, 학교, 연구 AI 모델 개발
2.1. 연구 관점에서의 AI 개발
• 수업, 학교, 연구 목적의 AI 개발은 데이터셋, 평가 방식이 정해짐
• 더 좋은 모델을 찾는 과정
2.2. 서비스 관점에서의 AI 개발
• 학습 데이터셋이 없다.
• 테스트 데이터셋과 테스트 방법도 없다.
• 대신 서비스 요구사항이 있다.
2.3. 학습 데이터셋 준비
• 첫 번째로 해야할 작업
• 서비스 요구사항으로부터 학습 데이터셋의 종류, 수량, 정답을 정의
• 질의응답을 통해 데이터셋의 종류, 수량, 정답 관련 요구사항을 구체화
• 기술모듈 설계
- 데이터 수집에 따라 모듈 추가, 수정 필요
- 모델 별 정답 설계
- 모델 분리, 구성
• 학습 데이터셋 준비하기 위해 모델 파이프 라인 설계 필요
• 모델링과 학습 데이터셋 구성을 반복하며 작업
• 서비스 기획자, 외주 업체, AI 모델 개발자와 논의하며 요구사항에 맞게 데이터셋 구성
2.4. 테스트 데이터셋 / 테스트 방법 준비
• 학습 데이터셋의 일부를 테스트 데이터셋으로 사용
• 서비스 요구사항으로부터 테스트 방법 도출
• OFFLINE 테스트 : 서비스 적용 전 성능 평가
• ONLINE 테스트 : 서비스 적용 시 성능 평가
• OFFLINE, ONLINE, 정량 평가, 정성 평가 모두에 대해 테스트
2.5. 모델 요구사항 도출
• 모델에 관련된 요구사항 도출
• 처리시간, 목표 정확도, 목표 QPS(Query Per Second), Serving 방식, 장비 사양
3. 서비스향 AI 모델 개발 기술팀 조직 구성
3.1. AI 모델팀
• Modeler : 모델링 담당
• Data Curator : 데이터셋, 평가 담당
• IDE Developer : 부가적인 기능의 툴, 개발 담당
• Model Quality Manager : 총괄, 모델 품질 관리 담당
3.2. 모델 서빙팀
• Model Engineer : Model Engineering 담당, 개발과 모델링 사이의 매개 역할
• BE, FE, App 등 세분화
4. 조언
4.1. 개발자에서 AI 관련 직무로 전환
• AI 모델링 쪽으로 한 번에 넘어가지 말고 Model Engineering부터 시작하는 것이 좋다.
4.2. 모델러
• 모델에만 집중하지 말고 역량 확대
4.3. All
• AI 기술 트렌드에 민감해야 한다.
• 변화에 효율적이고 빠르게 적응 필요
김상훈님 - 캐글 그랜드마스터의 경진대회 노하우 대방출
1. 캐글을 해야하는 이유
• 취업목적 : 세계적으로 실력을 인정받기 위해
2. 캐글 활용법
• 랭킹 시스템 활용 : 순위에 따라 포인트, 메달 획득
• 티어 시스템 활용 : 획득한 메달에 따라 티어 결정
3. 대회 위한 파이프라인
• 데이터 전처리
• 학습
• 제출 준비
• 리더보드 제출 (추론)
4. 캐글로 파이프라인 경험
• Notebook -> Most Vostes -> Train / Inference notebook 활용
5. 노하우
• 파이프라인의 빠르고 효율적인 반복 : 장비, 시간, 베이스라인 코드 필요
• 점수 개선 아이디어 : Notebooks, Discussion 탭 참고
• 탄탄한 검증 전략 필요
- 좋은 모델은 Training set에서 얻은 점수가 Test set에서도 비슷하게 나오는 모델
- 검증 전략 : Training set에서 얻은 점수와 Test set에서 얻은 점수의 차이를 줄이는 평가 방법
• 캐글 데이터 구성
- Training set : 참가자에게 공개
- Test set : 참가자에게 비공개
• 검증 전략 구축
- Training set 나누기 : Training set(80%), Validation set(20%)
- 점수 차이 줄이기 위해 k-fold (cross validation) 활용
- cf. Stratified k-fold
• 앙상블을 이용하면 싱글 모델보다 항상 좋은 성능
• 서로 다른 구조의 네트워크를 앙상블하면 더 많이 개선되는 효과
6. 코드관리
• 버전 별로 폴더 만들어 코드 관리
• 버전 별 전처리된 데이터, 모델 관리 가능
• 여러 버전의 모델 앙상블 위해 효과적으로 관리
구종만님 - AI + ML과 Quant Trading
1. Trading
• 투자(investment) : 장기간
• 트레이딩(trading) : 단기간
2. Quantitative Trading
• 가격이 수학적 성질 가진다고 가정하여 데이터 기반으로 예측
• 모델, 데이터 기반
• automated, system, algorithmic trading
3. arbitrage
• 싼 곳에서 사서 비싼 곳에서 파는 방법
• 같은 상품의 가격을 맞추는 역할
• 속도 경쟁
4. market making
• 매수 주문과 매도 주문을 동시에
• 누구나 쉽게 거래할 수 있도록 하는 역할
• 속도 50%, 50% 알파 경쟁
5. statistical arbitrage
• 미래 가격을 예측
• 데이터 기반 접근 필수
• 10% 속도, 90% 알파
6. 현실 세계의 statistical arbitrage 전략
• 선형회귀, 머신러닝, 딥러닝의 조합
7. 딥러닝을 사용하지 않는 이유
• 시장 예측이 어렵다.
- 시장 변동 원인이 매우 많고 다양
• 시장은 계속 변한다.
• 문제가 어려워 오버피팅 위험
• 변화하는 속성과 변하지 않는 속성 구분 필요
8. 리서치
• 대부분의 리서치는 가설로부터 시작
• 설득력 있는 가설이 없이 시작된 리서치는 결론이 조금만
• 결과로부터 가설을 수정, 정의하기도 한다.
• 가설을 잘 표현할 수 있는 알고리즘, 모델, 목적함수
• 엔지니어링적, 모델링적 접근으로 데이터, 모델 스케일링
9. 리서치 과정에서 주의할 것
• 프로덕션 시스템, 백테스트 시스템의 차이 줄이기
• 마켓 임팩트 주의
• 데이터 스누핑 주의
• 반복적이고 지루한 과정의 반복
• 효율적으로 가설 검증할 수 있는 플랫폼에 대한 투자 중요
10. 퀀트 트레이딩 관련 직무 선택
• 플랫폼과 프로세스에 투자하는 회사
• 내부적으로 연구 결과와 자료 공유하는 회사
추석 연휴 순삭!
계획했던 것들을 못해서 아쉽다.
몸이 갑자기 망가진 것 같아서 약먹고 쉬었다!
쉬었으니까 P stage에서 다시 힘내서 열심히 할 수 있기를..
팀원 분들과의 밋업과 피어 세션은 재밌었다 ㅋㅋ 역시 좋은 분들 👍👍
'BoostCamp' 카테고리의 다른 글
2021.09.24 - [Week 8] Day 2. Coma (0) | 2021.09.25 |
---|---|
2021.09.14 - [Week 7] Day 2. 팀 구성 완료 (0) | 2021.09.15 |
2021.09.13 - [Week 7] Day 1. 컨디션 쏘쏘 (0) | 2021.09.14 |
2021.09.09 - [Week 6] Day 4. - (0) | 2021.09.10 |
2021.09.07 - [Week 6] Day 2. - (0) | 2021.09.08 |