* 참고 번역 사이트http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakur/ (거의) 모든 기계학습 문제에 접근하기 | Abhishek Thakur 데이터과학자들은 매일 많은 데이터를 다룬다. 몇몇은 60-70%의 시간을 데이터 처리, munging 그리고 적절한 형태로 데이터를 옮기는 데 써서 기계학습 모델이 그러한 데이터에 적용될 수 있게끔 만든다. 이번 포스트에서는 전처리 스텝을 포함하여 두 번째 파트, 예를 들어 기계학습을 적용시키는 부분에 초점을 맞춘다. 이번 포스트에서 논의되는 연결통로는 내가 참가한 수백 번의 기계학습 대회에서 나온 결과물이다. 이는 매우 일반적이지만 유용하..
* p.16 Summarizing Groups of Data 그룹별로 요약 정리하여 나타내고 싶다. ※ 주의! If you specify a GROUP BY clause in a query that does not contain a summary function, our claue is changed to an ORDER BY clause, ad a message to that effectis written to the SAS log. 요약변수를 나타내지 않았을 때는 ORDER BY 형태로 나타난다. 밑의 경우는 요약변수 sum이 빠진 형태에서 나온 결과로 MemberType의 순서(BRONZE - GOLD - SILVER)의 알파벳 순서대로 정렬되어 나타났다. * 추가 요약 함수들 : NMISS, PR..
# 문제 : 선수들의 도루(SB), 도루실패(CS) 그리고 게임수(G)를 나타내는 결과를 만들어내라. # 문제 해결 방법 : 1) 개별 선수의 통산 기록을 위한 함수 만들기 2) ddply로 함수를 만들어 개별 선수마다 적용시킨다. 3) 도루(SB) 순으로 내림차순 시킨다. # 데이터 설명 SeanLahman.com에서 가져온 2014년 버전의 야구데이터. 거기서 Batting이란 csv 파일을 read.csv로 불러들임. # 코딩 시 알아야될 사항 * ddply의 인자는 총 3개인데, 첫 번째 인자 : Batting이란 데이터 두 번째 인자 : 선수 ID별로 split 세 번째 인자 : 각 part에 함수 적용. * order 함수는 우선 sort를 통해 값을 정렬한 뒤 정렬된 값들의 위치 값을 반환하..
- Total
- Today
- Yesterday
- SAS
- Python
- SD바이오센서 #에스디바이오센서
- Convolutional Neural Network
- Machine Learning
- #ymd
- #R
- 파이썬 증권데이터 분석
- barplot
- BaseBall
- #as.Date
- 2023
- cnn
- ddply
- V리그 #챔피언결정전 #2022-2023 #아본단자 #김종민
- Kaggle
- CFA #Level2
- Order
- CFA LEVEL2
- CFA
- 파이썬
- #strptime
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |