목록전체 글 (12)
.__.
들어가는글 4장을 통해 1장에서 설명한 추천 시스템의 3가지 구성요소 중 '프로세스(추천 설계)'에 해당하는 내용을 공부한다. 이번 장에서는 추천 시스템 알고리즘에서는 어떤 종류가 있는지, 각 알고리즘은 어떻게 사용자가 좋아하는 아이템을 추출하는지, 어떤 특징이 있는지, 어떤 경우에 사용되는지를 직관적으로 이해하는 것이 첫번째 목적이다. 구체적인 구현 과정은 5장에서 이어진다. 4.1 추천 알고리즘 분류 content-based filtering 책의 제목이나 저자, 장르 등과 같이 아이템의 내용을 나타내는 정보를 사용 -> (in e-commerce) 상품의 브랜드, 카테고리 정보와 같이 상품이라는 아이템 자체가 가지는 정보 사용자가 선호하는 정보를 기반으로 내용이 비슷한 아이템을 계산함으로써 추천을 ..
들어가는 글 실제 서비스 사용자에게 영향을 주지 않고 평가를 수행하는 오프라인 평가와 달리, 실제 사용자에게 미치는 영향을 평가하는 온라인 평가에 대해서 알아본다. 온라인 평가는 시스템의 변경점을 실제로 사용자에게 제시해, 평가하는 방법을 온라인 평가라고 부른다. 온라인 평가로 사용되는 A/B테스트와 인터리빙 테스트 방식에 대해 알아보자. 또한 온라인 평가에 사용되는 지표가 있는데, 온라인 평가지표는 어떤 종류가 있으며, 어떤 역할을 하는지에 대해 알아보자. 7.3 온라인 평가 7.3.1 A/B테스트 A/B테스트는 무작위 비교 실험(Randomized Controlled Trial_RCT) 중 하나의 방식이다. 사용자를 Treatment그룹(실험그룹), Control그룹(대조군) 나눠서 평가를 수행한다...
들어가는 글 오프라인 평가 즉, 모델의 자체의 성능 평가를 위한 평가지표를 알아보고, 수많은 평가지표 중 어떤 지표를 선정하는 것이 좋을지에 대한 선정방법에 대해 공부해본다. 7.2 오프라인 평가 오프라인 평가 지표 예측 오차 지표 사용자가 아이템에 부여한 명시적인 평가값과 시스템이 예측한 평가값의 오차를 평가하는 것 지표를 이해하기 위한 변수 MAE MAE = Mean Absolute Error = 평균 절대값 오차 = 예측값과 실제값 차이의 절대값 평균을 나타내는 지표 $$ MAE = \frac{1}{n}\sum_{i=1}^{n}\left|{r_i - \hat{r_i}}\right| $$ MSE MSE = Mean Squared Error = 평균 제곱 오차를 = 예측값과 실제값 차이의 제곱 평균을 ..
들어가는 글 이제 막 인트로(ch01, 02, 03)까지 달려왔고! 이제 본격적으로 ch04(추천알고리즘 개요), ch05(추천알고리즘 상세)를 공부하려고 했는데! 갑자기 ch07부터 공부하기로 했다. ㅎ ch07는 추천시스템을 평가하는 방법에 대해 소개하는 챕터이다. 해당 챕터를 먼저 읽고 본격적으로 ch04, 05를 공부하게 되면, 어떤 추천모델을 설계하는 것이 좋을지에 대한 감(?)이 더 빠르게 올 것 같아서이다. 즉, 만들어진 모델에 대한 평가지표로는 무엇무엇이 있고. 서비스 지표는 무엇무엇이 있고 이 중에서 어떤 지표를 타겟팅할지 정했다면, 나는 과연 어떤 피쳐들을 모델에 녹일 수 있을까? 등의 고민의 시간🤔이 더 짧아질 수 있지 않을까 싶었다. 그래서 이번 챕터에서는 추천시스템을 평가하는 방법..
들어가는 글 3장에서는 추천 시스템이 사용자에게 추천 결과를 전달할 때 어떤 화면(UI)에 따라어떤 체험(UX)을 제공해야하는지에 관해 설명한다. 1장에서 설명한 추천시스템의 3가지 구성 요소 중 "출력(추천 결과 제시)"에 해당한다. https://yesjiyoung.tistory.com/14 [추천 시스템 입문] CH01. 추천시스템 들어가는 글 6주동안 책을 공부하고 그 내용을 정리해보려한다. 책 정보 : https://m.yes24.com/Goods/Detail/118625987 추천 시스템 입문 - 예스24 추천 시스템 도입을 고민하고 있다면 제일 먼저 봐야 하는 yesjiyoung.tistory.com 3.1 UI/UX의 중요성 실제 서비스에 추천 시스템을 도입할 때 어느 정도 고도화된 추천 ..
들어가는 글 2장에서는 추천 시스템 프로젝트를 어떤 팀과 어떤 프로세스로 진행하는지에 관해 설명한다. 이를 통해, 추천 프로젝트를 진행하려면, 어떤 팀들과 협업해야하는지 그리고 어떤 프로세스를 통해 구현이 가능한지에 대해 공부해보려한다. 2.1 추천 시스템 개발에 필요한 3가지 스킬 데이터 과학자에게 필요한 스킬셋으로 "비지니스 문제 해결 능력", "데이터 사이언스 능력", "데이터 엔니어링 능력"의 3가지 스킬이 필요하다고 한다. 추천시스템 개발에도 위의 세 가지 스킬이 필요하다. (당연히, 검색시스템 개발자도 위의 세 가지 스킬이 필요하다!) 비지니스 문제 해결 능력 먼저, 추천 시스템을 도입함으로써 무엇을 기대할 수 있는지 정의하는 것이 중요하다고 한다. 구체적으로는 추천 시스템을 도입하여, 사용자..
들어가는 글 6주동안 책을 공부하고 그 내용을 정리해보려한다. 책 정보 : https://m.yes24.com/Goods/Detail/118625987 추천 시스템 입문 - 예스24 추천 시스템 도입을 고민하고 있다면 제일 먼저 봐야 하는 책! ‘맞춤 동영상’ ‘팔로우 추천’ ‘다른 고객이 함께 본 상품’ 등 추천 기능은 주변의 다양한 서비스에 포함되어 있다. 수많은 m.yes24.com 추천시스템 1.1 추천 시스템 추천 시스템이란? 사용자가 특별히 키워드를 입력하지 않고도 마음에 드는 아이템을 만날 수 있는 시스템. 추천 시스템을 통해서? 고객과 기업은 각각 어떤 이점을 얻는지? 사용자 입장 - 아이템 구입에 도움을 줌 기업 입장 - (1) 매출상승 (2) 고객의 체류시간 상승 ➡️체류시간상승은 곧 ..
들어가는 글 2024년 새해를 맞이하여, 2024를 준비한 나의 과정을 첫 스토리로 담아본다. 2024년 1월 1일 월요일에 나는 집에서 만다라트 계획법을 작성했다. 무려 3시간이 걸렸다. ㅎㅎ 조금 부끄러울 수 있지만 만다라트 계획법을 블로그에 공유하고, 계획을 잘 달성하여 성취감으로 꽉찬 한 해를 보내보고싶다. 만다라트 새해 목표 사람들은 종종 자신이 무엇인가를 이루고 싶을 때 다짐, 계획, 약속 이라는 것을 세운다. 나 역시 올해 이루고자하는 것들이 생겼고, 이를 만다라트 계획법을 이용하여 작성했다. 이를 공유하고자한다. 짧게 만다라트 계획법에 대해 설명하자면, 만다라트는 아래 사진과 같이 중심에 가장 큰 목표를 작성한 후 세부 목표를 8개를 그 주위에 작성한 뒤, 각 세부 목표의 세부목표들을 또 ..
- 01.1 Apache Spark가 도대체 뭘까? - 01.2 Apache Spark 특징은 ? - 01.3 RDD가 뭔데? 01.1 Apache Spark 가 도대체 뭘까? 최근 실무에서, 스파크 환경 세팅을 하느라 시스템엔지니어링팀과 짧게 회의를 했다. (방화벽, 네트워크 관련해서...) 그때, 해당 팀 팀원분이 "아 근데, 스파크가 뭐에요?" 라고 하셨다. 나는 "아.. 스파크는요~ 대규모 데이터를 처리하는 분산 처리 API라고 생각해주시면 됩니다 :)" 라고 (얼버무려) 대답했다.ㅋㅋㅋ 취준 시절에는 데이터를 다룰 때 Pandas, Numpy, TF만 사용했었는데.. 어쩌다보니 지금은 Spark 와 MR 만 사용하게 됐다. (그럴수밖에 없는게, 실무에서는 데이터사이즈가 워낙 크니깐..., 아 그..
3.1 Train/Test and Cross Validation | 학습/테스트 데이터와 교차검증 - Train / Test 분리 - 검증 방법 : k-fold validation -> 학습 데이터의 개수가 적은 경우 사용하면 좋다. -> 과적합 방지용 3.2 Accuracy Metrics (RMSE, MAE) | 정확도 지표(RMSE, MAE) | mean absolute error (MAE) | root mean square error (RMSE) - 예측과 실제의 차이가 크면클수록 더 높은 페널티를 부여받는다. - 예측과 실제의 차이가 작으면작을수록 더 낮은 페널티를 부여받는다. + Netflix Prize는 넷플릭스 사용자들의 영화 별점 데이터를 가지고 2006년 10월부터 2009년 7월까지 약..