본문 바로가기

Data & AI

JeTech Lab Macro 지표 수정개발 공유

반응형

안녕하세요 

 

Youtube 커뮤니티에 알려드린 것처럼 JeTech Lab 출시일을 11월 30일로 정했습니다. 

 

특별한 의미가 있는 날은 아니고, 올해가 끝나기 전

 

한 달 정도 여러분들이 체험을 해보시면 좋을 것 같아서 일정을 정했습니다. 

 

사실 준비를 대충 다 해두었었는데

 

모델들을 다시 학습해야할 일이 생겨서 일정이 조금 늦어지게 되었습니다. 

 

시간이 남아서 macro 모델도 지표를 조금 개선해서 

 

오늘은 바뀌게된 macro 지표에 대해서 이야기드리도록 하겠습니다. 

 

 

 

macro source

 

제가 거시경제를 살펴볼 때 미국 자산들을 기준으로 살펴봅니다. 

 

모든 경제 흐름은 미국 경제 흐름에서부터 시작되고

 

사실 제가 투자할 자산들이 미국 주식, 채권, 금, 한국 주식 정도일 것이기 때문에 이 정도 자산군들로 분석을 진행합니다. 

 

제가 많은 사람들을 만나면서 실적이나 fomc 등에 대한 이벤트들은 어떻게 대응하느냐에 대한 질문을 많이 받는데

 

그런 이벤트들과 시장의 반응은 실시간으로 이루어지기도 하고 

 

해석을 어떻게 하느냐에 따라 주관적 정성적 의견이 들어가는 부분이라고 생각을 합니다. 

 

제가 제공하는 분석은 철저하게 원칙대로 데이터와 통계, AI를 이용합니다. 

 

하지만 제가 제공하는 분석만 이용해서 투자를 하시는것은 추천하지 않습니다. 

 

당장 저도 제가 분석한 데이터들을 보면서도 현재 시장 상황에 맞는 주관적인 판단과 "감"에 의존할 때도 있습니다. 

 

그래서 트레이딩을 수행하는 AI들도 각자 성격이 있기 때문에 그런 정성적이거나 주관적인 견해에 따라 투입할 AI 들을 조정하기도 합니다. 

 

감이란 것이 저 같은 데이터과학을 통해 투자를 하거나 퀀트 투자자들에게 죄악시되곤 하는데

 

저는 조금 다른 생각입니다. 

 

시장에 참여하고 살아남으면서 그 사람이 감이라고 하는 것도 AI가 학습하는 것과 같이

 

시장의 상황이나 반복되는 어떤 패턴과 루틴에 의해서 본인이 경험한 시장에 학습된 추론이지 않을까 생각합니다. 

 

AI 자체가 인간의 뇌세포 구조를 본따와 발전된 것이기에 오히려 우리가 감이란 것을 간과하고 있는데 

 

감이란 건 인간이 스스로 학습한 패턴이기에 그런 감을 믿고 투자해 보는 것도 나쁘지 않다고 생각합니다. 

 

대신 AI가 학습하고 추론한 데이터들이 시장을 잘 예측하지 못할 수 있는것처럼

 

우리의 감도 우리가 경험한 시장과 다른 패턴의 시장상황에선 예측을 잘 못할 수 있고 그런 것들을 받아들이고 감을 수정해 나가야겠죠

 

서론이 길었습니다. 제가 여러분들께 제공할 객관적 거시적 분석에 대해 알려드리도록 하겠습니다. 

 

 

 

일단 크게 레이아웃이 변경된 것은 없습니다..

 

화면상단에 자산들의 pair chip 버튼이 흐르고 

 

두 자산의 최근 100일간 수익률 추이를 보여주는 line chart가 나옵니다. 

 

그 아래 영역이 조금 바뀌었는데 이 부분을 설명하기 위해서 

 

macro 모델에 대해 조금 설명드리겠습니다. 

 

한동안 제가 ts2vec 모델로 여러 시계열들을 분석하곤 했었죠

 

기존에 비지도 학습으로 클러스터링 모델을 구축했었는데

 

ts2vec을 통해 시계열을 벡터로 변환하고 벡터 자체를 이용해 클러스터링을 하는 게 더 효과가 좋은 것 같아

 

이 부분을 적용하기로 했습니다. 

 

시계열에 사용되는 데이터는 다양하지만 저는 아래와 같은

 

비트코인, 한국주식, 미국 자산들의 가격 변동을 추종할 수 있는 ETF 가격들을 이용합니다. 

 

 

ts2vec이 시계열 데이터에서 특징을 잘 추출해서 vector로 잘 변환하기 때문에

 

여러 자산들 간의 상관관계가 담겨있는 multi-variable ts를 데이터로 

 

각 구간별로 representation vector를 만들어내었습니다. 

 

가장 최근 자산들의 시계열을 벡터로 나타내면 아래와 같을 겁니다. 

 

 

100 거래일 x 자산수의 시계열데이터들이

 

320차원의 벡터로 변화되었습니다.

 

시계열 데이터수치를 모두 이용하기보다 320차원의 벡터로 줄이고

 

원시 데이터의 이상치를 잘 걸러내고 모델이 해당 시계열의 패턴들을 잘 추출해 주었길 기대하는 겁니다. 

 

ts2vec 모델을 통해 기존의 모든 구간을 벡터로 바꾸고

 

inference vector(현재 시장 구간을 벡터화)와

 

과거 모든 구간들을 벡터화하고 벡터들 간의 유사도를 구한 이후, 

 

유사도를 기준으로 10 decile을 지정해 주었습니다. 

 

10 분위 각 구간별로 평균 유사도를 보면 가장 유사하지 않은 구간은 -0.18의 cos유사도를

 

가장 유사한 구간엔 0.72 정도의 cos 유사도를 갖습니다. 

 

cos유사도는 벡터들의 유사도를 측정할 때 많이 사용됩니다. 

 

시계열에서 차트의 파동을 삼각함수로 분석한 거냐고 물어보시는 분들이 있는데 다른 개념입니다. 

 

차트라는 원시데이터를 320차원 벡터로 변환하고 

 

대조 벡터와 유사도를 특성공간상에서 분석하는 것입니다. 

 

 

그런데 확실히 다양한 특성이 추가될수록 

 

모델이 투영한 벡터들의 유사도가 원시데이터 자체의 유사도와 조금 낮은 상관성을 갖긴 합니다. 

 

하나의 자산 가격만 모델을 이용해 분석했을 땐 모델의 벡터가 explainable 했지만

 

더 많은 자산들이 추가되면서 모델이 생각한 벡터와 인간의 직관이 조금은 벗어나는 것 같습니다. 

 

이게 정말 예측성능 하락을 가져올지 아닐지는 조금 더 분석해봐야 하지만 기본적으로 이런 데이터들을 이용해서 

 

여러 트레이더들에게 정보를 제공해주곤 했습니다.

 

그런데 같은 정보를 줘도 수익은 천차만별이더라고요. 

 

 

 

JeTech Lab 에선

 

현재 시장 상황과 과거 유사했던 구간의 미래 수익률에 대한 히스토그램을 제공하려고 합니다. 

 

 

자산군이 움직이는 패턴을 보고 

 

과거에는 어떻게 시장이 흘러갔는지 객관적으로 판단할 지표가 될 수 있다고 생각합니다. 

 

지금과 같은 시장 패턴에 내가 투자할 자산의 미래 수익률의 평균, 중앙값, 분산 등을 제공하려고 합니다. 

 

물론 통계이기 때문에 기대 수익이 다를 수 있지만 시장이 많은 세월 만들어간 패턴과 데이터입니다. 

 

결국 평균에 수렴할 것으로 기대하고 있습니다. 

 

 

 

forecast inference automation

 

예측모델들의 가격 예측 차트에서는 보이는 영역이 달라진 것은 없습니다. 

 

다만 다양한 자산들이 추가되면서 아래로 긴 스크롤영역이 생기게 되었습니다.

 

 

 

상당히 괴랄하긴 한데요

 

기본적으로 생각할 수 있는 UX 라면

 

같은 자산들끼리는 묶어서 차트를 그리고 여러 예측 모델의 예측데이터들을 하나의 차트에 그려도 되고

 

원하는 자산군들만 모아보거나 원하는 예측모델만 선택해서 볼 수 있게 해야겠죠

 

하지만 당장 어떻게 수정을 해야겠다는 계획이 세워져있진 않습니다. 

 

제가 혼자서, 무료로 서비스를 제공하는 만큼 제가 감당하는 서버비와 AI를 모델 추론을 위해

 

사용하는 AWS 리소스 비용을 위해선 광고비 충당이 필요합니다. 

 

그래서 해당 차트와 차트들 사이에 광고를 받아서 넣을 생각입니다. 

 

제가 예전에 인스타에 광고가 도배되는걸 극혐 한 적이 있는데 제 서비스에서 그러고 있네요

 

그래도 마음이 바뀌게 된다면 광고를 최소화하거나

 

다양한 기능을 무료 사용자들에게도 이용할 수 있도록 정책을 세워보도록 하겠습니다. 

 

하지만 프리미엄 버전을 출시하게 되면

 

광고제거, 모델에 대한 수익률, 여러 모델들을 비교할 수 있는 회원전용 서비스도 제공해 드릴 예정입니다. 

 

트랜스포머가 들어있는 모델들은 기본적으로 레이어를 어떻게 쌓은 건지 정할 수 있기 때문에 파라미터수를 조정할 수 있는데

 

무료로 제공하는 예측모델은 제가 파라미터 수를 10M으로 제한했습니다. 

 

10M인 이유는 여러 테스트를 진행해 본 결과

 

AWS Lambda에 각 모델별 Image를 배포하고 

 

CPU 추론을 했을 때 제가 정한 시간 이내에 추론을 진행할 수 있는 파라미터로 적당히 선정했습니다. 



이 부분에 대해 더 자세히 이야기할 수 있겠지만

 

이 부분은 겉으로 보기엔 거창하지만 사실 별거 없는 부분이고

 

개발적인 내용이 많아서 별도로 설명을 드리진 않고,

 

간단히 s3에 모델을 보내고, lambda가 실행되기 위한 모델 image를 사전에 지정해 주고 ecr에 업로드하고 

 

lambda event bridge를 통해 주기별로 추론을 하고 JeTech Lab이 바라보는 DB에 적재..

 

모르시면 댓글이나 문의하시면 별도 포스트로 자세히 알려드리겠습니다. 

 

 

다시 돌아와서,

 

알고 계신 분들도 있으실 텐데 지금 보여드리는 데이터들은 모두 inter day, 즉 일간 데이터입니다. 

 

시계열데이터, 특히 금융과 투자 트레이딩 영역에선 데이터를 무한정 만들어낼 수 없기 때문에

 

AI를 활용하기 어려운 단점이 있습니다. 그래서 파라미터를 무한정 늘려서 학습을 한다고 하더라도

 

정말 단호하게 말하면 일간데이터로 학습된 AI모델의 예측은

 

그냥 통계 정도라고 봐야 할 것입니다. (그래도 의미 없는 건 절대 아닙니다)

 

그래도 제가 제한된 데이터와 예측할 수 없는 시장에

 

적은 파라미터수를 갖는 모델을 어떻게 응용하는지 추후에 자세히 공유드리겠습니다.

 

아무튼 AI가 정말 힘을 쓸 수 있는 빅데이터로 넘어가기 위해선

 

intra day 데이터가 필요합니다. 일별 데이터가 아니라, 12시간, 8시간, 4시간, 1시간, 30분, 5분, 1분 등의 가격 데이터들을 이용한다면

 

데이터는 그에 비례해서 많아지고 예측에 대한 신뢰를 더 쌓을 수 있습니다. 

 

intra day 데이터는 저도 큰돈을 들여서 공수해 오고 모델 학습에도 더 많은 시간과 리소스를 투입하기 때문에

 

더 많은 파라미터를 갖는 모델들을 회원전용으로 제공할 예정입니다.

 

물론 내년에 더 고도화되면서 보여드릴 내용이겠죠

 

 

 

 

마무리 

 

오늘은 제가 개발한 내용들을 간단히 공유드렸습니다. 

 

아마 내년에는 숏폼에 JeTech Lab의 데이터 업데이트 사항들에 대해서 다루고 

 

오늘처럼 수정개발한 것들을 개발자 패치노트처럼 롱폼영상에서 공유드리지 않을까 생각 중입니다. 

 

그리고 본문에서도 이야기했지만 

 

제가 강점으로 다루고 있던 객관적으로 데이터를 통한 시장분석은 서비스에 많이 녹여내고

 

그런 모델들을 어떻게 운용하는지 시장상황에 대해 어떤 견해들을 가지고

 

경제에 큰 이벤트인 이번 미국 대선이나 금투세 폐지와 같은 이슈들과 정성적인 데이터들과 주관적 견해들도

 

가끔씩 이야기해 보는 시간도 투자 유튜버답게 다뤄보려고 합니다. 

 

생각과 계획은 늘 그럴싸한데 지켜낼 수 있을지 모르겠네요 ㅋ

 

이번 영상 다음에 JeTech Lab 출시에 대한 영상이 11월 30일에 올라갈 것으로 생각하고 있습니다. 

 

텀이 좀 긴데 요즘 개인적으로 약속도 많고 정리할 것도 많고 일정도 많아서 포스트를 많이 공유드리지 못한 점 죄송합니다. 

 

여러분들에게 보여드리기 전까지 조금 더 다듬어서 제 서비스 보여드리도록 하겠습니다. 

 

감사합니다. 

 

 

 

 

 

 

 

 

 

반응형