We will find a way. We always have.

고려대학교에서 인공지능과 금융공학을 연구하고 있는 어느 대학원생의 블로그입니다.

금융(Finance)

[논문번역] AlphaStock: A Buying-Winners-and-Selling-Losers InvestmentStrategy using Interpretable Deep Reinforcement AttentionNetworks

MinsukSung 2020. 4. 6. 16:12
본 포스트는 상업적인 목적이 없이 필자의 공부를 위해 번역된 글입니다.
오역이 많은 점 미리 양해 바라며 언제든지 댓글로 피드백받고 있습니다.
최종 수정: 20.04.15

 

원문: https://arxiv.org/pdf/1908.02646.pdf

 

SUMMARY

 

논문의 Topic에서 발생하는 문제들이 무엇인지 (Motivation)

그 중에 어느 문제를 타겟으로 언급하는지 (Goal)

그 문제를 풀기 위해 어느 것을 만들겠다고 하는지 (Objective)

그것을 만들면 무슨 효과가 있는지 (Advantage)

그 효과는 무슨 의미인지 (Contribution)

결과 분석이 Goal, Contribution, Advantage를 잘 설명하는지 (Result)

논문의 단점은 무엇인지 (Limitation)

해당 논문을 왜 읽었는지 (Why read, our goal)

논문에서 주장하는 것(Method or Contribution or Advantage)을 어떻게 적용할지 (Application)

그것을 적용하면 우리 문제에 어떤 효과가 있는지 (Advantage)

 

ABSTRACT

 

최근 몇 년 동안 양적 거래(QT)를 포함한 다양한 금융 애플리케이션에서 금융 혁신과 AI 기법의 성공적인 결합을 목격했다. 보다 나은 QT 전략을 구축하기 위한 딥러닝(DL) 방법의 활용에 전념하는 많은 연구 노력에도 불구하고, 기존 연구들은 여전히 위험과 수익의 균형, 극단적인 손실에 대한 저항성, 그리고 DL 기반 적용을 제한하는 전략의 해석성 등과 같은 재정 측면으로부터 심각한 도전에 직면해 있다. 본 연구에서는 위의 과제를 해결하기 위해 해석 가능한 깊은 어텐션 네트워크(Deep attention networks)로 보강된 새로운 강화 학습(RL) 기반 투자 전략인 AlphaStock을 제안한다. 우리의 주요 기여도는 다음과 같이 요약된다.

우리는 위험 수익 균형 투자 전략을 달성하기 위해 깊은 어텐션 네트워크를 샤프(Sharpe) 비율 중심의 강화 학습 프레임워크와 통합한다. 우리는 선택 편견을 피하고 자산 간 상호 관계를 모델링하여 자산 간 어텐션 메커니즘을 개발할 것을 제안한다. 본 연구는 심층 강화 학습 모델을 이용한 해석 가능한 투자 전략을 최초로 제시한 것에 속한다. 본 논문 속 실험에서는 오랜 기간 지속된 미국과 중국 시장과 같이 다양한 시장 상태에 대한 AlphaStock의 효과와 견고함을 보여준다. AlphaStock은 최근 장기 성장이 높고 변동성이 낮고 내재가치가 높으며 저평가된 종목으로 선정하는 경향이 있는 것으로 나타났다.

 

1. INTRODUCTION

 

대규모 거래를 처리하고 합리적인 의사결정을 제공하는 능력을 감안할 때 양적 거래(QT) 전략은 금융기관과 헤지펀드 등에서 오래전부터 채택되어 눈부신 성공을 거뒀다. 전통적인 QT 전략은 대개 특정 금융 논리에 기초한다. 예를 들어, 증권 시장에서 Jegadeesh와 Titman이 발견한 모멘텀(Momentum) 현상[14]은 모멘텀 전략을 구축하기 위해 사용되었다. Poterba와 Summers가 제안한 평균 환원(Mean reversion)[20]은 자산 가격이 시간이 지남에 따라 평균으로 이동하는 경향이 있기 때문에 자산 가격에 대한 편향이 투자 대상을 선택하는 데 사용될 수 있다고 생각한다. 다중요소 전략(Multi-factor strategy)[7]은 요인 기준(factor-based) 자산평가를 사용하여 자산을 선택한다. 이러한 전통적인 QT 전략의 대부분은 탄탄한 금융 이론을 구비하고 있지만 금융시장의 어떤 특정한 특성만을 활용할 수 있기 때문에 다양한 주가 있는 복잡한 시장에 취약할 수 있다.

최근 몇 년 동안, 딥러닝(DL)은 복잡한 금융 신호에서 다중 관점 특성을 추출하는 효과적인 방법으로서 출현한다. 많은 감독된 심층 신경망은 가격 빈도[11], 경제 뉴스[12], 소셜 미디어[27], 금융 사건 등 다양한 요소를 이용하여 자산 가격을 예측하기 위해 문헌에 제안되어 있다 [4, 5]. 또한 전통적 공유 투자 전략을 강화하기 위한 강화 학습(RL) 프레임워크에도 심층 신경망이 채택된다[3, 6, 16]. 위의 풍부한 연구에도 불구하고, DL을 실제 금융 시장에 적용하는 것은 여전히 몇 가지 과제에 직면해 있다.

 

문제점 1: 수익률과 리스크의 균형 조정(Balancing return and risk)

금융에서 대부분 금융에서의 기존 감독 딥러닝 모델(Supervised Deep Learning Model)은 리스크 인식 없이 가격 예측에 초점을 맞추는데, 이는 근본적인 투자 원칙과 부합하지 않으며 최적의 성과로 이어질 수 없다. 일부 RL 기반 전략[8, 17]이 이 문제를 고려했지만, 위험-반환 균형(Risk-return-balanced) RL 프레임워크에 첨단 DL 접근방식을 채택하는 방법은 아직 잘 연구되지 않았다.

 

문제점 2: 자산 간 상호관계 모델링(Modeling interrelationships among assets)

시장의 많은 금융 툴은 이 작업에 사용되는 위험회피, 재무 및 BWSL 전략과 같은 자산 간의 상호관계에서 위험을 인식하는 수익을 도출하는 데 사용될 수 있다. 그러나 기존의 DL/RL 기반 투자 전략은 이 중요한 정보에 거의 관심을 기울이지 않았다.

 

문제점 3: 해석적인 투자 전략(Interpreting investment strategies)

DL 기반 시스템은 "설명할 수 없는 블랙박스"이므로 의학, 투자, 군사와 같은 중요한 용도에 사용할 수 없다고 주장하는 오랜 목소리가 있다 [9]. 깊은 구조를 가진 RL 기반 전략은 그러한 문제를 더욱 악화시킨다. DL 전략에서 해석 가능한 규칙을 추출하는 방법은 여전히 공개적인 문제로 남아 있다.

 

본 논문에서는, 심층 어텐션 네트워크를 이용한 새로운 강화 학습 기반 전략인 AlphaStock을 제안해, 위의 과제를 극복한다. AlphaStock은 기본적으로 주식 자산에 대한 매입 승자와 매도 패자(BWSL) 전략이다. 우리가 제시하는 모델은 3가지로 구성되어 있다. 첫 번째는 다중 시계열에서 자산 표현을 추출하는 데 사용되는 LSTM-HA(History State Attentication) 네트워크 이다. 두 번째 구성요소는 자산 간의 상호관계뿐만 아니라 이전에 상승했던 자산가격도 충분히 모델링할 수 있는 교차자산 어텐션 네트워크(CAAN) 이다. 세 번째 구성요소는 포트폴리오 발생기(Portfolio Generator) 로, 어텐션 네트워크의 출력 승자 점수에 따라 각 자산의 투자 비율을 부여한다. 강화학습 프레임워크를 사용하여 ROI-Risk-균형 목표, 즉 샤프 비율을 최대화하는 방향으로 모델을 최적화한다. 이와 같이 심층 어텐션 모델을 통한 표현 학습의 장점과 샤프 비율 표적 보강 학습을 통한 위험-반환 균형의 장점은 자연스럽게 통합된다. 더욱이, AlphaStock에 대한 해석성을 얻기 위해, 우리는 우리의 모델이 그것의 다중 관점 특징에 따라 투자할 자산을 선택하는 방법을 공개하기 위한 민감도 분석 방법을 제안한다.

장기간에 걸친 미국 증시에 대한 광범위한 실험은 우리의 AlphaStock 전략이 다양한 평가 조치의 측면에서 일부 첨단 경쟁자들을 능가한다는 것을 보여준다. 특히 AlphaStock은 다양한 시장 상태(강화학습과 샤프 비율에 의해 활성화됨)에 대한 적응력이 뛰어나며 극한 손실 제어 능력(CAAN에 의해 활성화됨)에 대한 탁월한 능력을 보여준다. 중국 증시에 대한 실험이 연장되면서 AlphaStock의 우위성과 견고성이 더욱 확인되고 있다. 흥미롭게도, 해석 분석 결과에 따르면, AlphaStock은 "장기적 성장, 낮은 변동성, 높은 내재가치, 최근 저평가된 주식을 승자로 선정한다"는 원칙에 따라 자산을 선택하는 것으로 나타났다.

 

2. PRELIMINARIES

2.1 기본 금융 개념(Basic Financial Concepts)

정의 1. 보유 기간(Holding Period)

보유 기간은 자산을 투자하기 위한 최소 시간 단위다. 우리는 시간축을 하루 또는 한 달과 같이 고정된 길이로 순차적인 고정 기간으로 나눈다. 우리는 시작 시간으로부터 $t$만큼 보유 기간이 지났을 때 $t$시간이 경과했다고 부른다.

 

 

정의 2.순차적 투자(Seqential Investment)

순차적 투자는 일련의 보유 기간이다. $t$시간 동안 원래 자본을 사용하여 투자하고 $t+1$시간에서 수익을 얻거나 혹은 잃는다.

 

 

정의 3. 자산 가격(Asset Price)

$$ {p}^{(i)} = \{p_1^{(i)},p_2^{(i)},\dots,p_t^{(i)},\dots\} $$

 

여기서 $p_t^{(i)}$는 $t$일 때, 자산 $i$의 가격을 나타낸다. 우리는 모형을 설명하기 위해서 자산을 주식으로 사용하는데, 이것은 자산 특정성과 거래 규칙을 고려하여 다른 유형의 자산으로 확장될 수 있다.

 

 

정의 4. 롱 포지션(Long Position)

롱 포지션은 먼저 $t_1$에 자산을 산 다음 $t_2$에 판매하는 거래 방식이다. 자산 $i$의 $t_1$에서 $t_2$사이에서 롱 포지션일 때 수익은 $u_i(p_{t_2}^{(i)} - p_{t_1}^{(i)})$ 이다. 롱 포지션일 때, 트레이더들은 자산의 가격이 오를 것이라고 예상하기 때문에 이들은 자산을 먼저 사들이고 이익을 얻기 위해서 가격 상승을 기다린다.

 

 

정의 5. 숏 포지션(Short Position)

숏 포지션은 먼저 $t_1$에서 자산을 팔고 $t_2$에 사는 거래 방식이다. 자산 $i$의 $t_1$에서 $t_2$사이에서 숏 포지션일 때 수익은 $u_i(p_{t_1}^{(i)} - p_{t_2}^{(i)})$ 이다. 숏 포지션은 롱 포지션과 반대이다. 트레이더들이 숏 포지션일 때 그들이 기대하는 것은 가격이 떨어질 것이라는 것이다. 그리고 그들은 추후 다시 살 가격보다 비싼 가격에 판매한다. 주식 시장에서 숏 포지션 트레이더들은 주식을 중개인한테 빌려오거나 그들에게 $t_1$ 시점에서 판매한다. 그리고 $t_2$시점에서 트레이더들은 판매했던 주식들을 다시 구매하고 중개인들에게 빌린 주식들을 반환해준다.

 

 

정의 6. 포트폴리오(Portfolio)

자산 $i$이 있는 자산 풀을 고려했을 때 포트폴리오는 다음과 같은 벡터 $b$로 정의할 수 있다.

$$b = (b^{(1)},\dots,b^{(i)},\dots,b^{(I)})^\top $$

여기서 $b^{(i)}$는 자산$i$에 대한 투자의 비율이다. 이 때, $\sum_{i=1}^{I} b^{(i)} = 1$이다.

 

 

정의 7. 제로 투자 포트폴리오(Zero-investment Portfolio)

제로 투자 포트폴리오는 포트폴리오를 구성할 때 순 총투자액이 0인 포트폴리오의 집합이다. 즉, J 포트폴리오를 포함하는 제로 투자 포트폴리오의 경우 총투자액은 아래와 같다.

$$\sum_{j=1}^{J}M^{(j)} = 0$$

예를 들어, 투자자는 한 기업에서 1,000달러어치의 주식을 빌려서 숏 포지션으로 매도한 다음, 단기매매 수익금을 다른 기업에서 1,000달러어치의 주식을 롱 포지션으로 매입하는 데 사용할 수 있다. 이러한 롱/숏 포지션의 조합이 제로 투자 포트폴리오이다. 이름만 봐선 제로 투자이지만 중개인으로부터 빌릴 수 있는 주식의 전체 가치를 제한하기 위한 예산 제약이 여전히 존재한다는 점에 유의한다. 또한 우리는 단순성을 위해서 실제 거래 비용은 무시하고 진행하였다.

 

2.2 BWSL 전략(The BWSL Strategy)

본 논문에서는 주식 거래에 대해서 BWSL(Buy-winner and Sell-losers) 전략을 채택하고 있으며 [14], 그중 핵심은 높은 가격 상승률의 자산을 맹비하고 낮은 가격 상승률의 자산을 매도하는 것이다. 우리는 BWSL 전략을 승자를 매입하기 위한 롱 포트폴리오와 패자를 매도하기 위한 숏 포트폴리오, 2개의 포트폴리오로 구성된 제로 투자 포트폴리오로 실행한다. $T$기간의 순차적 투자를 고려할 때, 우리는 $t$기간 동안의 숏 포트폴리오와 롱 포트폴리오를 아래와 같이 정의한다.

$$b_t^{-} : \text{숏 포트폴리오} \\ b_t^{+}: \text{롱 포트폴리오}$$

$t$일 때, 예산 제약 $\tilde{M}$을 감안하여, 우리는 $b_t^{-}$의 투자 비율에 따라서 중개인으로부터 "패자" 주식을 매입한다. 이때 우리가 빌릴 수 있는 주식$i$의 양은 아래와 같다.

$$u_t^{-(i)} = \tilde{M} \cdot b_t^{-(i)} / p_t^{(i)}$$

이때, $b_t^{-(i)}$는 주식 $i$의 포트폴리오 $b_t^-$에서의 비율이다. 다음으로 빌린 "패자" 주식을 팔고 돈 $\tilde{M}$을 받는다. 그 후, 롱 포지션인 포트폴리오 $b_t^+$에 따라서 $\tilde{M}$만큼의 "승자" 주식을 매입한다. 이때 시간 $t$일 때, 매도할 수 있는 주식 $i$은 아래와 같다.

$$u_t^{+(i)} = \tilde{M} \cdot b_t^{+(i)} / p_t^{(i)}$$

우리가 "승자"의 주식을 매입할 때, 사용한 $\tilde{M}$은 단기 매매 수익이므로 포트폴리오 $\{b_t^+ , b_t^-\}$의 순투자는 0이다.

$t$번째 보유 기간이 끝나면, 롱 포지션의 포트폴리오를 매도한다. 이때 얻을 수 있는 돈은 모든 주식에 대해서 $t+1$의 새로운 가격을 사용하여 주식을 매도한 수익이다.

 

$$ M_t^{+} = \sum_{i=1}^{I} u_t^{+(i)} p_{t+1}^{(i)} = \sum_{i=1}^{I} \tilde{M} \cdot b_t^{+(i)} \frac{p_{t+1}^{(i)}}{p_t^{(i)}} $$

다음으로, 숏 포지션 포트폴리오에 있는 주식을 다시 사서 중개인에게 돌려준다. 이때 숏 포지션을 사는데 들어가는 돈은 다음과 같다.

$$ M_t^{-} = \sum_{i=1}^{{I}'} u_t^{-(i)} p_{t+1}^{(i)} = \sum_{i=1}^{{I}'} \tilde{M} \cdot b_t^{-(i)} \frac{p_{t+1}^{(i)}}{p_t^{(i)}}$$

위 두 가지 포트폴리오가 획득한 앙상블 이익은 $M_t=M_t^{+}-M_t^{-}$이다. 이제 $ z_t^{(i)} = \frac{p_{t+1}^{(i)}}{p_{t}^{(i)}} $이라고 하고 이걸 $t$ 보유 기간 동안 주식 $i$의 가격 상승률이라고 하자. 그런 다음 앙상블 포트폴리오의 수익률을 다음과 같이 계산한다.

$$ R_t = \frac{M_t}{\tilde{M}} = \sum_{i=1}^{I} b_t^{+(i)}z_t^{(i)} - \sum_{i=1}^{I} b_t^{-(i)}z_t^{(i)} $$
 

인사이트 1

위의 식을 더 살펴보자면, $R_t \gt 0$과 같이 양의 이득일 경우, 롱 포지션에 있는 포트폴리오 주식의 평균 가격 상승률이 숏 포지션에 있는 포트폴리오보다 높다는 것을 의미한다.

 

$$ \sum_{i=1}^{I} b_t^{+(i)}z_t^{(i)} \gt \sum_{i=1}^{I} b_t^{-(i)}z_t^{(i)} $$

수익성이 있는 BWSL 전략은 포트폴리오 $b^+$의 주식이 $b^-$의 주식보다 더 높은 평균 가격 상승률을 갖도록 보장해야 한다. 즉, $b^+$의 주가 하락이 $b^-$보다 더 느리다는 것이 보장할 수 있는 한, 시장에 있는 모든 주식의 가격조차도 하락하고 있는 것이다. 반대로, 모든 주식의 가격조차도 상승하고 있다. 만약 $b^-$ 의 주가 상승이 $b^+$보다 빠르다면, 우리의 전략은 여전히 손해를 본다. 이러한 특징은 주식의 절대 가격 상승이나 하락이 우리 전략의 주된 관심사가 아니라는 것을 암시한다. 오히려 주식 간의 상대적 가격 관계가 훨씬 중요하다. 그 결과, 우리는 BWSL 전략 모델에서 주가의 상호 관계(interrelationships)를 기술하는 메커니즘을 설계해야 한다.

 

2.3 최적화 목표(Optimization Objective)

우리의 전략이 투자 수익률과 위험을 모두 고려하도록 하기 위해, 우리는 노벨상 수상자인 윌리엄 샤프(William F. Sharpe)가 개발한 위험 조정 수익률인 샤프 비율을 채택한다.

 

정의 8. 샤프 비율(Sharpe Ratio)

샤프 비율은 변동성 단위당 무위험 수익을 초과하는 평균 수익률이다. 보유 기간$T$을 포함하는 순차적 투자를 고려할 때 샤프 비율은 다음과 같이 계산된다.

 

$$ H_T = \frac{A_T - \Theta}{V_T} $$

여기서 $A_T$ 는 투자시 평균 수익률이며, $V_T$는 투자 위험 측정에 사용되는 변동성, $\theta$는 은행의 수익률과 같은 무위험 수익률이다.

보유 기간 T 동안 순차적인 투자를 통해 계산되는 $A_T$의 값은 아래와 같다.

 

$$ A_T = \frac{1}{T} \sum_{t=1}^{T}{R_t - TC_t}$$

여기서 $TC_t$는 t번째 기간의 거래 원가이다. 변동성 $V_T$는 식(7)과 같이 정의한다.

$$ V_T = \sqrt{ \frac{ \sum_{t=1}^{T}{(R_t - \tilde{R}_t)^2} }{T} } $$

여기서 $R_t = \sum_{t=1}^{T}{\frac{R_t}{T}} $는 $R_t$의 평균이다.

$T$ 시간의 주기로 투자를 하는 경우, 전략의 최적화 목표는 샤프 비율을 최대화하는 롱 포트폴리오 $B^+=\{ b_1^+ \dots b_T^+\}$ 와 숏 포트폴리오 $B^-=\{ b_1^- \dots b_T^-\}$ 를 생성하는 것이다.

 

$$ \underset{\{B^+, B^-\}}{argmax} (B^+, B^-)$$

 

인사이트 2

샤프 비율은 이익과 위험 관점에서 전략의 성과를 평가한다. 이러한 수익-위험 균형 특성은 각 기간의 수익률 $R_t$를 극대화하는데 초점을 맞출 뿐만 아니라 투자 시 모든 기간에 걸쳐 $R_t$의 장기 변동성을 고려해야 한다. 즉, 단기 고수익을 앞세운 근시안적 전략보다 원거리 안정적 투자전략을 설계하는 것이 더 가치 있는 것이다.

 

3. THE ALPHASTOCK MODEL

이번 파트에서는 위에서 정의한 샤프 비율을 최적화하는 목표로 잡은 BWSL 전략을 구현하기 위해서 강화학습 기반의 모델 AlphaStock을 제시한다. 그림1과 같이 AlphaStock에는 세 가지 구성 요소가 포함되어 있다. 첫 번째 구성요소는 LSTM-HA(History State Attentity Network)이 있는 LSTM이다. 각 주식 $i$에 대해서, 우리는 LSTM-HA 모델을 사용하여 이력 상태(History states) $X(i)$에서 주식 대표(Stock representation) $r(i)$를 추출한다. 두 번째 구성요소는 주식 간의 상호관계를 기술하는 CAAN(Cross-Asset Attentity Network)이다. CAAN은 모든 주식의 $r(i)$를 입력으로 삼고, 모든 주식의 승자 점수 $s(i)$를 추정한다. 이때, 승자 점수 $s(i)$는 우승자에 속하는 주식의 정도를 나타내는 점수이다. 세 번째 요소는 포트폴리오 생성기(Portfolio Generator)로, 모든 주식의 $s(i)$ 점수에 따라 $b^+$와 $b^-$의 투자 비율을 계산한다. 우리는 강화 학습을 사용하여 세 가지 요소를 전체적으로 최적화하고, 여기서 순차적 투자시 샤프 비율을 극대화한다.

그림1. AlphaStock 모델의 전체적인 구조

3.1 주식의 특성들(Raw Stock Features)

우리 모델에서 사용된 주식 특징은 두 가지 범주를 포함하고 있다. 첫 번째 범주는 주식의 거래 정보를 설명하는 거래 특성이다. $t$ 시점의 거래 특징은 다음과 같다.

가격 상승률(Price Rising Rate, PR): 마지막 보유 기간 동안 주식의 가격 상승률이다. 주식 $i$에 대해서 $(p_t^{(i)} / p_{t-1}^{(i)})$ 로 정의한다.

미세잔량 변동성(Fine-grained Volatility, VOL): 보유 기간은 더 많은 하위 기간으로 나눌 수 있다. 우리는 실험에서 한 달을 보류 기간으로 설정했고, 따라서 하위 기간은 거래일이 될 수 있다. VOL은 $t - 1$에서 $t$까지의 모든 하위 기간의 가격의 표준 편차로 정의된다.

거래량(Trade Volume, TV): $t - 1$에서 $t$까지 거래된 주식의 총 수량이다. 그것은 주식의 시장 활동을 반영한다.

 

두 번째 범주는 주식을 발행하는 회사의 재무 상태를 설명하는 회사의 특징이다. 시간 $t$에서 회사의 특징은 다음과 같다.

시가총액(Market Capitalization, MC): 주식 $i$의 경우, 가격 $p_t^{(i)}$와 주식의 미결 주식의 산물로 정의된다.

 

주가수익률(Price-earnings Ratio, PE): 주가수익률은 기업의 연간 수익 대비 시가총액의 비율이다.

 

장부-시장 비율(Book-to-market Ratio, BM): 장부-시장 비율은 기업의 장부 가치와 시장 가치의 비율이다.

 

배당금(Dividend, Div): 배당금은 $t-1$번째 보유 기간 동안 주식 보유자에 대한 회사 수익의 보상이다.

이러한 특징들의 값은 같은 척도가 아니므로 Z값으로 정규화(standardize)를 진행한다.

 

3.2 주식의 대표성 추출(Stock Representations Extraction)

주식의 성과는 주식의 히스토리와 밀접한 연관이 있다. AlphaStock 모델에서, 우리는 주식의 히스토리와 관련된 특징으로부터 주식의 대표성(representations)을 학습하기 위해서 LSTM-HA(Long Short-Term Memory with History state Attention) 을 제안한다.

 

순차적인 대표성(The sequential representation)

LSTM-HA 네트워크에서 벡터 $\tilde{x_t}$를 사용하여 시간 $t$에서의 주식의 이력 상태를 나타내며, 이 상태는 3.1절에서 제시한 주식 특성으로 구성된다. 시간 $t$의 마지막 보유기간 K, 즉 시간 $t-K$에서 $t$까지의 기간을 $t$의 뒤를 돌아보는 룩백 윈도우(look-back window)로 명명한다. 이 윈도우 안에 있는 주식의 과거 상태는 다음과 같이 표시된다.

 

$$ X = \{ x_1, /cdots, x_K \} \ where \ x_k = \tilde{x_{t_K+k}} $$

우리 모델은 LSTM 네트워크를 사용하여 X를 재귀적으로 인코딩한다.

$$ h_k = LSTM(h_{k-1}, x_k), k \in [1,K] $$

여기서, $h_k$는 $k$번째 스텝에서 LSTM으로 인코딩된 은닉 상태이다.

마지막 단계에서 $h_K$는 주식의 대표성으로 사용된다. $X$의 요소들 사이의 순차적 의존성을 포함하고 있다.

 

히스토리 상태 어텐션(The history state attention)

$h_K$는 $X$의 요소들의 순차적 의존성을 충분히 이용할 수 있지만, $X$들 사이의 글로벌하고 긴 범위의 의존성은 효과적으로 모델링되지 않는다. 따라서, 우리는 모든 중간 히든 상태 $h_k$를 이용하여 $h_K$를 향상시키기 위해 히스토리 어텐션을 선택했다. 특히 표준적인 어텐션과 같이, 대표성이 향상된 히스토리 상태 어텐션은 $r$로 표시되며, 다음과 같이 계산된다.

 

$$ r = \sum_{k=1}^{K} ATT(h_K, h_k) h_k, $$

여기서 $\text{ATT}$는 다음과 같이 정의된 어텐션 함수이다.

$$ ATT(h_K, h_k) = \frac{exp(\alpha_k)}{\sum_{k`=1}^{K}{exp(\alpha_{k`})}}, \ \alpha_k = w^T \dot tanh(W^{(1)}h_k + W^{(2)}h_K)$$

 여기서 $W^{(1)}h_k$과 $W^{(2)}h_K$는 학습할 파라미터이다.

시간 $t$의 $i$번째 주식의 경우, 대표성이 강화된 히스토리 어텐션은 $r_t^{(i)}$로 표시된다. 이는 시간 $t-K+1$로부터 $t$까지 주식 $i$의 순차적이고 글로벌한 의존성을 모두 포함한다. 우리 모델에서, 모든 주식의 대표 벡터는 동일한 LSTM-HA 네트워크에 의해 추출된다. 식(11)에 있는 LSTM 네트워크의 파라미터 $w, W(1), W(2)$와 LSTM의 파라미터는 모든 주식에서 공유된다. 이와 같이 LSTM-HA가 추출한 대표성은 특정 종목보다는 모든 종목에 대해 비교적 안정적이고 일반적이다.

 LSTM-HA의 주요한 장점은 주식 히스토리 상태로부터 순차적 의존성과 전역적인 의존성을 모두 학습할 수 있다는 것이다. 히스토리 상태에서의 순차적 의존성을 추출하기 위해서만 반복적인 신경망을 이용하거나, 전역적인 의존성을 배우기 위해 MLP[16]의 입력 벡터로 히스토리 상태를 직접 쌓는 기존의 연구와 비교해서, 우리 모델은 주식 히스토리를 보다 포괄적으로 기술하고 있다. LSTM-HA은 또한 개방형 프레임워크라는 점을 언급할 만하다. 뉴스, 이벤트 및 소셜 미디어와 같은 다른 유형의 정보 출처로부터 학습된 표현들[4,12,27]도 통합되거나 $r(i)_t$와 함께 사용될 수 있다.

 

3.3 승자와 패자 선택(Winners and Losers Selection)

일반적인 강화학습 기반 전략 모델에서는 투자 포트폴리오는 종종 소프트맥스 정규화를 통해 직접 생산된다[3, 6, 16]. 이러한 유형의 방법의 단점은 주식 간 상호관계를 완전히 이용하지 않는다는 것이다. 그러나 2.2절의 Insight I에서 본 것과 같이 이러한 주식간의 상호관계는 BWSL 전략에 매우 중요하다. 이러한 점에 비추어, 주식간의 상호관계를 기술할 수 있는 CAAN(Cross-Asset Attentity Network)을 제안한다.

 

간단한 CAAN 모델

CAAN 모델은 주식 간 상호관계를 모델링하기 위해 참조 [24]에서 제안한 셀프 어텐션(Self-attention) 메커니즘을 적용했다. 구체적으로 주식 대표성 $r(i)$에 대해서 주식 $i$에 대한 쿼리 벡터 $q(i)$, 키 벡터 $k(i)$ 및 값 벡터 $v(i)$를 다음과 같이 계산한다.

 

$$ q^{(i)} = W^{(Q)}r^{(i)}, k^{(i)} = W^{(K)}r^{(i)}, v^{(i)} = W^{(V)}r^{(i)} $$

여기서 $W^{(Q)}$, $W^{(K)}$ 그리고 $W^{(V)}$는 학습해야할 파라미터이다. 주식 $j$와 주식 $i$의 상호 관계는 주식 $i$의 $q(i)$를 사용하여 주식 $j$의 키 $k(j)$를 쿼리하는 것으로 모델링된다.

$$ \beta_{ij} = \frac{q^{(i)T}k^{(j)}}{\sqrt{D_k}} $$

여기서 $D_k$는 참조 [24]에 따른 재스케일 파라미터 설정이다. 그런 다음 표준화된 상호관계 ${\beta_{i j}}$을 가중치로 사용하여 다른 주식의 값 ${v^(j)}$을(를) 감쇠 점수로 합친다.

$$ a^{(i)} = \sum_{j=1}^{I}\text{SATT}(q^{(i)}, k^{(j)}) \cdot v^{(j)}$$

여기서 $\text{SATT}$는 표준화된 소프트맥스의 상호관계이다.

$$ \text{SATT}(q^{(i)}, k^{(j)}) = \frac{exp(\beta_{ij})}{\sum_{j`=1}^{I}{exp(\beta_{ij})}} $$

우리는 완전 연결 레이어(Fully-Connected)를 사용하여 어텐션 벡터 $a(i)$를 다음과 같이 승자 점수로 변환한다.

$$ s(i) = sigmoid(w^{(s)T} \cdot a^{(i)} + e^{(s)})$$

이 때, $w^{(s)T}$와 $e^{(s)}$는 학습해야할 가중치와 편향이다. 우승자 점수 $s^{(i)}_t$는 보유 기간 $t$동안 주식 $i$가 얼마나 우세한지를 나타낸다. 점수가 높은 주식은 승자가 될 가능성이 높다.

 

가격 상승 순위 이전 포함

기본 CAAN에서 식(15)에 의해 모델링된 상호관계는 데이터로부터 직접 학습된다. 사실, 우리는 선험적인 지식을 이용하여 우리의 모델이 주식 상호 관계를 학습할 수 있도록 할 수 있다. 우리는 $c(i)_{t-1}$을 사용하여 마지막 보유기간($t$에서 $t-1$까지)의 주가 상승률 순위를 표시한다. NLP 분야의 위치 정보를 모델링하는 방법에 영감을 받아, 우리는 $c(i)_{t-1}$의 좌표 축에 있는 주식의 상대적 위치를 주식 상호 관계에 대한 선행 지식으로 사용한다. 구체적으로, 2개의 주식$i$와 $j$를 고려하여, $c(i)_{t-1}$의 좌표축에서 이산 상대 거리를 다음과 같이 계산한다.

 

$$ d_{ij} = \left\lfloor \ \left\lvert \frac{ c^{(i)}_{t-1} - c^{(j)}_{t-1} }{Q} \right\rvert \ \right\rfloor $$

여기서 $Q$는 사전 설정된 정량화 계수다. 우리는 $d_{ij}$의 각 이산화된 값을 나타내기 위해 $L = (l_1, \dots ,l_L )$를 사용한다. $d_{ij}$를 인덱스로 사용하여, 대응하는 열 벡터 $l_{d_{ij}}$는 상대 거리 $d_{ij}$의 임베딩 벡터다.

주식 $i$와 $j$ 쌍의 경우, $l_{ij}$를 사용하여 선행 관계 계수 $\psi_{ij}$를 계산한다.

 

$$\psi_{ij} = sigmoid( w^{(L)\top} l_{d_{ij}} )$$

여기서 $w^{(L)}$는 학습 가능한 파라미터이다. 식(15)가 추정하는 주식 $i$와 $j$의 관계는 다음과 같이 다시 쓰여진다.

$$ \beta = \frac{\psi(q^{(i)\top} \cdot k^{(j)})}{\sqrt{D}}$$

이런 식으로 가격상승률 순위 내 주식의 상대적 포지션을 가중치로 도입해 주의력 계수를 높이거나 약화시킨다. 주가 상승률이 비슷한 종목들은 관심에서 상호관계가 더 강해지고, 그 다음에도 비슷한 승점들을 갖게 될 것이다.

 

기억해야할 것
식(16)와 같이 각 주식 $i$에 대해 다른 모든 주식의 어텐션에 따라 승자 점수 $s(i)$를 계산한다. 이런 식으로 모든 주식의 상호관계는 CAAN에 관여한다. 이 특수한 어텐션 메커니즘은 2.2절의 인사이트1의 모델 설계 요건을 충족한다.

 

3.4 포트폴리오 생성기(Portfolio Generator)

AlphaStock 모델은 주식 $I$의 승자 점수 $\{ s^{(1)}, \cdots , s^{(i)}, \cdots, s^{(I)}\}$를 기준으로 점수가 높은 주식을 매수하고 낮은 주식은 매도한다. 구체적으로, 우리는 우선 승자점수에 따라 내림차순으로 주식을 분류하고 각 주식 $i$에 대한 순서번호 $o^{(i)}$를 얻는다. $G$가 포트폴리오 $b^{+}$와 $b^{-}$의 사전 설정 크기를 나타내도록 하자. 만약 $o^{(i)} \in [ 1,G ]$일 때, 주식 $i$는 투자 비율을 다음과 같이 계산하여 포트폴리오 $b^{+(i)}$에 들어갈 것이다.

$$ b^{+(i)} = \frac{exp(s^{(i)})}{\sum_{o^{(i')}\in[i-G, I]}exp(1-s^{(i')})} $$

만약 $o^{(i)} \in (I-G,I]$일 때, 주식 $i$는 투자 비율을 다음과 같이 계산하여 포트폴리오 $b^{-(i)}$에 들어갈 것이다.

$$ b^{-(i)} = \frac{exp(s^{(i)})}{\sum_{o^{(i')}\in(I-G,I]}exp(1-s^{(i')})} $$
 

나머지 종목들은 매수/매도 신호가 명확하지 않아 선택되지 않은 종목들이다. 단순화를 위해 우리는 하나의 벡터를 사용하여 두 포트폴리오의 모든 정보를 기록할 수 있다. 즉, 우리는 길이 $I$의 벡터 $b^c$에서 아래와 같이 업데이트한다.

\begin{cases} o(i) \in [1,G] 일때, b^{c(i)} = b^{+(i)} \\ o(i) \in (I-G,I] 일때, b^{c(i)} = b^{-(i)} \\ i=1, \cdots , I일때 0 \end{cases}

그 다음에, 우리는 명확성을 위해 AlphaStock 모델의 반환으로 $b^c$와 $\{b^+,b^-\}$을(를) 상호 교환적으로 사용한다.

 

3.5 강화학습을 통한 최적화(Optimization via Reinforcement Learning)

우리는 AlphaStock 전략을 모델 파라미터로 최적화하기 위한 이산 에이전트 행동로 강화학습 게임으로 프레임화한다. 여기서 주기 $T$ 투자는 강화학습 에이전트의 state-reforward 방향으로 모델링된다. 즉, $\pi = {\text{state}_{1},\text{action}_{1},\text{reward}_{1}, \cdots , \text{state}_{t},\text{action}_{t},\text{reward}_{t}, \cdots , \text{state}_{T},\text{action}_{T},\text{reward}_{T}}$ 로 정의할 수 있다. $\text{state}_{t}$는 관측된 히스토리 시장 상태이며 $\chi_t = (X_{t}^{(i)}) $로 표현된다. $\text{action}_{t}$는 $I$차원 이진 벡터로서, 그 중 에이전트가 $t$시점에서 주식 $i$에 투자할 때, $\text{action}_{(t)} = 1$로 그렇지 않으면 0으로 정의한다. $\text{state}_t$에서 이 에이전트는 주식 $i$를 투자할 확률 $Pr(\text{action}_t^{(i)} = 1)$을 가지고 있으며, 이는 AlphaStock에 의해 다음과 같이 결정된다.

$$ Pr(\text{action}_t^{(i)} = 1 | \chi_t^{n}, \theta) = \frac{1}{2} G^{(i)}(\chi_t^{n}, \theta) = \frac{1}{2} b_t^{c(i)} $$

이 때, $G^{(i)}(\chi_t^{n}, \theta)$는 AlphaStock으로부터 생성된 $b_t^{c(i)}$ 일부이고 $\theta$는 모델의 파라미터를 의미하고 마지막으로 $\frac{1}{2}$는 $\sum_{i=1}^{I}{Pr(\text{action}_t^{(i)} = 1) = 1}$임을 보장하기 위해서이다. 여기서 $H_{\pi}$를 $\pi$에서의 샤프 비율이라고 할 때, $\text{reward}_t$는 $H_{\pi}$에서 얼마나 영향을 끼쳤는지 알려주는 정도이다. 단, $\sum_{t=1}^{T} \text{reward}_t = H_{\pi}$ 이다.

가능한 모든 $\pi$에 대해서, 강화학습 에이전트의 평균 보상은 다음과 같다.

 

$$ J(\theta) = \int_{\pi}{H_{\pi}Pr(\pi | \theta) d\pi} $$

이 때, $Pr(\pi | \theta)$는 $\theta$에서 생성된 $\pi$의 확률이다. 그리고 강화학습 모델 최적화의 목적은 최적의 파라미터 $\theta^{*} = argmax_{\theta}{J(\theta)}$를 찾는 것이다.

우리는 $\tau$ 라운드에서 $\theta$를 반복적으로 최적화하는 그레디언트 상승법을 이용하여 아래와 식을 최적화한다.

 

$$\theta_{\tau} = \theta_{\tau -1} + \mu \nabla J(\theta) |_{\theta = \theta_{\tau -1}}$$

여기서 $\mu$는 학습률이다. N개의 궤적 $\{\pi_1, \cdots, \pi_n, \cdots , \pi_N \}$이 주어졌을 때, $\nabla J(\theta)$는 대략 다음과 같이 계산할 수 있다.

\begin{eqnarray} J(\theta) &=& \int_{\pi}{H_{\pi}Pr(\pi | \theta) d\pi} \\ &\thickapprox& \frac{1}{N} \sum_{n=1}^{N}{(H_{\pi_n} \sum_{t=1}^{T_n} \sum_{i=1}^{I} \nabla_\theta \log Pr(\text{action}_t^{(i)} = 1 | \chi_t^{(n)}, \theta))} \end{eqnarray}

여기서 그레디언트 $\nabla_\theta \log Pr(\text{action}_t^{(i)} = 1 | \chi_t^{(n)}, \theta) = \nabla_\theta \log G^{(i)}(\chi_t^{n}, \theta)$인데, 이는 역전파 알고리즘으로부터 계산된 값이다.

모델이 확실하게 시장을 이길 수 있도록 하기 위해, 우리는 강화 학습에 임계값 방법[23]을 도입한다. 그리고 $\nabla J(\theta)$를 식(26)과 다음과 같이 다시 쓴다.

 

$$ \nabla J(\theta) = \frac{1}{N} \sum_{n=1}^{N}{((H_{\pi_n} - H_0) \sum_{t=1}^{T_n} \sum_{i=1}^{I} \nabla_\theta \log Pr(\text{action}_t^{(i)} = 1 | \chi_t^{(n)}, \theta))} $$

여기서 임계값 $H_0$는 전체 시장의 샤프 비율로 설정된다. 이러한 방식으로, 그레디언트 상승법을 통하여 시장을 능가할 수 있는 매개변수를 찾을 수 있다.

 

기억해야할 것

식(27)는 $(H_{\pi_n}-H_0)$을 사용하여 $\pi_n$에서 모든 보유 기간의 그레디언트 $\nabla_{\theta} \log G$를 통합적으로 가중치 부여한다. 보상은 $\pi_n$에서의 어떤 고립된 단계에 직접 주어지는 것이 아니라 모든 단계인 $\pi_n$에 주어진다. 모델의 이러한 특징은 2.2절 인사이트2의 원근법(far-sight) 요건을 충족한다.

 

4. MODEL INTERPRETATION

AlphaStock 모델에서는 LSTM-HA와 CAAN이 주식의 특징을 승자 점수로 망라한다. 최종 투자 포트폴리오는 우승자 점수에서 직접 생성된다. 자연스러운 후속 질문은 AlphaStock어떤 종목들을 승자로 선정할 것인가 하는 것이다. 이 질문에 답하기 위해, 우리는 주식의 과거 특성이 우리 모델에서 그것의 승자 점수에 어떻게 영향을 미치는지 해석하기 위한 민감도 분석 방법[1, 25, 26]을 제안한다.

우리는 $s = F(X)$를 사용하여 주식$X$의 과거 특징을 승자 점수 $s$로 표현한다. 모델에서 $s = F (X)$는 LSTM-HA와 CAAN의 결합된 네트워크다. 예를 들어, 3개월 전 시점의 주식의 프라이커싱 비율과 같은 룩백 윈도우(Look-back window)의 특정 기간에 3.1절에서 정의한 것과 같이 하나의 특징의 값인 $X$의 요소를 나타내기 위해 $x_q$를 사용한다.

 

주식의 과거 상태 $X$를 고려할 때, 승자 점수 $s$에 대한 $x_q$의 영향, 즉 $s$의 민감도를 다음과 같이 표현한다.

 

$$ \delta_{x_{q}} = \lim_{\varDelta x_q \rightarrow 0}{\frac{F(X) - F(x_q + \varDelta x_q, X_{\neg x_q} )}{x_q - (x_q + \varDelta x_q)}} = \frac{\partial F(X)}{\partial x_q}$$

여기서 $X_{\neg x_q}$ 는 $x_q$를 제외한 나머지 원소들을 의미한다.

시장에서 가능한 모든 주식 상태에 대해, 주식 상태 특성의 평균 영향 $x_q$는 승자 점수 $s$는 다음과 같다.

$$ \bar{\delta}_{x_q} = \int_{D_X}{Pr(X) \delta_{x_q}(X) d_{\sigma}}$$

여기서 $Pr(X)$는 $X$의 확률밀도 함수이고, $\int_{D_X}\cdot \ {d_{\sigma}}$는 X의 가능한 모든 값에 대한 합이다. 큰 수의 법칙(Large Number Law)에 의해서, 보유 기간 N 동안 주식 $I$의 과거 상태를 알고 있는 상태라면 $\bar{\delta}_{x_q}$는 다음과 같이 근사시킬 수 있다.

$$ \bar{\delta}_{x_q} = \frac{1}{I \times N}{\sum_{n=1}^{N}\sum_{i=1}^{I}{\delta_{x_q}(X_n^{(i)} | \chi_n^{(\neg i)})}} $$

여기서 $X_n^{(i)}$는 보유 기간 $n$동안 주식 $i$의 과거 상태이고 $\chi^{(\neg i)}_{n}$는 주식 $i$의 과거 상태와 동시에 존재하는 다른 주식의 과거 상태를 나타낸다.

우리는 $\bar{\delta}_{x_q}$를 사용하여 주식의 특징 $x_q$가 승자 점수에 미치는 전반적인 영향을 측정한다. $\bar{\delta}_{x_q}$의 값이 양수일 경우, $x_q$가 클 때 우리 모델이 승자로 주식을 가져가는 경향이 있다는 것을 의미한다. 예를 들어, 우리는 후속 실험에서 미세한 변동성 특징에 대해서 $\bar{\delta} \lt 0$를 얻는데, 이것은 우리의 모델이 낮은 변동성 주식을 승자로 선택한다는 것을 의미한다.

 

5. EXPERIMENT

이 절에서는 미국 시장의 데이터를 통해 우리의 AlphaStock 모델을 실증적으로 평가한다. 중국 증시의 데이터는 모델이 얼마나 강건한지(robustness) 확인하기 위해 활용된다.

5.1 데이터 및 실험 설정(Data and Experimental Setup)

5.2 기본적인 방법(Baseline Methods)

5.3 평가 지표들(Evaluation Measures)

5.4 미국 시장에서의 성능(Performance in U.S. Markets)

5.5 중국 시장에서의 성능(Performance in Chinese Markets)

5.6 투자전략해석(Investment Strategies Interpretation)

Figure 2: The Cumulative Wealth in U.S. markets.

Table 1: Performance comparison on U.S. markets.

Figure 3: Influence of history trading features to winner scores.

Table 2: Performance comparison on Chinese markets.

 

우리의 작업은 다음의 연구 방향과 관련이 있다.

 

금융 투자 전략(Financial Investment Strategy)

고전적인 금융 투자 전략에는 모멘텀(Momentum), 평균 역전(Mean reversion), 다중요소(Multi-factors) 전략이 포함된다. BWSL[14]의 첫 작품에서 제가데쉬와 티트만은 "모멘텀"이 승자와 패자를 선택하는데 사용될 수 있다는 것을 발견했다. 모멘텀 전략은 과거 기간 수익률이 높았던 자산을 당첨자로 사들이고, 같은 기간 수익률이 저조한 자산을 매각한다. 고전적 모멘텀 전략으로는 횡단 모멘텀(Cross Sectional Momentum,CSM)[15]과 시계열 모멘텀(Time Series Momentum, TSM)[18]이 있다. 평균역전 전략[20]은 자산가격이 과거 기간 동안 항상 평균으로 되돌아간다고 간주하므로, 과거 평균에 따른 가격으로 자산을 매입하고 과거 평균보다 높게 매도한다. 다중요소 모형[7]은 각 자산에 대한 평가를 계산하기 위해 인자를 사용하여 해당 자산에 대한 가치에 못 미치는 가격을 사용하여 해당 자산을 매입/매도한다. 이러한 금융 투자 전략의 대부분은 금융 시장의 특정 요소만을 이용할 수 있으며 따라서 복잡한 시장 환경에서 실패할 수 있다.

 

금융에서의 딥러닝(Deep Learning in Finance)

최근 몇 년 동안, 딥러닝 접근법이 금융 분야에 적용되기 시작한다. L. Zhang 등은 주가를 예측하기 위해 주파수 정보를 이용할 것을 제안하였다[11]. 뉴스 및 소셜 미디어는 가격 예측하는데 사용되었다[12, 27]. 사건 및 기업 관계에 대한 정보는 주가를 예측하는 데 사용되었다[2,4]. 이것들은 대부분 우리처럼 End-to-End 투자 포트폴리오 생성보다는 가격 예측에 초점을 맞추고 있다.

 

금융에서의 강화학습(Reinforcement Learning in Finance)

투자 전략에 사용되는 강화학습 기반의 접근법은 가치 기반(Value-based)정책 기반(Policy-based)[8]의 두 가지 범주로 나뉜다. 가치 기반 접근법은 거래 행위에 대한 시장의 예상 결과를 기술하기 위해 비평가에게 배운다. 투자 전략의 전형적인 가치 기반 접근법으로는 Q-Learning[19]과 Deep Q-Learning[16]이 있다. 가치 기반 접근법의 결함은 시장 환경이 너무 복잡해서 평론가가 추정할 수 없다는 것이다. 따라서 정책 기반 접근법은 금융시장에 더 적합한 것으로 간주된다[8]. 알파스톡 모델도 이 범주에 속한다. 투자 전략에서 전형적인 정책 기반 강화학습 알고리즘은 RRL(Recurrent Relivery Learning)[17] 이다. FDDR [3] 모델은 심층 신경망을 이용하여 RRL 프레임워크를 확장한다. Investor-Imitator 모델[6]에서는 다양한 유형의 투자자의 행동을 모방하는 정책 기반의 심층 강화학습 프레임워크가 제안되었다. 금융 신호의 순차적 의존성을 활용하는 데 초점을 맞춘 RRL과 딥러닝 확장에 비해 우리 AlphaStock 모델은 자산 간 상호 관계에 더 주목한다. 더욱이, 심층 강화학습 접근법은 설명할 수 없는 심층 네트워크 구조의 실제 애플리케이션에서 구현하기 어려운 경우가 많다. 우리 모델이 제공하는 해석 도구가 이 문제를 해결할 수 있다.

 

7. CONCLUSIONS

본 논문에서는 AlphaStock이라는 BWSL 전략을 설계하기 위해 강화학습 기반의 심층 어텐션 네트워크를 제안했다. 우리는 또한 우리 모델의 투자 로직을 해석하기 위한 민감도 분석 방법을 고안했다. AlphaStock은 기존 강화학습 기반 투자전략과 비교해 주식 간 상호관계를 충분히 활용하고, 금융시장에서 딥러닝 모델을 활용하는 '블랙박스' 문제를 해결할 수 있는 문을 열어준다. 미국과 중국 증시를 대상으로 한 백테스팅과 시뮬레이션 실험은 AlphaStock이 다른 경쟁 전략보다 훨씬 우수한 실적을 낸 것으로 나타났다. 흥미롭게도 AlphaStock장기 성장률이 높고 변동성이 낮고 내재가치가 높은 주식을 최근 저평가된 종목으로 매수할 것을 제안한다.

 

REFERENCES


[1] Julius Adebayo, Justin Gilmer, Michael Muelly, Ian Goodfellow, Moritz Hardt, and Been Kim. 2018. Sanity checks for saliency maps. In NIPS’18. 9525–9536.
[2] Yingmei Chen, Zhongyu Wei, and Xuanjing Huang. 2018. Incorporating Corporation Relationship via Graph Convolutional Neural Networks for Stock Price Prediction. In CIKM’18. ACM, 1655–1658.
[3] Yue Deng, Feng Bao, Youyong Kong, Zhiquan Ren, and Qionghai Dai. 2017. Deep direct reinforcement learning for financial signal representation and trading. IEEE TNNLS 28, 3 (2017), 653–664.
[4] Xiao Ding, Yue Zhang, Ting Liu, and Junwen Duan. 2015. Deep learning for event-driven stock prediction.. In IJCAI’15. 2327–2333.
[5] Xiao Ding, Yue Zhang, Ting Liu, and Junwen Duan. 2016. Knowledge-driven event embedding for stock prediction. In COLING’16. 2133–2142.
[6] Yi Ding,Weiqing Liu, Jiang Bian, Daoqiang Zhang, and Tie-Yan Liu. 2018. Investor-
Imitator: A Framework for Trading Knowledge Extraction. In KDD’18. ACM, 1310–1319.
[7] Eugene F Fama and Kenneth R French. 1996. Multifactor explanations of asset pricing anomalies. J. Finance 51, 1 (1996), 55–84.
[8] Thomas G Fischer. 2018. Reinforcement learning in financial markets-a survey.
Technical Report. FAU Discussion Papers in Economics.
[9] Riccardo Guidotti, Anna Monreale, Salvatore Ruggieri, Franco Turini, Fosca Giannotti, and Dino Pedreschi. 2018. A survey of methods for explaining black box models. ACM Computing Surveys (CSUR) 51, 5 (2018), 93.
[10] Sepp Hochreiter and Jurgen Schmidhuber. 1997. Long Short-Term Memory. Neural Computation 9, 8 (1997), 1735–1780.
[11] Hao Hu and Guo-Jun Qi. 2017. State-Frequency Memory Recurrent Neural Networks. In ICML’17. 1568–1577.
[12] Ziniu Hu,Weiqing Liu, Jiang Bian, Xuanzhe Liu, and Tie-Yan Liu. 2018. Listening
to chaotic whispers: A deep learning framework for news-oriented stock trend prediction. In WSDM’18. ACM, 261–269.
[13] Dingjiang Huang, Junlong Zhou, Bin Li, Steven CH Hoi, and Shuigeng Zhou. 2016. Robust median reversion strategy for online portfolio selection. IEEE TKDE 28, 9 (2016), 2480–2493.
[14] Narasimhan Jegadeesh and Sheridan Titman. 1993. Returns to buying winners
and selling losers: Implications for stock market efficiency. J. Finance 48, 1 (1993), 65–91.
[15] Narasimhan Jegadeesh and Sheridan Titman. 2002. Cross-sectional and timeseries
determinants of momentum returns. RFS 15, 1 (2002), 143–157.
[16] Olivier Jin and Hamza El-Saawy. 2016. Portfolio Management using Reinforcement Learning. Technical Report. Stanford University.
[17] John Moody, LizhongWu, Yuansong Liao, and MatthewSaffell. 1998. Performance functions and reinforcement learning for trading systems and portfolios. Journal of Forecasting 17, 5-6 (1998), 441–470.
[18] Tobias J Moskowitz, Yao Hua Ooi, and Lasse Heje Pedersen. 2012. Time series
momentum. J. Financial Economics 104, 2 (2012), 228–250.
[19] Ralph Neuneier. 1995. Optimal Asset Allocation using Adaptive Dynamic Programming.
In NIPS’95.
[20] James M Poterba and Lawrence H Summers. 1988. Mean reversion in stock prices: Evidence and implications. J. Financial Economics 22, 1 (1988), 27–59.
[21] William F Sharpe. 1994. The sharpe ratio. JPM 21, 1 (1994), 49–58.

[22] Ilya Sutskever, Oriol Vinyals, and Quoc V Le. 2014. Sequence to Sequence Learning with Neural Networks. NIPS’14 (2014), 3104–3112.
[23] Richard S Sutton and Andrew G Barto. 2018. Reinforcement learning: An introduction.
MIT press.
[24] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NIPS’17. 5998–6008.
[25] Jingyuan Wang, Qian Gu, Junjie Wu, Guannan Liu, and Zhang Xiong. 2016. Traffic speed prediction and congestion source exploration: A deep learning method. In ICDM’16. IEEE, 499–508.
[26] Jingyuan Wang, Ze Wang, Jianfeng Li, and Junjie Wu. 2018. Multilevel wavelet decomposition network for interpretable time series analysis. In KDD’18. ACM, 2437–2446.
[27] Yumo Xu and Shay B Cohen. 2018. Stock movement prediction from tweets and historical prices. In ACL’18, Vol. 1. 1970–1979.

'금융(Finance)' 카테고리의 다른 글

슬리피지(Slippage)란 무엇일까?  (0) 2020.06.05
샤프 비율(Sharpe ratio)란 무엇일까?  (1) 2020.04.08