SUMMARY

논문의 Topic에서 발생하는 문제들이 무엇인지 (Motivation)

그 중에 어느 문제를 타겟으로 언급하는지 (Goal)

그 문제를 풀기 위해 어느 것을 만들겠다고 하는지 (Objective)

그것을 만들면 무슨 효과가 있는지 (Advantage)

그 효과는 무슨 의미인지 (Contribution)

결과 분석이 Goal, Contribution, Advantage를 잘 설명하는지 (Result)

논문의 단점은 무엇인지 (Limitation)

해당 논문을 왜 읽었는지 (Why read, our goal)

논문에서 주장하는 것(Method or Contribution or Advantage)을 어떻게 적용할지 (Application)

그것을 적용하면 우리 문제에 어떤 효과가 있는지 (Advantage)

ABSTRACT

최근 몇 년 동안 양적 거래(QT)를 포함한 다양한 금융 애플리케이션에서 금융 혁신과 AI 기법의 성공적인 결합을 목격했다. 보다 나은 QT 전략을 구축하기 위한 딥러닝(DL) 방법의 활용에 전념하는 많은 연구 노력에도 불구하고, 기존 연구들은 여전히 위험과 수익의 균형, 극단적인 손실에 대한 저항성, 그리고 DL 기반 적용을 제한하는 전략의 해석성 등과 같은 재정 측면으로부터 심각한 도전에 직면해 있다. 본 연구에서는 위의 과제를 해결하기 위해 해석 가능한 깊은 어텐션 네트워크(Deep attention networks)로 보강된 새로운 강화 학습(RL) 기반 투자 전략인 AlphaStock을 제안한다. 우리의 주요 기여도는 다음과 같이 요약된다.

우리는 위험 수익 균형 투자 전략을 달성하기 위해 깊은 어텐션 네트워크를 샤프(Sharpe) 비율 중심의 강화 학습 프레임워크와 통합한다. 우리는 선택 편견을 피하고 자산 간 상호 관계를 모델링하여 자산 간 어텐션 메커니즘을 개발할 것을 제안한다. 본 연구는 심층 강화 학습 모델을 이용한 해석 가능한 투자 전략을 최초로 제시한 것에 속한다. 본 논문 속 실험에서는 오랜 기간 지속된 미국과 중국 시장과 같이 다양한 시장 상태에 대한 AlphaStock의 효과와 견고함을 보여준다. AlphaStock은 최근 장기 성장이 높고 변동성이 낮고 내재가치가 높으며 저평가된 종목으로 선정하는 경향이 있는 것으로 나타났다.

1. INTRODUCTION

대규모 거래를 처리하고 합리적인 의사결정을 제공하는 능력을 감안할 때 양적 거래(QT) 전략은 금융기관과 헤지펀드 등에서 오래전부터 채택되어 눈부신 성공을 거뒀다. 전통적인 QT 전략은 대개 특정 금융 논리에 기초한다. 예를 들어, 증권 시장에서 Jegadeesh와 Titman이 발견한 모멘텀(Momentum) 현상[14]은 모멘텀 전략을 구축하기 위해 사용되었다. Poterba와 Summers가 제안한 평균 환원(Mean reversion)[20]은 자산 가격이 시간이 지남에 따라 평균으로 이동하는 경향이 있기 때문에 자산 가격에 대한 편향이 투자 대상을 선택하는 데 사용될 수 있다고 생각한다. 다중요소 전략(Multi-factor strategy)[7]은 요인 기준(factor-based) 자산평가를 사용하여 자산을 선택한다. 이러한 전통적인 QT 전략의 대부분은 탄탄한 금융 이론을 구비하고 있지만 금융시장의 어떤 특정한 특성만을 활용할 수 있기 때문에 다양한 주가 있는 복잡한 시장에 취약할 수 있다.

최근 몇 년 동안, 딥러닝(DL)은 복잡한 금융 신호에서 다중 관점 특성을 추출하는 효과적인 방법으로서 출현한다. 많은 감독된 심층 신경망은 가격 빈도[11], 경제 뉴스[12], 소셜 미디어[27], 금융 사건 등 다양한 요소를 이용하여 자산 가격을 예측하기 위해 문헌에 제안되어 있다 [4, 5]. 또한 전통적 공유 투자 전략을 강화하기 위한 강화 학습(RL) 프레임워크에도 심층 신경망이 채택된다[3, 6, 16]. 위의 풍부한 연구에도 불구하고, DL을 실제 금융 시장에 적용하는 것은 여전히 몇 가지 과제에 직면해 있다.

문제점 1: 수익률과 리스크의 균형 조정(Balancing return and risk)

금융에서 대부분 금융에서의 기존 감독 딥러닝 모델(Supervised Deep Learning Model)은 리스크 인식 없이 가격 예측에 초점을 맞추는데, 이는 근본적인 투자 원칙과 부합하지 않으며 최적의 성과로 이어질 수 없다. 일부 RL 기반 전략[8, 17]이 이 문제를 고려했지만, 위험-반환 균형(Risk-return-balanced) RL 프레임워크에 첨단 DL 접근방식을 채택하는 방법은 아직 잘 연구되지 않았다.

문제점 2: 자산 간 상호관계 모델링(Modeling interrelationships among assets)

시장의 많은 금융 툴은 이 작업에 사용되는 위험회피, 재무 및 BWSL 전략과 같은 자산 간의 상호관계에서 위험을 인식하는 수익을 도출하는 데 사용될 수 있다. 그러나 기존의 DL/RL 기반 투자 전략은 이 중요한 정보에 거의 관심을 기울이지 않았다.

문제점 3: 해석적인 투자 전략(Interpreting investment strategies)

DL 기반 시스템은 "설명할 수 없는 블랙박스"이므로 의학, 투자, 군사와 같은 중요한 용도에 사용할 수 없다고 주장하는 오랜 목소리가 있다 [9]. 깊은 구조를 가진 RL 기반 전략은 그러한 문제를 더욱 악화시킨다. DL 전략에서 해석 가능한 규칙을 추출하는 방법은 여전히 공개적인 문제로 남아 있다.

본 논문에서는, 심층 어텐션 네트워크를 이용한 새로운 강화 학습 기반 전략인 AlphaStock을 제안해, 위의 과제를 극복한다. AlphaStock은 기본적으로 주식 자산에 대한 매입 승자와 매도 패자(BWSL) 전략이다. 우리가 제시하는 모델은 3가지로 구성되어 있다. 첫 번째는 다중 시계열에서 자산 표현을 추출하는 데 사용되는 LSTM-HA(History State Attentication) 네트워크 이다. 두 번째 구성요소는 자산 간의 상호관계뿐만 아니라 이전에 상승했던 자산가격도 충분히 모델링할 수 있는 교차자산 어텐션 네트워크(CAAN) 이다. 세 번째 구성요소는 포트폴리오 발생기(Portfolio Generator) 로, 어텐션 네트워크의 출력 승자 점수에 따라 각 자산의 투자 비율을 부여한다. 강화학습 프레임워크를 사용하여 ROI-Risk-균형 목표, 즉 샤프 비율을 최대화하는 방향으로 모델을 최적화한다. 이와 같이 심층 어텐션 모델을 통한 표현 학습의 장점과 샤프 비율 표적 보강 학습을 통한 위험-반환 균형의 장점은 자연스럽게 통합된다. 더욱이, AlphaStock에 대한 해석성을 얻기 위해, 우리는 우리의 모델이 그것의 다중 관점 특징에 따라 투자할 자산을 선택하는 방법을 공개하기 위한 민감도 분석 방법을 제안한다.

장기간에 걸친 미국 증시에 대한 광범위한 실험은 우리의 AlphaStock 전략이 다양한 평가 조치의 측면에서 일부 첨단 경쟁자들을 능가한다는 것을 보여준다. 특히 AlphaStock은 다양한 시장 상태(강화학습과 샤프 비율에 의해 활성화됨)에 대한 적응력이 뛰어나며 극한 손실 제어 능력(CAAN에 의해 활성화됨)에 대한 탁월한 능력을 보여준다. 중국 증시에 대한 실험이 연장되면서 AlphaStock의 우위성과 견고성이 더욱 확인되고 있다. 흥미롭게도, 해석 분석 결과에 따르면, AlphaStock은 "장기적 성장, 낮은 변동성, 높은 내재가치, 최근 저평가된 주식을 승자로 선정한다"는 원칙에 따라 자산을 선택하는 것으로 나타났다.

2. PRELIMINARIES

2.1 기본 금융 개념(Basic Financial Concepts)

정의 1. 보유 기간(Holding Period)

보유 기간은 자산을 투자하기 위한 최소 시간 단위다. 우리는 시간축을 하루 또는 한 달과 같이 고정된 길이로 순차적인 고정 기간으로 나눈다. 우리는 시작 시간으로부터 $t$만큼 보유 기간이 지났을 때 $t$시간이 경과했다고 부른다.

정의 2.순차적 투자(Seqential Investment)

순차적 투자는 일련의 보유 기간이다. $t$시간 동안 원래 자본을 사용하여 투자하고 $t+1$시간에서 수익을 얻거나 혹은 잃는다.

정의 3. 자산 가격(Asset Price)

$$ {p}^{(i)} = \{p_1^{(i)},p_2^{(i)},\dots,p_t^{(i)},\dots\} $$

여기서 $p_t^{(i)}$는 $t$일 때, 자산 $i$의 가격을 나타낸다. 우리는 모형을 설명하기 위해서 자산을 주식으로 사용하는데, 이것은 자산 특정성과 거래 규칙을 고려하여 다른 유형의 자산으로 확장될 수 있다.

정의 4. 롱 포지션(Long Position)

롱 포지션은 먼저 $t_1$에 자산을 산 다음 $t_2$에 판매하는 거래 방식이다. 자산 $i$의 $t_1$에서 $t_2$사이에서 롱 포지션일 때 수익은 $u_i(p_{t_2}^{(i)} - p_{t_1}^{(i)})$ 이다. 롱 포지션일 때, 트레이더들은 자산의 가격이 오를 것이라고 예상하기 때문에 이들은 자산을 먼저 사들이고 이익을 얻기 위해서 가격 상승을 기다린다.

정의 5. 숏 포지션(Short Position)

숏 포지션은 먼저 $t_1$에서 자산을 팔고 $t_2$에 사는 거래 방식이다. 자산 $i$의 $t_1$에서 $t_2$사이에서 숏 포지션일 때 수익은 $u_i(p_{t_1}^{(i)} - p_{t_2}^{(i)})$ 이다. 숏 포지션은 롱 포지션과 반대이다. 트레이더들이 숏 포지션일 때 그들이 기대하는 것은 가격이 떨어질 것이라는 것이다. 그리고 그들은 추후 다시 살 가격보다 비싼 가격에 판매한다. 주식 시장에서 숏 포지션 트레이더들은 주식을 중개인한테 빌려오거나 그들에게 $t_1$ 시점에서 판매한다. 그리고 $t_2$시점에서 트레이더들은 판매했던 주식들을 다시 구매하고 중개인들에게 빌린 주식들을 반환해준다.

정의 6. 포트폴리오(Portfolio)

자산 $i$이 있는 자산 풀을 고려했을 때 포트폴리오는 다음과 같은 벡터 $b$로 정의할 수 있다.

$$b = (b^{(1)},\dots,b^{(i)},\dots,b^{(I)})^\top $$

여기서 $b^{(i)}$는 자산$i$에 대한 투자의 비율이다. 이 때, $\sum_{i=1}^{I} b^{(i)} = 1$이다.

정의 7. 제로 투자 포트폴리오(Zero-investment Portfolio)

제로 투자 포트폴리오는 포트폴리오를 구성할 때 순 총투자액이 0인 포트폴리오의 집합이다. 즉, J 포트폴리오를 포함하는 제로 투자 포트폴리오의 경우 총투자액은 아래와 같다.

$$\sum_{j=1}^{J}M^{(j)} = 0$$

예를 들어, 투자자는 한 기업에서 1,000달러어치의 주식을 빌려서 숏 포지션으로 매도한 다음, 단기매매 수익금을 다른 기업에서 1,000달러어치의 주식을 롱 포지션으로 매입하는 데 사용할 수 있다. 이러한 롱/숏 포지션의 조합이 제로 투자 포트폴리오이다. 이름만 봐선 제로 투자이지만 중개인으로부터 빌릴 수 있는 주식의 전체 가치를 제한하기 위한 예산 제약이 여전히 존재한다는 점에 유의한다. 또한 우리는 단순성을 위해서 실제 거래 비용은 무시하고 진행하였다.

2.2 BWSL 전략(The BWSL Strategy)

본 논문에서는 주식 거래에 대해서 BWSL(Buy-winner and Sell-losers) 전략을 채택하고 있으며 [14], 그중 핵심은 높은 가격 상승률의 자산을 맹비하고 낮은 가격 상승률의 자산을 매도하는 것이다. 우리는 BWSL 전략을 승자를 매입하기 위한 롱 포트폴리오와 패자를 매도하기 위한 숏 포트폴리오, 2개의 포트폴리오로 구성된 제로 투자 포트폴리오로 실행한다. $T$기간의 순차적 투자를 고려할 때, 우리는 $t$기간 동안의 숏 포트폴리오와 롱 포트폴리오를 아래와 같이 정의한다.

$$b_t^{-} : \text{숏 포트폴리오} \\ b_t^{+}: \text{롱 포트폴리오}$$

2.3 최적화 목표(Optimization Objective)

우리의 전략이 투자 수익률과 위험을 모두 고려하도록 하기 위해, 우리는 노벨상 수상자인 윌리엄 샤프(William F. Sharpe)가 개발한 위험 조정 수익률인 샤프 비율을 채택한다.

정의 8. 샤프 비율(Sharpe Ratio)

샤프 비율은 변동성 단위당 무위험 수익을 초과하는 평균 수익률이다. 보유 기간$T$을 포함하는 순차적 투자를 고려할 때 샤프 비율은 다음과 같이 계산된다.

$$ H_T = \frac{A_T - \Theta}{V_T} $$

3. THE ALPHASTOCK MODEL

이번 파트에서는 위에서 정의한 샤프 비율을 최적화하는 목표로 잡은 BWSL 전략을 구현하기 위해서 강화학습 기반의 모델 AlphaStock을 제시한다. 그림1과 같이 AlphaStock에는 세 가지 구성 요소가 포함되어 있다. 첫 번째 구성요소는 LSTM-HA(History State Attentity Network)이 있는 LSTM이다. 각 주식 $i$에 대해서, 우리는 LSTM-HA 모델을 사용하여 이력 상태(History states) $X(i)$에서 주식 대표(Stock representation) $r(i)$를 추출한다. 두 번째 구성요소는 주식 간의 상호관계를 기술하는 CAAN(Cross-Asset Attentity Network)이다. CAAN은 모든 주식의 $r(i)$를 입력으로 삼고, 모든 주식의 승자 점수 $s(i)$를 추정한다. 이때, 승자 점수 $s(i)$는 우승자에 속하는 주식의 정도를 나타내는 점수이다. 세 번째 요소는 포트폴리오 생성기(Portfolio Generator)로, 모든 주식의 $s(i)$ 점수에 따라 $b^+$와 $b^-$의 투자 비율을 계산한다. 우리는 강화 학습을 사용하여 세 가지 요소를 전체적으로 최적화하고, 여기서 순차적 투자시 샤프 비율을 극대화한다.

3.1 주식의 특성들(Raw Stock Features)

우리 모델에서 사용된 주식 특징은 두 가지 범주를 포함하고 있다. 첫 번째 범주는 주식의 거래 정보를 설명하는 거래 특성이다. $t$ 시점의 거래 특징은 다음과 같다.

가격 상승률(Price Rising Rate, PR): 마지막 보유 기간 동안 주식의 가격 상승률이다. 주식 $i$에 대해서 $(p_t^{(i)} / p_{t-1}^{(i)})$ 로 정의한다.

미세잔량 변동성(Fine-grained Volatility, VOL): 보유 기간은 더 많은 하위 기간으로 나눌 수 있다. 우리는 실험에서 한 달을 보류 기간으로 설정했고, 따라서 하위 기간은 거래일이 될 수 있다. VOL은 $t - 1$에서 $t$까지의 모든 하위 기간의 가격의 표준 편차로 정의된다.

거래량(Trade Volume, TV): $t - 1$에서 $t$까지 거래된 주식의 총 수량이다. 그것은 주식의 시장 활동을 반영한다.

두 번째 범주는 주식을 발행하는 회사의 재무 상태를 설명하는 회사의 특징이다. 시간 $t$에서 회사의 특징은 다음과 같다.

시가총액(Market Capitalization, MC): 주식 $i$의 경우, 가격 $p_t^{(i)}$와 주식의 미결 주식의 산물로 정의된다.

주가수익률(Price-earnings Ratio, PE): 주가수익률은 기업의 연간 수익 대비 시가총액의 비율이다.

장부-시장 비율(Book-to-market Ratio, BM): 장부-시장 비율은 기업의 장부 가치와 시장 가치의 비율이다.

배당금(Dividend, Div): 배당금은 $t-1$번째 보유 기간 동안 주식 보유자에 대한 회사 수익의 보상이다.

이러한 특징들의 값은 같은 척도가 아니므로 Z값으로 정규화(standardize)를 진행한다.

3.2 주식의 대표성 추출(Stock Representations Extraction)

주식의 성과는 주식의 히스토리와 밀접한 연관이 있다. AlphaStock 모델에서, 우리는 주식의 히스토리와 관련된 특징으로부터 주식의 대표성(representations)을 학습하기 위해서 LSTM-HA(Long Short-Term Memory with History state Attention) 을 제안한다.

순차적인 대표성(The sequential representation)

LSTM-HA 네트워크에서 벡터 $\tilde{x_t}$를 사용하여 시간 $t$에서의 주식의 이력 상태를 나타내며, 이 상태는 3.1절에서 제시한 주식 특성으로 구성된다. 시간 $t$의 마지막 보유기간 K, 즉 시간 $t-K$에서 $t$까지의 기간을 $t$의 뒤를 돌아보는 룩백 윈도우(look-back window)로 명명한다. 이 윈도우 안에 있는 주식의 과거 상태는 다음과 같이 표시된다.

$$ X = \{ x_1, /cdots, x_K \} \ where \ x_k = \tilde{x_{t_K+k}} $$

3.3 승자와 패자 선택(Winners and Losers Selection)

일반적인 강화학습 기반 전략 모델에서는 투자 포트폴리오는 종종 소프트맥스 정규화를 통해 직접 생산된다[3, 6, 16]. 이러한 유형의 방법의 단점은 주식 간 상호관계를 완전히 이용하지 않는다는 것이다. 그러나 2.2절의 Insight I에서 본 것과 같이 이러한 주식간의 상호관계는 BWSL 전략에 매우 중요하다. 이러한 점에 비추어, 주식간의 상호관계를 기술할 수 있는 CAAN(Cross-Asset Attentity Network)을 제안한다.

간단한 CAAN 모델

CAAN 모델은 주식 간 상호관계를 모델링하기 위해 참조 [24]에서 제안한 셀프 어텐션(Self-attention) 메커니즘을 적용했다. 구체적으로 주식 대표성 $r(i)$에 대해서 주식 $i$에 대한 쿼리 벡터 $q(i)$, 키 벡터 $k(i)$ 및 값 벡터 $v(i)$를 다음과 같이 계산한다.

$$ q^{(i)} = W^{(Q)}r^{(i)}, k^{(i)} = W^{(K)}r^{(i)}, v^{(i)} = W^{(V)}r^{(i)} $$

3.4 포트폴리오 생성기(Portfolio Generator)

AlphaStock 모델은 주식 $I$의 승자 점수 $\{ s^{(1)}, \cdots , s^{(i)}, \cdots, s^{(I)}\}$를 기준으로 점수가 높은 주식을 매수하고 낮은 주식은 매도한다. 구체적으로, 우리는 우선 승자점수에 따라 내림차순으로 주식을 분류하고 각 주식 $i$에 대한 순서번호 $o^{(i)}$를 얻는다. $G$가 포트폴리오 $b^{+}$와 $b^{-}$의 사전 설정 크기를 나타내도록 하자. 만약 $o^{(i)} \in [ 1,G ]$일 때, 주식 $i$는 투자 비율을 다음과 같이 계산하여 포트폴리오 $b^{+(i)}$에 들어갈 것이다.

$$ b^{+(i)} = \frac{exp(s^{(i)})}{\sum_{o^{(i')}\in[i-G, I]}exp(1-s^{(i')})} $$

나머지 종목들은 매수/매도 신호가 명확하지 않아 선택되지 않은 종목들이다. 단순화를 위해 우리는 하나의 벡터를 사용하여 두 포트폴리오의 모든 정보를 기록할 수 있다. 즉, 우리는 길이 $I$의 벡터 $b^c$에서 아래와 같이 업데이트한다.

\begin{cases} o(i) \in [1,G] 일때, b^{c(i)} = b^{+(i)} \\ o(i) \in (I-G,I] 일때, b^{c(i)} = b^{-(i)} \\ i=1, \cdots , I일때 0 \end{cases}

3.5 강화학습을 통한 최적화(Optimization via Reinforcement Learning)

우리는 AlphaStock 전략을 모델 파라미터로 최적화하기 위한 이산 에이전트 행동로 강화학습 게임으로 프레임화한다. 여기서 주기 $T$ 투자는 강화학습 에이전트의 state-reforward 방향으로 모델링된다. 즉, $\pi = {\text{state}_{1},\text{action}_{1},\text{reward}_{1}, \cdots , \text{state}_{t},\text{action}_{t},\text{reward}_{t}, \cdots , \text{state}_{T},\text{action}_{T},\text{reward}_{T}}$ 로 정의할 수 있다. $\text{state}_{t}$는 관측된 히스토리 시장 상태이며 $\chi_t = (X_{t}^{(i)}) $로 표현된다. $\text{action}_{t}$는 $I$차원 이진 벡터로서, 그 중 에이전트가 $t$시점에서 주식 $i$에 투자할 때, $\text{action}_{(t)} = 1$로 그렇지 않으면 0으로 정의한다. $\text{state}_t$에서 이 에이전트는 주식 $i$를 투자할 확률 $Pr(\text{action}_t^{(i)} = 1)$을 가지고 있으며, 이는 AlphaStock에 의해 다음과 같이 결정된다.

$$ Pr(\text{action}_t^{(i)} = 1 | \chi_t^{n}, \theta) = \frac{1}{2} G^{(i)}(\chi_t^{n}, \theta) = \frac{1}{2} b_t^{c(i)} $$

4. MODEL INTERPRETATION

AlphaStock 모델에서는 LSTM-HA와 CAAN이 주식의 특징을 승자 점수로 망라한다. 최종 투자 포트폴리오는 우승자 점수에서 직접 생성된다. 자연스러운 후속 질문은 AlphaStock이 어떤 종목들을 승자로 선정할 것인가 하는 것이다. 이 질문에 답하기 위해, 우리는 주식의 과거 특성이 우리 모델에서 그것의 승자 점수에 어떻게 영향을 미치는지 해석하기 위한 민감도 분석 방법[1, 25, 26]을 제안한다.

우리는 $s = F(X)$를 사용하여 주식$X$의 과거 특징을 승자 점수 $s$로 표현한다. 모델에서 $s = F (X)$는 LSTM-HA와 CAAN의 결합된 네트워크다. 예를 들어, 3개월 전 시점의 주식의 프라이커싱 비율과 같은 룩백 윈도우(Look-back window)의 특정 기간에 3.1절에서 정의한 것과 같이 하나의 특징의 값인 $X$의 요소를 나타내기 위해 $x_q$를 사용한다.

주식의 과거 상태 $X$를 고려할 때, 승자 점수 $s$에 대한 $x_q$의 영향, 즉 $s$의 민감도를 다음과 같이 표현한다.

$$ \delta_{x_{q}} = \lim_{\varDelta x_q \rightarrow 0}{\frac{F(X) - F(x_q + \varDelta x_q, X_{\neg x_q} )}{x_q - (x_q + \varDelta x_q)}} = \frac{\partial F(X)}{\partial x_q}$$

5. EXPERIMENT

이 절에서는 미국 시장의 데이터를 통해 우리의 AlphaStock 모델을 실증적으로 평가한다. 중국 증시의 데이터는 모델이 얼마나 강건한지(robustness) 확인하기 위해 활용된다.

5.1 데이터 및 실험 설정(Data and Experimental Setup)

5.2 기본적인 방법(Baseline Methods)

5.3 평가 지표들(Evaluation Measures)

5.4 미국 시장에서의 성능(Performance in U.S. Markets)

5.5 중국 시장에서의 성능(Performance in Chinese Markets)

5.6 투자전략해석(Investment Strategies Interpretation)

Figure 2: The Cumulative Wealth in U.S. markets.

Table 1: Performance comparison on U.S. markets.

Figure 3: Influence of history trading features to winner scores.

Table 2: Performance comparison on Chinese markets.

우리의 작업은 다음의 연구 방향과 관련이 있다.

금융 투자 전략(Financial Investment Strategy)

고전적인 금융 투자 전략에는 모멘텀(Momentum), 평균 역전(Mean reversion), 다중요소(Multi-factors) 전략이 포함된다. BWSL[14]의 첫 작품에서 제가데쉬와 티트만은 "모멘텀"이 승자와 패자를 선택하는데 사용될 수 있다는 것을 발견했다. 모멘텀 전략은 과거 기간 수익률이 높았던 자산을 당첨자로 사들이고, 같은 기간 수익률이 저조한 자산을 매각한다. 고전적 모멘텀 전략으로는 횡단 모멘텀(Cross Sectional Momentum,CSM)[15]과 시계열 모멘텀(Time Series Momentum, TSM)[18]이 있다. 평균역전 전략[20]은 자산가격이 과거 기간 동안 항상 평균으로 되돌아간다고 간주하므로, 과거 평균에 따른 가격으로 자산을 매입하고 과거 평균보다 높게 매도한다. 다중요소 모형[7]은 각 자산에 대한 평가를 계산하기 위해 인자를 사용하여 해당 자산에 대한 가치에 못 미치는 가격을 사용하여 해당 자산을 매입/매도한다. 이러한 금융 투자 전략의 대부분은 금융 시장의 특정 요소만을 이용할 수 있으며 따라서 복잡한 시장 환경에서 실패할 수 있다.

금융에서의 딥러닝(Deep Learning in Finance)

최근 몇 년 동안, 딥러닝 접근법이 금융 분야에 적용되기 시작한다. L. Zhang 등은 주가를 예측하기 위해 주파수 정보를 이용할 것을 제안하였다[11]. 뉴스 및 소셜 미디어는 가격 예측하는데 사용되었다[12, 27]. 사건 및 기업 관계에 대한 정보는 주가를 예측하는 데 사용되었다[2,4]. 이것들은 대부분 우리처럼 End-to-End 투자 포트폴리오 생성보다는 가격 예측에 초점을 맞추고 있다.

금융에서의 강화학습(Reinforcement Learning in Finance)

투자 전략에 사용되는 강화학습 기반의 접근법은 가치 기반(Value-based)과 정책 기반(Policy-based)[8]의 두 가지 범주로 나뉜다. 가치 기반 접근법은 거래 행위에 대한 시장의 예상 결과를 기술하기 위해 비평가에게 배운다. 투자 전략의 전형적인 가치 기반 접근법으로는 Q-Learning[19]과 Deep Q-Learning[16]이 있다. 가치 기반 접근법의 결함은 시장 환경이 너무 복잡해서 평론가가 추정할 수 없다는 것이다. 따라서 정책 기반 접근법은 금융시장에 더 적합한 것으로 간주된다[8]. 알파스톡 모델도 이 범주에 속한다. 투자 전략에서 전형적인 정책 기반 강화학습 알고리즘은 RRL(Recurrent Relivery Learning)[17] 이다. FDDR [3] 모델은 심층 신경망을 이용하여 RRL 프레임워크를 확장한다. Investor-Imitator 모델[6]에서는 다양한 유형의 투자자의 행동을 모방하는 정책 기반의 심층 강화학습 프레임워크가 제안되었다. 금융 신호의 순차적 의존성을 활용하는 데 초점을 맞춘 RRL과 딥러닝 확장에 비해 우리 AlphaStock 모델은 자산 간 상호 관계에 더 주목한다. 더욱이, 심층 강화학습 접근법은 설명할 수 없는 심층 네트워크 구조의 실제 애플리케이션에서 구현하기 어려운 경우가 많다. 우리 모델이 제공하는 해석 도구가 이 문제를 해결할 수 있다.

7. CONCLUSIONS

본 논문에서는 AlphaStock이라는 BWSL 전략을 설계하기 위해 강화학습 기반의 심층 어텐션 네트워크를 제안했다. 우리는 또한 우리 모델의 투자 로직을 해석하기 위한 민감도 분석 방법을 고안했다. AlphaStock은 기존 강화학습 기반 투자전략과 비교해 주식 간 상호관계를 충분히 활용하고, 금융시장에서 딥러닝 모델을 활용하는 '블랙박스' 문제를 해결할 수 있는 문을 열어준다. 미국과 중국 증시를 대상으로 한 백테스팅과 시뮬레이션 실험은 AlphaStock이 다른 경쟁 전략보다 훨씬 우수한 실적을 낸 것으로 나타났다. 흥미롭게도 AlphaStock은 장기 성장률이 높고 변동성이 낮고 내재가치가 높은 주식을 최근 저평가된 종목으로 매수할 것을 제안한다.

슬리피지(Slippage)란 무엇일까? (0)	2020.06.05
샤프 비율(Sharpe ratio)란 무엇일까? (1)	2020.04.08

인공지능 연구소

[논문번역] AlphaStock: A Buying-Winners-and-Selling-Losers InvestmentStrategy using Interpretable Deep Reinforcement AttentionNetworks

ABSTRACT

1. INTRODUCTION