Qlib的安装和运行内置算法策略

科技绿洲 2023-10-31 11705

描述

下面我们就来试一下 Qlib 的安装和运行内置算法策略。

1.准备

开始之前，你要确保Python和pip已经成功安装在电脑上，如果没有，请访问这篇文章：《超详细Python安装指南(传统)》或《Python数据分析与挖掘好帮手—Anaconda》进行安装，本文建议使用Anaconda。

由于qlib有许多许多依赖，如果你不想安装过程中出现问题，或者引起其他程序的运行问题，建议使用Conda创建一个你的量化投资虚拟环境：

conda create -n my_quant python=3.8

Qlib 仅支持 Python3.7 以上的版本且暂不支持 Python3.10; 另外 Python 3.9 版本不支持模型性能绘制，因此我选择创建Python3.8版本的虚拟环境。

(安装方式一) pip 安装：

pip install pyqlib

在pip安装的过程中如果遇到任何问题，请搜索引擎解决，如果无法解决，可以尝试下面的源码安装：

(安装方式二 (推荐)) 源码安装：

# 提前安装一些依赖
pip install numpy
pip install --upgrade cython

# clone and install qlib
git clone https://github.com/microsoft/qlib.git && cd qlib
python setup.py install

Windows 机器在安装的时候可能会遇到下面这个问题：

python

这是因为安装 qlib 的依赖 — tables 时出现了编译错误，原因很多，我选择逃学，因此建议使用 tables 的 wheel 文件进行安装，这样就不需要编译了：

https://www.lfd.uci.edu/~gohlke/pythonlibs/#pytables

在上述网站下载适合你系统的 wheel 文件：

python

下载完毕后，输入以下命令：

pip install 你的文件路径/tables-3.6.1-cp39-cp39-win_amd64.whl

即可完成 tables 的安装，然后再执行一遍 python setup.py install 即可。

2. 数据准备

由于这套量化开源平台的作者是中国人，所以非常贴心地准备好了A股数据，大家可以输入命令直接下载：

# 1天级别数据
python scripts/get_data.py qlib_data --target_dir ~/.qlib/qlib_data/cn_data --region cn

# 1分钟级别数据
python scripts/get_data.py qlib_data --target_dir ~/.qlib/qlib_data/cn_data_1min --region cn --interval 1min

如果你需要其他分钟级的数据，修改interval即可。

你可以使用crontab定时自动更新数据（来自雅虎财经）:

* * * * 1-5 python < script path > update_data_to_bin --qlib_data_1d_dir < user data dir >

手动更新数据：

python scripts/data_collector/yahoo/collector.py update_data_to_bin --qlib_data_1d_dir < user data dir > --trading_date < start date > --end_date < end date >

3. 运行量化回测流程示例

Qlib 提供了一个名为 ** qrun ** 自动运行整个工作流程的工具（包括构建数据集、训练模型、回测和评估）。

你可以按照以下步骤启动自动量化研究工作流程并进行图形报告分析，Quant Research 工作流程：

**Qrun ** 运行 lightgbm 工作流程的配置 workflow_config_lightgbm_Alpha158.yaml 如下所示：

cd examples # Avoid running program under the directory contains `qlib`
qrun benchmarks/LightGBM/workflow_config_lightgbm_Alpha158.yaml

结果如下：

python

可以看到这里包括三个统计分析：benchmark return (基准收益) / excess return without cost（除去手续费的超额收益）） / excess return with cost（包含手续费的超额收益）。每个统计分析中都有如下5个参数：

mean: 异常收益的平均值
std: 异常收益的标准差
annualized_return: 年化回报
information_ratio: 信息比率
max_drawdown: 最大回撤

大家可以看到，这个内置的算法和策略，在不包括手续费的情况下，相比于基准收益年化回报略高，但是在把手续费等费用算上之后，比沪深300基准收益略逊一筹。

如果你想要自定义这个策略和算法的回测参数，你可以查看 workflow_config_lightgbm_Alpha158.yaml 的内容：

上滑查看更多代码

qlib_init:
    provider_uri: "~/.qlib/qlib_data/cn_data"
region: cn
market: &market csi300
benchmark: &benchmark SH000300
data_handler_config: &data_handler_config
start_time: 2008-01-01
end_time: 2020-08-01
fit_start_time: 2008-01-01
fit_end_time: 2014-12-31
instruments: *market
port_analysis_config: &port_analysis_config
strategy:
        class: TopkDropoutStrategy
module_path: qlib.contrib.strategy
kwargs:
            model: < MODEL >
dataset: < DATASET >
topk: 50
n_drop: 5
backtest:
        start_time: 2017-01-01
end_time: 2020-08-01
account: 100000000
benchmark: *benchmark
exchange_kwargs:
            limit_threshold: 0.095
deal_price: close
open_cost: 0.0005
close_cost: 0.0015
min_cost: 5
task:
    model:
        class: LGBModel
module_path: qlib.contrib.model.gbdt
kwargs:
            loss: mse
colsample_bytree: 0.8879
learning_rate: 0.2
subsample: 0.8789
lambda_l1: 205.6999
lambda_l2: 580.9768
max_depth: 8
num_leaves: 210
num_threads: 20
dataset:
        class: DatasetH
module_path: qlib.data.dataset
kwargs:
            handler:
                class: Alpha158
module_path: qlib.contrib.data.handler
kwargs: *data_handler_config
segments:
                train: [2008-01-01, 2014-12-31]
valid: [2015-01-01, 2016-12-31]
test: [2017-01-01, 2020-08-01]
record:
        -class: SignalRecord
module_path: qlib.workflow.record_temp
kwargs:
model: < MODEL >
dataset: < DATASET >
        -class: SigAnaRecord
module_path: qlib.workflow.record_temp
kwargs:
ana_long_short: False
ann_scaler: 252
        -class: PortAnaRecord
module_path: qlib.workflow.record_temp
kwargs:
config: *port_analysis_config

参数比较多，大家借助翻译工具应该都能看懂。这里摘取华泰的一个研究报告，里面对参数做了具体的翻译：

python

为了方便用户使用，微软内置了许多模型，如上文我们用到的 gbdt 位于克隆的文件夹下的 qlib/contrib/model/gbdt.py:

python

注意：pytorch 开头的模型需要预先安装pytorch.

一个小问题，Qlib里，策略和算法的区别是什么？

大家注意到，Qlib这里，必须定义策略和算法两个配置，而在backtrader里面，我们更加重视策略，而非“算法”这个概念。那么这两者在Qlib中的区别是什么？我们看默认TOPK策略的源代码：

python

**可以看到，默认的这个策略，选择了算法预测分数结果中排名 TOP K 的股票，也就是策略从算法得到的结果中去做筛选需要交易的股票。**算法相当于生成一个新的可用于判断买入卖出的评判标准。这就是策略和AI算法这两者的最重要区别。

最后，得益于松耦合的代码设计，我认为 Qlib 是一个能够让不同层次的研究者各取所需的开源项目，是一个不可多得的量化开源平台，特别适合重度Python使用者，有兴趣的朋友可以试一下，未来我也会考虑出 Qlib 相关的使用教程，敬请期待。

打开APP阅读更多精彩内容