量化 | 2020量化交易数据源大全

avatar
· Views 1,203

量化投资中数据源的地位极其重要,它是交易者获取金融信息的来源,反映了影响金融投资行为和市场发展的信息,是进行量化交易分析与投资的基石。



然而纵观全网,没有一篇文章将量化交易数据源进行总结和分析,那么今天我们就来做一篇数据源的分享,供各位参考。

读完本篇,你将收获:


  • 数据源的重要性
  • 数据源的分类
  • 常见的量化投资数据源
  • 数据提取方法
  • 数据提供商



01

数据源的重要性


  • 量化投资对于数据的高质量要求首当其冲;
  • 数据决定了量化投资各个环节-市场、标的、策略、语言等;



02

数据源的分类


  • 按照形式分类 :数字形式和文本形式;
  • 按来源分类 :政府机构、公司公告、机构和媒体信息;
  • 按内容分类:宏观经济信息、行业信息、公司信息、技术面信息、行为偏差信息、高频数据信息、金融衍生信息。



03

常见的量化投资数据源


策略开发人员往往先应用历史数据对策略进行历史回验,策略调整至有效后进行实盘交易。本章节数据源介绍包含:

  1. 基本面数据源
  2. 历史高频数据源
  3. 实时数据源


数据提取方法,国内及国外数据提供商将在第4节和第5节做粗浅的介绍。


量化 | 2020量化交易数据源大全

 a. 基本面数据 



基本面数据主要用于择时、选股和配置策略的构建:择时策略包括趋势追踪策略、反转策略和市场情绪等;选股策略包括多因子策略、风格轮动策略和行业轮动策略等;配置策略包括套期保值策略和期现套利策略等。


基本面数据包括宏观、行业、公司、股票、基金、债券、期货、指数、衍生9大类数据。


i. 宏观数据

宏观数据体现了一个国家经济发展的现状。任何策略只要资产存在风险暴露,则必然要考虑金融市场行情和宏观因素的影响,包括:经济指标环比;国内生产总值;工业增加值;行业增加值;商品房销售;消费品零售;电力工业数据;就业基本情况;固定资产投资;居民消费水平;物价指数;景气指数等。


  • 牛市偏向成长类股票
  • 熊市偏向资产保值类股票


ii. 行业数据

行业数据代表中观市场情况。


量化 | 2020量化交易数据源大全
  • 牛市行情时选用强劲的周期性行业,代表:有色金属、钢铁、化工等。
  • 熊市行情时选用风险防御能力较强的非周期性行业,代表:医药行业、公用事业行业等。
  • 主题类投资策略和事件驱动类投资策略, 如战争时期人们会偏向相关行业如军工股、造船和机械等,科技繁荣时会偏向互联网、电子等。
  • 风格轮动效应,不同市场发展阶段往往呈现个别行业发展的相对优势。


iii. 公司数据

上市公司策略研究指从公司的财务指标或因子进行研究分析,如:多因子选股策略需要财务数据源。


公司行情数据一般可分为:基本面因子、技术因子、事件因子及分析师预测因子。


  • 基本面因子:包括有公司财务方面的数据,如规模因子、估值因子、成长因子、盈利因子和偿债能力因子。
  • 技术因子:包括上市公司的一些交易指标,如1月动量因子,EMA,换手率和资金流量等,由于本节主要介绍上市公司财务数据,因此不详细介绍技术因子方面的数据。
  • 行为因子:需要研究消化公司的及时信息并将其转化为量化投资的信号。
  • 分析师预测因子:表征为市场情绪指标,情绪具有催化剂的作用,对于股市尤其如此。


iv. 股票数据源

股票数据源包括:

  1. 个股交易停复牌数据
  2. 个股回报率
  3. 日大宗交易数据
  4. 异常波动信息
  5. 复权信息
  6. 市场行情


v. 基金数据源

基金数据源包含:

  1. 基金基本数据
  2. 基金净值数据
  3. 除权息数据
  4. 基金数据评价
  5. 回报率
  6. 资产配置
  7. 基金财务指标,可反映金融市场环境情况。


vi. 债券数据

债券数据源包括:

  1. 债券基本数据
  2. 债券回购日交易信息
  3. 债券现期收益率
  4. 标准券折算比例
  5. 债券派息信息
  6. 企业债公司债主要财务指标


vii. 期货数据

期货的投资策略可分为:

  • 单一品种策略:趋势跟踪、动态反转和跨期套利等;
  • 混合品种策略,主要有:
  • 跨市场策略:商品期货与现货之间的基差套利等;
  • 跨品种策略:相似品种特征的商品期货合约配对。

期货数据源包括:


量化 | 2020量化交易数据源大全


viii. 指数数据

指数数据反映其编制对象的总体情况,分为:

  • 被动型基金:利用成分股按权重复制指数以获得市场平均收益率;
  • 积极性基金:在成分股组成的股票池进行资产配置,以获得超过市场平均水平的收益。

指数数据源包含:

  1. 指数基本信息
  2. 股票指数样本股基本信息
  3. 指数成分股权重数据


ix. 衍生数据

衍生数据可以提高金融市场投资者策略构建能力、策略绩效评估及风险控制水平,能够反映和预测盈利能力。


量化投资研究常用的衍生数据库包括:量化因子仓库和风控因子数据库。


  • 量化因子仓库数据源包含:1)宏观因子;2)行业因子;3)基本面因子;4)技术因子;5)行为因子;6)高频因子;7)衍生物因子;8)事件因子;9)复合因子;
  • 风控因子数据库包含:1)行业因子;2)风格因子。


 b. 历史高频数据源 



历史高频数据即指日内的数据,主要针对以小时、分钟或秒为采集频率的数据,常见历史高频数据字段有:


按照交易频率区分:

  1. 分笔高频数据
  2. 分时高频数据

按照交易品种分类:

  1. 股票品种
  2. 期货品种
  3. 包含:a)股指期货;b)商品期货。


 c. 实时数据源 



实时数据源包含Level1数据和Level2数据。


Level1行情属于传统行情。


Level-2行情是在Level-1行情基础上设计的具有增值内容的新行情,包括十档买卖行情、总买总卖、逐笔成交明细、买卖队列。



04

数据提取方法


分为:终端提取方法和API提取方法两种。


  • 终端提取方法
  • 终端包括有网页终端软件终端,其提取方法是利用终端界面上的行业分类和字段筛选等提取相关数据,并最终导出 Excel、DBF或TXT等格式文件。

  • 我国提供终端的主流金融数据库主要有:CSMAR数据库、Wind数据库、恒生聚源数据库、锐思数据库、中国统计局数据库、巨潮数据库和巨灵。

  • API提取方法
  • API提取方法主要是利用MATLAB、C++、.NET、COM和Excel等软件连接数据库服务器,并通过相关函数字段提取数据库数据。



05

数据提供商汇总



 a. 国内数据提供商 



    请复制链接至浏览器访问:


 b. 国外数据提供商 



    请复制链接至浏览器访问:


إخلاء المسؤولية: الآراء الواردة هنا تعبر فقط عن رأي الكاتب، ولا تمثل الموقف الرسمي لـ Followme. لا تتحمل Followme مسؤولية دقة أو اكتمال أو موثوقية المعلومات المُقدمة، ولا تتحمل مسؤولية أي إجراءات تُتخذ بناءً على المحتوى، ما لم يُنص على ذلك صراحةً كتابيًا.

هل أعجبك هذا المقال؟ عبّر عن امتنانك بإرسال نصيحة للكاتب.
الرد 0

اترك رسالتك الآن

  • tradingContest