1.数据挖掘核心算法之一--回归

2.参数取值问题

3.基于进出口总量均衡的国际原油价格形成模型

4.股票和汇率有什么关系

数据挖掘核心算法之一--回归

油价影响因素_油价和油量哪个是因变量

数据挖掘核心算法之一--回归

回归,是一个广义的概念,包含的基本概念是用一群变量预测另一个变量的方法,白话就是根据几件事情的相关程度,用其中几件来预测另一件事情发生的概率,最简单的即线性二变量问题(即简单线性),例如下午我老婆要买个包,我没买,那结果就是我肯定没有晚饭吃;复杂一点就是多变量(即多元线性,这里有一点要注意的,因为我最早以前犯过这个错误,就是认为预测变量越多越好,做模型的时候总希望选取几十个指标来预测,但是要知道,一方面,每增加一个变量,就相当于在这个变量上增加了误差,变相的扩大了整体误差,尤其当自变量选择不当的时候,影响更大,另一个方面,当选择的俩个自变量本身就是高度相关而不独立的时候,俩个指标相当于对结果造成了双倍的影响),还是上面那个例子,如果我丈母娘来了,那我老婆就有很大概率做饭;如果在加一个,如果我老丈人也来了,那我老婆肯定会做饭;为什么会有这些判断,因为这些都是以前多次发生的,所以我可以根据这几件事情来预测我老婆会不会做晚饭。

大数据时代的问题当然不能让你用肉眼看出来,不然要海量计算有啥用,所以除了上面那俩种回归,我们经常用的还有多项式回归,即模型的关系是n阶多项式;逻辑回归(类似方法包括决策树),即结果是分类变量的预测;泊松回归,即结果变量代表了频数;非线性回归、时间序列回归、自回归等等,太多了,这里主要讲几种常用的,好解释的(所有的模型我们都要注意一个问题,就是要好解释,不管是参数选择还是变量选择还是结果,因为模型建好了最终用的是业务人员,看结果的是老板,你要给他们解释,如果你说结果就是这样,我也不知道问什么,那升职加薪基本无望了),例如你发现日照时间和某地葡萄销量有正比关系,那你可能还要解释为什么有正比关系,进一步统计发现日照时间和葡萄的含糖量是相关的,即日照时间长葡萄好吃,另外日照时间和产量有关,日照时间长,产量大,价格自然低,结果是又便宜又好吃的葡萄销量肯定大。再举一个例子,某石油产地的咖啡销量增大,国际油价的就会下跌,这俩者有关系,你除了要告诉领导这俩者有关系,你还要去寻找为什么有关系,咖啡是提升工人精力的主要饮料,咖啡销量变大,跟踪发现工人的工作强度变大,石油运输出口增多,油价下跌和咖啡销量的关系就出来了(单纯的例子,不要多想,参考了一个根据遥感信息获取船舶信息来预测粮食价格的真实案例,感觉不够典型,就换一个,实际油价是人为操控地)。

回归利器--最小二乘法,牛逼数学家高斯用的(另一个法国数学家说自己先创立的,不过没办法,谁让高斯出名呢),这个方法主要就是根据样本数据,找到样本和预测的关系,使得预测和真实值之间的误差和最小;和我上面举的老婆做晚饭的例子类似,不过我那个例子在不确定的方面只说了大概率,但是到底多大概率,就是用最小二乘法把这个关系式写出来的,这里不讲最小二乘法和公式了,使用工具就可以了,基本所有的数据分析工具都提供了这个方法的函数,主要给大家讲一下之前的一个误区,最小二乘法在任何情况下都可以算出来一个等式,因为这个方法只是使误差和最小,所以哪怕是天大的误差,他只要是误差和里面最小的,就是该方法的结果,写到这里大家应该知道我要说什么了,就算自变量和因变量完全没有关系,该方法都会算出来一个结果,所以主要给大家讲一下最小二乘法对数据集的要求:

1、正态性:对于固定的自变量,因变量呈正态性,意思是对于同一个答案,大部分原因是集中的;做回归模型,用的就是大量的Y~X映射样本来回归,如果引起Y的样本很凌乱,那就无法回归

2、独立性:每个样本的Y都是相互独立的,这个很好理解,答案和答案之间不能有联系,就像掷硬币一样,如果第一次是反面,让你预测抛两次有反面的概率,那结果就没必要预测了

3、线性:就是X和Y是相关的,其实世间万物都是相关的,蝴蝶和龙卷风(还是海啸来着)都是有关的嘛,只是直接相关还是间接相关的关系,这里的相关是指自变量和因变量直接相关

4、同方差性:因变量的方差不随自变量的水平不同而变化。方差我在描述性统计量分析里面写过,表示的数据集的变异性,所以这里的要求就是结果的变异性是不变的,举例,脑袋轴了,想不出例子,画个图来说明。(我们希望每一个自变量对应的结果都是在一个尽量小的范围)

我们用回归方法建模,要尽量消除上述几点的影响,下面具体讲一下简单回归的流程(其他的其实都类似,能把这个讲清楚了,其他的也差不多):

first,找指标,找你要预测变量的相关指标(第一步应该是找你要预测什么变量,这个话题有点大,涉及你的业务目标,老板的目的,达到该目的最关键的业务指标等等,我们后续的话题在聊,这里先把方法讲清楚),找相关指标,标准做法是业务专家出一些指标,我们在测试这些指标哪些相关性高,但是我经历的大部分公司业务人员在建模初期是不靠谱的(真的不靠谱,没思路,没想法,没意见),所以我的做法是将该业务目的所有相关的指标都拿到(有时候上百个),然后跑一个相关性分析,在来个主成分分析,就过滤的差不多了,然后给业务专家看,这时候他们就有思路了(先要有东西激活他们),会给一些你想不到的指标。预测变量是最重要的,直接关系到你的结果和产出,所以这是一个多轮优化的过程。

第二,找数据,这个就不多说了,要么按照时间轴找(我认为比较好的方式,大部分是有规律的),要么按照横切面的方式,这个就意味横切面的不同点可能波动较大,要小心一点;同时对数据的基本处理要有,包括对极值的处理以及空值的处理。

第三, 建立回归模型,这步是最简单的,所有的挖掘工具都提供了各种回归方法,你的任务就是把前面准备的东西告诉计算机就可以了。

第四,检验和修改,我们用工具计算好的模型,都有各种设检验的系数,你可以马上看到你这个模型的好坏,同时去修改和优化,这里主要就是涉及到一个查准率,表示预测的部分里面,真正正确的所占比例;另一个是查全率,表示了全部真正正确的例子,被预测到的概率;查准率和查全率一般情况下成反比,所以我们要找一个平衡点。

第五,解释,使用,这个就是见证奇迹的时刻了,见证前一般有很久时间,这个时间就是你给老板或者客户解释的时间了,解释为啥有这些变量,解释为啥我们选择这个平衡点(是因为业务力量不足还是其他的),为啥做了这么久出的东西这么差(这个就尴尬了)等等。

回归就先和大家聊这么多,下一轮给大家聊聊主成分分析和相关性分析的研究,然后在聊聊数据挖掘另一个利器--聚类。

参数取值问题

在油气评价中,所涉及的参数很多,有定量的,也有定性的和半定量的。很明显,参数取值在油气评价中是基础,占据了重要地位。可以说,参数取值问题也是评价方法学问题。参数取值好坏直接影响评价质量,如果输入是垃圾,输出则只能是垃圾。因此,大凡评价专家都在参数取值上狠下功夫。

14.3.1 参数取值方法

油气评价所用参数较多,这些参数主要取值于如下资料:

(1)地球物理类资料 包括地震资料、重磁电资料和测井资料,这类资料一般要经过大量处理(如地震资料的偏移、加强等,测井的各种校正等)和解释(如地震层位解释、时深转换、约束反演、信息提取等,测井的岩性和孔渗饱解释等)才能取值。

(2)钻井录井、测试与综合解释资料,岩心、岩屑观察资料。

(3)野外露头资料。

(4)各种样品(野外露头取样、岩心岩屑样和油气样)实验分析数据,如岩石地化数据、物性数据和油气性质资料等。

(5)前人地质研究成果和项目基础研究成果(主要是图、表,也包括文字成果)。

(6)勘探技术、勘探条件(包括地面条件)和成本,开发方案及成本。

(7)地区经济条件、油价及其他经济指标。

因此,参数取值的方法也多种多样,如下所述。

(1)在地球物理资料上,通过处理解释,可沿垂向(如测井资料)、横向(如二维地震测线、大地电测深等)和平面(如三维地震资料、重磁资料)进行均匀取点。同样地,对钻井录井、综合柱状图、露头剖面,地质-构造剖面,也可进行垂向、横向均匀取点;对各种平面图可进行平面均匀取点。

(2)对于非均匀样分析化验数据和其他观测数据,一般应用数理统计方法,以均值、中值、众数值等作为参数代表值。如当统计剖面(钻井)的非均匀样所获随机数据时,一般按厚度加权计算平均值。

(3)对于一些不存在参数,可用对比方法或主观方法确定,也可用其他资料进行计算推导或多种方法获得。如在中石化三次资评中,对于石油聚集系数,则应用了地质综合分析法、福克—沃德法、探井网格统计法等多种方法进行研究确定。

(4)对于有些重要参数,还取实验模拟手段确定,如生油岩生烃率、煤成气发生率等往往都用这种手段。

14.3.2 原始数据的数理统计及奇异点的剔除

对于某一变量(参数),我们可通过原始资料处理解释(如地震解释某一界面的顶面埋深、某套地层厚度,又如测井解释地层岩性、孔隙度、渗透率、含油气饱和度)、分析化验(如实验室测定岩心样品岩性、有机碳、沥青“A”、总烃含量、干酪根类型、Ro值、孔隙度、渗透率等)、图件规则(如垂向横向等距离、平面等网格)或不规则读值等手法获得大量观测点。然后对这些点进行概率统计,得出相应的数据概率分布。从前人研究成果发现,油气评价所用大部分参数的数值统计概率分布一般为正态分布(如储层厚度、有机丰度等)、对数正态分布(如圈闭规模等),也有的符合均匀分布,г分布或其他分布等。当然,这些参数统计特征是对于同一个单一地质体而言的,对于复合地质体和混合地质体,其参数统计特征要复杂得多。勘探层法中,关于勘探层的严格定义即是从考查各参数分布特征出发的。

因此,我们可根据各参数的统计特征反过来考查我们所定义的对象的边界是否正确、合理。当统计特征复杂时,则可能是定义边界太宽,当统计分布不完整,出现不正常的截断,则可能是定义边界过窄。在这两种情况下,我们都需要重新定义评价对象。

同样,我们可利用参数的统计特征,反过来检验各点数据,对于远离分布曲线的数据点,我们可认为其为奇异点。引起奇异点的原因除有其他地质作用的局部影响外,也可能是定义过宽而纳入的非本地质体的点,也可能是观测方法不同所形成的系统误差点,更可能是偶然误差点。对于奇异点,若生搬硬套地引入评价过程,则无疑会影响评价质量。因此,一般评价中,都应以一个统一标准,剔除这些奇异点。

在评价中,也可能由于定义边界过窄,或观测太少,而缺失部分数据点。这时,除根据有关图件补充一些数据点外,还可根据分布曲线理论推导补充一些人工点。

14.3.3 数据转换

在油气评价中,各种数据的特点不同,量纲不同,甚至变化范围不同,若不进行相应的数据转换,直接应用各参数,势必造成结果不合理的现象。因此数据转换是油气评价中重要一环。

14.3.3.1 数据标准化

在油气评价中,常常会遇到有的参数变化范围很大(如圈闭面积等),有的参数变化范围较小(如储层孔隙度等)的现象,直接引用这些参数进行评价,就可能人为地夸大了变化范围大的参数的作用,压低了变化范围小的参数的作用。为克服这些困难,可用数据标准化手段进行数据转换。通常用的标准化有:

(1)总和标准化,即对参数各数据点求总和,然后将各数据点除总和,得到0~1间数据。

(2)最大值标准化:将各数据点除以该参数的最大值,得到0~1间数据。

(3)中心标准化:先根据各数据点求出各参数平均值,再将各数据点减平均值。

(4)标准差标准化:先根据各数据点求出参数的平均值和标准差,再将各数据点减平均值之差除以标准差。

14.3.3.2 定性数据的变换

在油气定量评价中,一般不能直接使用定性数据,而必须加以转换才能使用。

名义型二态定性数据:只有两个相互对立的状态,即所谓“非此即彼”,如有与无,好与坏等。对于这种数据,一般用0、1变换,肯定时用1,否定时用0,这种0、1数据即可与标准化数据混合使用。

多态定性数据:即参数具有多种状态,这些状态按一定等级排列,如探井钻井试油结果可分为如下级别:干井、气测显示井、油气流井、工业油气流井等,相应地,我们可对此赋予一定的值(如0、1、2、3)。对于这种数据,可用等间隔或不等间隔赋值。

在赋值中,简便方法就是专家根据自己的认识和经验,主观打分。也可用数量化理论。

14.3.3.3 线性变换

在地质变量间,有的两两之间为线性关系,但多数为非线性关系。在后一情况下,计算显然复杂得多。通常我们需要进行非线性关系的线性化,所用的方法主要是取对数,也有其他转换(如双曲线变换等)。

14.3.3.4 分区加权与分区滑动平均

当数据量非常大或数据分布不均匀时,为了减少计算时间,可用分片加权法进行数据处理。即将评价区分为若干大小相等的小区,每个小区相当于一个新样品点,但根据原始样品点给予不同的权值。

分区滑动平均法与分区加权法相似,在此不赘述。

14.3.4 组合参数

在地质体中,往往出现一个参数(因变量)是另一个或几个参数(自变量)的函数,如天然气压缩系数与天然气组分、所处温度和压力有关。这时,一般是根据各参数的一组观测值,通过回归分析建立函数关系式,将一个或几个参数的信息组合为一个新的参数。其中,由一个参数转化为另一个参数的算法多用最小二乘法,即设函数关系为线型,根据各观测点,应用待定系数思路,在确保各观测点与计算点差值的平方和最小的情况下,求出各系数。

14.3.5 独立变量问题

在油气评价中,原则上讲,所选用的参数(变量)都应是独立参数(变量),否则,其参数(变量)之间的简单乘积关系就不成立。在风险分析中,就会产生所谓双重风险问题。因此,评价中,一定要对各参数(变量)间的相互关系进行认真、深入的分析,从中选择相互独立的对油气分布起控制作用的参数(变量)加入计算中。对于有相互联系的诸参数(变量),可以选其中具代表性的参数(变量)参加计算,也可以用前述信息组合方法将其组合起来,形成一个新的参数(变量)参加计算。

基于进出口总量均衡的国际原油价格形成模型

4.3.2.1 模型结构

传统经济学商品价格的形成是当该商品的供给等于需求时,市场达到均衡,由此供给(或需求)量所决定的价格就是该商品的均衡价格。通常情况下商品的供给量为产量,需求量为消费量。但由于石油市场受战争、意外的影响较大,战争和意外可能造成石油供应中断,由此对全世界经济生产产生较大的影响。所以现在很多国家都建立了相应的石油储备。由于有存货,当年的消费量不等于当年的石油需求量。同样地,以往的一部分储备有可能转化为供给,因此当年的石油产量也不等于当年的供给量。所以考虑原油市场均衡价格不能直接利用供给(产量)等于需求(消费量)平衡式。如果将国际石油市场看作一个虚拟的商品市场,该市场的流入就是国际石油的总出口,流出就是国际石油的总进口。由于是虚拟市场,因此市场一定会出清,所以每年国际石油市场的总进口等于总出口。

从这个角度来说,可将从国际市场的流出(进口)视为需求(包括当年的消费和储备),将流进(出口)视为供给。国际石油市场出清,意味着进口等于出口,此时国际石油市场达到均衡,由此确定了国际原油价格。在变量的选择上,需求(进口)设定为国际原油价格、世界经济活动水平(实际GDP)和OECD国家石油储备量的函数。供给(出口)方程的因变量为国际原油价格,设国际原油价格为石油出口量、OPEC上期原油产量的函数。当世界经济处于上升时期,各部门扩大生产使得对石油的需求增多,各国增大对石油的进口,即进口量与世界经济活动水平(实际GDP)存在正向变动关系;同样OECD国家增加石油储备需增加石油进口,而减少石油储备,意味着动用一定量的石油储备满足国内需求,这会导致石油进口量的减少,所以OECD石油储备量与国际石油进口量之间也存在着正向变动的关系。对供给方程而言,国际石油出口量越多,表明国际石油市场的石油供给量越多,供给增多,油价走低;反之,国际石油出口量减少,表明供给减少,油价走高。所以国际原油价格与国际石油出口量成反向变动关系。由于OPEC在国际石油市场上的地位,OPEC的产量政策通常作为油价变化的一个指标,增加产量会使油价下跌,减少产量会使油价上升;另外市场对产量变化有一个滞后期,所以OPEC上期原油产量与国际原油当期价格之间存在反向变动关系。

本节石油进出口量数据来自英国石油公司BP网页,世界实际的GDP值来自://genderstats.worldbank.org/query/,OPEC原油产量、国际原油价格和OECD 石油储备量数据来自美国能源网站,时间跨度都是从1989~2003年的年度数据。

4.3.2.2 国际原油价格形成模型

(1)需求函数(表4.4)

表4.4 需求函数表

续表

lnIM=0.006lnPC+0.954lnG+0.316lnSO-0.022(4.1)

式中:IM为国际石油进口量;PC为国际原油价格;G为世界实际的GDP; SO为OECD国家石油储备量。

从模型结果来看,所得回归方程的系数符号与前面的分析相一致。世界经济活动水平(实际GDP)对世界石油总出口量(需求)的影响比较显著,其次OECD国家石油储备的变动对石油总出口量的影响也较显著。相比较而言,原油价格变化对石油总需求的影响不显著。这个结论从长期来看是比较合理的,因为石油是一种需求价格弹性较低的商品,其消费量受价格的影响较小。

(2)供给函数(表4.5)

表4.5 供给函数表

lnPC=9.077lnEX-10.714lnQO(-1)+17.276 (4.2)

所得回归方程的系数符号与前面的分析相一致。国际原油价格受到国际石油进口总量和OPEC国家上期产量的显著影响。

(3)市场均衡

IM=EX        (4.3)

即国际石油市场总出口量等于总进口量,国际石油市场出清,供需达到了平衡。

据此整理得

lnPC=9.147lnG-3.206lnSO-11.326lnQO(-1)-1.14 (4.4)

PC=α·G9.174·SO3.206·QO(-1)-11.326   (4.5)

运用上式可以模拟OPEC产量变动对国际原油价格的影响。例如OPEC原油产量减少4%,设世界经济活动水平不变(即值不变),OECD国家需动用约14%的石油储备才能稳定国际原油价格。因为:

PC=0.96-11.326.0.863.206.PC*=PC*

PC*为基准情形时的国际原油价格。

类似的,如果世界经济年增长率为3%,在其他因素都不发生变化的情况下,OPEC上期需增加约2.4%的产量,恰好可以稳定国际原油价格。因为:

PC=1.039.174·1.024-11.326·PC*=PC*。

4.3.2.3 修正后的国际原油价格形成模型

随着经济全球化趋势的发展,各国贸易量将越来越大,越来越频繁。石油产品由于其分布的地缘性和主要消费国与主要产油国在地理位置上的分离等特殊性,将使石油产品贸易更依赖于国际市场,所以石油产品贸易量占世界经济(GDP)的份额有增大的趋势。石油产品贸易额占世界GDP的比重越大,国际石油市场越繁荣,这对国际原油价格的产生将起到一定的影响。具体地说,由于国际总进口与总出口相等,所以石油进口开放度增大,意味着石油进口量和出口量同时增加。由于需求和供给同时增加,所以国际原油价格的涨跌由供给和需求的价格弹性确定。供给价格弹性大,原油价格将降低;需求价格弹性大,原油价格将上升。无论何种情况,一般都会影响国际原油价格的形成。下面我们将引入石油进口国开放度概念,进一步研究在进口国开放度变化的情况下各影响因素对国际石油市场的影响。

石油进口国开放度,指国际总的石油进口量与石油出口量的和占世界实际GDP的比例,用TRI表示。即TRI=(石油总出口+石油总进口)/世界实际GDP。

考虑石油进口国开放度指标后的石油供给函数如表4.6所示。

表4.6 石油供给函数表

lnPC=9.092lnEX-10.727lnQO(-1)+4.592lnTRI+11.88

所得回归方程中石油进口开放度的系数为正,表明进口开放度增加,国际原油价格将上升。其余变量的系数符号与我们预期的结果一致,即上期OPEC原油产量与当期的原油价格成反比,进口国开放度与国际原油价格成正比。且这3个量对国际原油价格的影响在15%的显著性水平下都是显著的。

在供给函数中引入石油进口国开放度后,拟合指标R-squared和调整的R-squared等各项指标都有所改善,因此引入石油进口国开放度指标有助于更好地拟合原油供给函数。根据市场均衡条件IM=EX,整理得:

PC=α·G9.179·SO3.04·QO(-1)-11.351·TRI4.859 (4.6)

石油进口国开放度的增加表示石油进出口量的增加,反映进口国对石油需求的增加,这在一定程度上可以吸收增加的国际石油产量而保持国际原油价格不变。如:

PC=1.021-11.351·1.054.859·PC*=1.001PC*

股票和汇率有什么关系

1、汇率与股市是正负相关关系。

2、汇率和股市都是因变量,主动贬或被动贬,股市表现不同。汇率和股市直接的关系不稳定,因为这二者都是因变量,自变量是货币流动性、经济增长。

3、汇率贬值可称为被动贬值,企业盈利恶化,风险偏好随之下降,股市下跌。

4、汇率贬值可称为主动贬值,而主动货币贬值时,股市上涨。

股票:

是股份公司发行的所有权凭证,是股份公司为筹集资金而发行给各个股东作为持股凭证并借以取得股息和红利的一种有价证券。

每股股票都代表股东对企业拥有一个基本单位的所有权。每家上市公司都会发行股票。

汇率:

是指一国货币与另一国货币的比率或比价,或者说是用一国货币表示的另一国货币的价格。汇率变动对一国进出口贸易有着直接的调节作用。

在一定条件下,通过使本国货币对外贬值,即让汇率下降,会起到促进出口、限制进口的作用;反之,本国货币对外升值,即汇率上升,则起到限制出口、增加进口的作用。

扩展资料:

汇率计算:

直接标价法:

汇率升贬值率=(旧汇率/新汇率-1)*100

间接标价法:

汇率升贬值率=(新汇率/旧汇率-1)*100

结果是正值表示本币升值,负值表示本币贬值

股票分类:

普通股

普通股是指在公司的经营管理和盈利及财产的分配上享有普通权利的股份,代表满足所有债权偿付要求及优先股东的收益权与求偿权要求后对企业盈利和剩余财产的索取权。

普通股构成公司资本的基础,是股票的一种基本形式。现上海和深圳证券上进行交易的股票都是普通股。

优先股

优先股相对于普通股。优先股在利润分红及剩余财产分配的权利方面优先于普通股。

后配股

后配股是在利益或利息分红及剩余财产分配时比普通股处于劣势的股票,一般是在普通股分配之后,对剩余利益进行再分配。

如果公司的盈利巨大,后配股的发行数量又很有限,则购买后配股的股东可以取得很高的收益。发行后配股,一般所筹措的资金不能立即产生收益,投资者的范围又受限制,因此利用率不高。

垃圾股

经营亏损或违规的公司的股票。

参考资料来源:

百度百科-股票

百度百科-汇率