距离权重改进的Pearson相关系数及应用_韩某某

本文由用户“A阿莹欧尼”分享发布 更新时间:2020-03-16 21:27:11 举报文档

以下为《距离权重改进的Pearson相关系数及应用_韩某某》的无排版文字预览,完整格式请下载

下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

 2019 年 12 月 ·测井技术应用· 第 54 卷   第 6 期   文 章 编 号 :1000-7210(2019)06-1363-08 距离权重改进的 Pearson相关系数及应用 韩 晟*①  韩某某②  赵 璇③  王某某①  范某某①  梅 杰① (①中国石油华北油田勘探开发研究院,XXXX 062550;②中国石油华北油田第五采油厂,XXXX 052360; ③中国石油集团渤海***第二录*** ,XXXX 062552) 韩某某,韩某某,赵某某,王某某,范某某,梅某某.距离权重改进的 Pearson相 关 系 数 及 应 用.石 油 地 球 物 理 勘 探,2019, 54(6):1363-1370. 摘要 相关系数是表征两组数据相关 性 的 度 量 指 标。 现 有 的 相 关 系 数 仅 计 算 数 据 本 身 在 数 值 上 的 相 关 性 ,忽 视了数据在地理分布上的特征,导致数据的规律性未被充分 挖 掘。 在 油 气 勘 探 领 域,油 气 分 布 与 空 间 信 息 密 切 相关。为此,采用 Pearson相关系数的广义形式,结合空间权重的方法计算相关系数,并将不 同 搜 索 半 径 下 的 局 部相关系数以折线图的形式研究两组 数 据 的 空 间 相 关 特 征。 模 拟 数 据 和 实 际 数 据 的 检 测 结 果 表 明 ,空 间 权 重 改进的相关系数可以从空间上明确两组数据的潜在相关性。该方法有利于油气勘探的数据优选。 关 键 词  Pearson 相 关 系 数   局 部 相 关 系 数   距 离 权 重   煤 层 气   储 层 预 测 中 图 分 类 号 :P631    文 献 标 识 码 :A   doi:10.13810/j.cnki.issn.1000-7210.2019.06.021 0 引言 相关系数是一种定量描述两组随机变量的统计 学相关性的指标。相关系数的计算方法有很多种, 其中比较 经 典 的 有 Pearson[1]、Spearman[2]和 Ken- dall[3]等相关系数 法。 这 些 计 算 方 法 都 有 其 适 用 范 围:Pearson 相 关 系 数 适 用 于 二 元 高 斯 分 布; Spearman 和 Kendall 相 关 系 数 适 用 于 非 线 性 分 布 。 [4] 虽然计算过 程 不 同,但 是 以 上 三 种 相 关 系 数 有相似性,它们都可以抽象为广义相关系数[5],即 通 过比较数组中的每个数对以确定两组数据整体间的 相关程度。 相关系数在油气勘探中应用最多的是数据优 选,如利用有效 性 开 展 属 性 优 选[6-7]、地 球 化 学 取 样 中的多自由度分析[8]、烃源岩的预测 等 [9] 。 同 时,还 有学者将相 关 系 数 应 用 到 多 种 数 据 的 联 合 预 测[10] 和磁法勘探的低纬度化极算法 中 [11] 。 在地球物理学中应用相关系数的基本原理是不 同地球物理参数的同源性[12],即 在 一 片 区 域 观 测 的 不 同 类 型 的 物 理 量 (重 、磁 、电 、震 、测 井 数 据 等 )是 同 一套地质体的不 同 响 应。 所 以,研 究 不 同 数 据 的 相 关性的大小有助于 优 选 出 与 地 质 体 有 关 的 变 量,从 而揭示地质体与观测量之间关系的规律。 在 油 气 勘 探 领 域 ,变 量 常 受 多 种 因 素 影 响 ,因 而 两组变量 的 相 关 情 况 比 较 复 杂。 为 了 尽 量 减 少 影 响,可以选择计算地 理 位 置 较 近 点 (两 组 特 定 变 量) 的相关性。当两个 取 样 点 的 地 理 位 置 较 近 时,它 们 受同一因素影响的 可 能 性 更 高,因 此 比 较 地 理 位 置 较近的样点更有助于控制变量数目。为了研究数据 在空间分布上的特 征,本 文 在 广 义 相 关 系 数 的 基 础 上 ,引 入 空 间 权 重 的 概 念 ,在 比 较 每 组 数 据 时 加 入 与 空间距离有关的权重改进比较结果。在空间数据学 中 ,有 应 用 类 似 的 权 重 计 算 空 间 自 相 关 的 方 法 ,比 如 Moran自 相 关 和 [13] Geary 自 相 关[14],前 者 经 过 宋 马林等 改 [15] 进 也 可 以 应 用 到 非 网 格 型 数 据 的 相 关 计算中。 如果将广义相关系数看作一种全局相关系数, 那么这种距离权重改进的相关系数则是一种局部相 关系数。本文将详细说明局部相关系数的原理及其 性质,并利用模拟数 据 和 实 际 数 据 检 验 该 相 关 系 数 的应用效果。 * 河 北 省 任 丘 市 建 设 中 路 1 号 华 北 油 田 勘 探 开 发 研 究 院 ,062550。Email:yjy_hans@petrochina.com.cn 本 文 于 2018 年 12 月 4 日 收 到 ,最 终 修 改 稿 于 2019 年 8 月 22 日 收 到 。 本 项 研 究 受 国 家 科 技 重 大 专 项 “华 北 地 区 中 低 煤 阶 煤 层 气 规 模 开 发 区 块 优 选 评 价 ”(2016ZX05041-003)资 助 。  1 364 石油地球物理勘探 2019 年   1 原理 假设有两组随机变量 X 和Y,它 们 各 自 经 历 了 n 次 独 立 观 测。Xi 和 Yi 表 示 第i 次 观 测 值,(xi, yi)是 第i 次 观 测 的 大 地 坐 标 。 1.1  广 义 相 关 系 数 Pearson、Spearman、Kendall相 关 系 数 都 可 以 抽 象 为 以 下 计 算 模 式 [4,16] nn ∑ ∑aijbij ΓD = i=1 j=1 nn nn 1 (∑∑ ∑∑ ) a2 ij b2 2 ij i=1 j=1 i=1 j=1 (1)   如果aij=Xj-Xi、bij =Yj-Yi,式 (1)为 Pear- son 相 关 系 数 计 算 公 式 ; 如果aij=Pj-Pi、bij =Qj-Qi,P 为 X 在 本 组 变量中 的 序 次,Q 为 Y 在 本 组 变 量 中 的 序 次,此 时 式(1)为 Spearman相关系数计算公式; 如 果 aij =sgn(Xj -Xi)、bij =sgn(Yj -Yi), sgn(·)表示符 号 函 数,此 时 式 (1)为 Kendall相 关 系数计算公式。 式(1)说明了这 三 种 相 关 系 数 的 计 算 方 法 都 可 以看成是比较随机变量中的每一组数对后再求和的 形式。每组 数 对 的 比 较 都 会 给 计 算 结 果 贡 献 一 个 值,最后求和是为了 得 到 各 个 数 对 的 比 较 结 果 的 整 体趋势。 广义相关系数的 取 值 范 围 为 [-1,1]。 当 相 关 系数的绝对值越大,说 明 两 组 随 机 变 量 的 相 关 性 越 强。符号为正时称 为 正 相 关,即 一 组 变 量 随 着 另 一 组 变 量 的 增 大 而 增 大 ;符 号 为 负 时 称 为 负 相 关 ,即 一 组变量随着另一组变量的增大而减小。 1.2  距 离 权 重 如 果 应 用 具 地 理 意 义 的 距 离 权 重 ,需 要 符 合 “地 理上距离越近的事物关联 性 越 强”[17]这 一 条 地 理 学 第 一 定 律 ,即 权 重 矩 阵 与 数 对 之 间 的 距 离 为 负 相 关 , 也 说 是 说 ,两 点 间 的 距 离 越 近 ,权 重 越 大 。 这 里 仅 讨 论一种比较简单的距离权重选取方式 {1  dij <σ λij = 0 其他情况 (2) dij = i幔XXXXX?-xi)2 + (yj -yi)2 (3) 式中:λij为距离权 重,值 域 为 [0,1];dij 为i 与j 点 之间 的 距 离;σ 为 搜 索 半 径 (距 离 阈 值 )。 式 (2)、 式(3)表 明,只 比 较 两 点 之 间 的 距 离 小 于 一 定 值 的 点 ,且 在 这 个 距 离 范 围 内 赋 予 各 点 等 权 重 。 1.3 距离权重改进的 Pearson相关系数 若计 算 两 组 数 据 在 空 间 上 的 相 关 情 况,需 将 空 间(距离)权重引入到相关计算中。 以 Pearson相关 系数为模板 nn ∑ ∑(Xj -Xi)(Yj -Yi) I= i=1 j=1 nn nn 1 [∑∑ ∑∑ ] (Xj -Xi)2 (Yj -Yi)2 2 i=1 j=1 i=1 j=1 (4) 将 Pearson相关系数结合空间权重推广到空间内 I′ = nn ∑ ∑λij(X)(Xj -Xi)λij(Y)(Yj -Yi) i=1 j=1 nn nn 1 {∑ ∑ ∑ ∑ } [λij(X)(Xj -Xi)]2 [λij(Y)(Yj -Yi)]2 2 i=1 j=1 i=1 j=1 (5)   式(4)为 Pearson相关系数,该式通过比较数据 中 的 每 组 数 对 ,再 累 加 求 和 ,从 而 体 现 数 据 的 整 体 趋 势 (单 调 性 )。 式(4)的 核 心 是 (Xj-Xi)(Yj-Yi),即 比 较 数 据中任意一个数对的 X 变量和Y 变量,并将其结果 相乘。如果数对(Xj-Xi)与 (Yj-Yi)异 号,则 说 明 X 较大值对应Y 的 较 小 值 (或 X 较 小 值 对 应 Y 的 较大值);如果数对(Xj-Xi)与(Yj-Yi)同 号,则 说 明 X 的 较 大 值 对 应Y 的 较 大 值 (或 X 的 较 小 值 对 应Y 的较小值)。分子 通 过 两 次 求 和 计 算 以 统 计 数 据中每组数对的 符 号 异、同 性。 如 果 这 组 数 据 具 有 单调性,则每组数对的比 较 结 果 (Xj-Xi)(Yj-Yi) 出现同一种符号的 数 量 多,此 时 累 加 求 和 的 结 果 的 绝对值就 大。 而 当 (Xj-Xi)(Yj-Yi)出 现 不 同 符 号 的 数 量 越 多 时 ,则 累 加 求 和 的 结 果 越 接 近 0。 式(4)的分母可以看作 是 这 组 数 据 的 (Xj-Xi) 与(Yj-Yi)分 别 求 均 方 根、再 相 乘 的 形 式。 分 母 并 不影响 式 (4)的 符 号,只 是 将 分 子 的 结 果 进 行 归 一化。 通过(Xj-Xi)(Yj-Yi)可 以 看 出,Pearson 相 关系数只比较了数据中的 X 和Y 变量,但没有考虑 不同数据的取样的位置。 为 了 将 取 样 点 的 位 置 引 入 式 (4)中 ,在 比 较 这 组 数对 X 与Y 变量的同时,比较两个数据取样点的距 离大 小,即 1.2 节 中 的 距 离 权 重。 将 (Xj -Xi)×   第 54 卷   第 6 期 韩某某,等:距离权重改进的 Pearson相关系数及应用   1365  (Yj-Yi)变为λij(X)(Xj-Xi)λij(Y)(Yj-Yi),用距 离 权 重 修 正 (Xj-Xi)(Yj-Yi)的 结 果 。 式(5)中 的λij(X)表 示 X 随 机 变 量 中 第i 个 数 据 到第j 个 数 据 的 距 离 权 重,λij(Y)表 示Y 随 机 变 量 中 第i 个数据到第j 个数据的距离权重。在 一 般 情 况 下,数据采集的地理位置 只 有 一 组 ,所 以λij(X)=λij(Y)。 如果研究比较 复 杂 的 问 题,可 以 令λij(X)≠λij(Y),即 X 和Y 有不同的距离权重。 式(5)表示,在 比 较 每 组 数 对 时,将 其 结 果 乘 以 相应的距离权重,最 后 再 求 和 计 算。 权 重 的 取 值 总 为 正 ,它 只 改 变 每 组 比 较 结 果 的 取 值 大 小 ,而 不 改 变 符号。需要注意的是虽然权重不影响每组数对的符 号 ,但 是 最 后 的 汇 总 结 果 的 符 号 会 受 权 重 影 响 。 式 (5)的 取 值 范 围 为 [-1,1]。 由 于 距 离 权 重 的 各向同性,可以将加 权 后 的 数 据 比 较 看 成 两 组 新 数 据做比较,所以式(5)的取值范围和 Pearson相关系 数 的 取 值 范 围 相 同 。 当 距 离 权 重 全 部 相 同 时 ,式 (5) 退化为 Pearson相关系数计算公式(式(4))。 1.4  局 部 相 关 系 数 Pearson相关 系 数 不 考 虑 数 据 取 样 点 远 近,比 较全部数据的 X 与Y 变量的相关性;而距离权重改 进的相关系数突出了距离较近的取样点的 X 与Y 变 量 的 相 关 性 ,针 对 每 个 样 点 来 说 ,比 较 了 该 样 点 附 近的样点。因 此,在 空 间 上 Pearson 相 关 系 数 是 平 等考虑所有样点的 “全 局 相 关 系 数”,而 距 离 加 权 的 相关 系 数 是 一 种 突 出 局 部 相 关 性 的 “局 部 相 关 变 量 ”。 1.5  距 离 — 相 关 性 频 谱 局部相关系数虽然能体现距离较近样点的相关 性(图1a),但是需要人 工 确 定 搜 索 半 径。 搜 索 半 径 决定了样点的个数,因 此 在 很 大 程 度 上 影 响 了 局 部 相关系数的大小。 为了 解 决 人 工 选 择 搜 索 半 径 的 困 难,可 以 将 搜 索 半 径 作 为 一 个 变 化 值 ,并 以 固 定 步 长 为 增 量 ,计 算 该组数据样点之间最小距离到最大距离内所有搜索 半径的局部相关系数。将每个搜索半径对应其局部 相关 系 数 做 成 一 张 折 线 图,这 张 图 即 为 距 离—相 关 性 频 谱 (图 1b)。 通过距离—相关 性 频 谱 图,所 有 搜 索 半 径 下 的 局部相关系数得以展示。然后可以通过分析折线图 挖掘两组数据被距 离 关 系 掩 盖 的 相 关 性,并 研 究 在 不同尺度下两组数据相关性的变化规律。 图 1  取 样 点 位 置 (a)及 局 部 相 关 性 频 谱 (b) 数据来源于表1     综 上 所 述 ,距 离 权 重 改 进 前 、后 的 相 关 系 数 主 要 不同之处有:改进前 相 关 系 数 是 所 有 样 点 都 参 与 计 算 ,每 个 数 对 对 结 果 的 影 响 相 同 ,最 终 结 果 为 一 个 数 值 ;而 距 离 权 重 改 进 后 相 关 系 数 计 算 时 ,距 离 较 近 的 数对 对 结 果 的 影 响 大,体 现 最 终 结 果 的 是 距 离—相 关 性 频 谱 图 ,反 映 的 是 很 少 样 点 的 相 关 性 。 2 模拟数据测试 为了 测 试 改 进 后 相 关 系 数 的 效 果,应 用 二 维 模 拟 数 据 (表 1)进 行 检 验 。 该模拟数据的目的是体现局部相关系数的重要 性。由于 Pearson相关系数在计算时对每个数据的 采样点赋予相等权 重,而 且 最 后 的 结 果 也 仅 是 一 个 取值范围[-1,1]的 数 值。 这 就 使 得 可 能 在 小 范 围 内存在相 关 性 的 两 组 数 据 被 大 范 围 内 的 非 相 关 性 掩盖。 该模 拟 数 据 由 周 期 函 数 加 随 机 噪 声 构 成,模 仿 在 空 间 上 周 期 出 现 的 数 据 ,如 地 质 构 造 、井 距 与 产 量 关系等类似数据。  1 366 石油地球物理勘探 2019 年   表 1  模 拟 数 据 序号 坐标x 坐标y 变量 X 变量Y 序号 坐标x 坐标y 变量 X 变量Y 1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  142.72  343.58  184.21  348.44  193.20  411.71  195.33  362.39  205.35  427.70  215.39  348.48  224.27  348.34  247.40  432.09  486.31  521.39  487.78  319.05  491.04  544.11  505.36  422.27  512.26  367.74  513.24  479.37  526.68  582.51  529.34  301.52  536.73  499.70  543.01  394.82  551.30  516.19  554.60  382.48  557.10  415.10  562.19  456.56  562.27  467.37  564.98  508.88  4.92  4.71  4.55  3.80  4.21  4.36  4.14  4.80  3.59  5.92  3.61  6.34  6.76  3.99  2.45  6.82  3.44  6.09  3.22  6.30  6.43  3.03  3.30  3.30  29.74  28.24  27.47  10.15  0.81  22.18  16.85  38.25  14.71  7.34  21.31  25.24  23.72  32.86  29.24  25.45  11.54  18.58  24.66  6.88  39.25  2.11  27.12  8.92  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  569.61  541.89  576.54  588.67  593.19  541.53  604.85  568.42  605.36  339.98  607.93  593.38  609.13  584.69  620.27  579.32  719.86  186.71  728.58  241.64  728.67  150.40  734.08  254.14  759.31  208.12  768.53  233.72  773.97  234.81  796.67  222.60  831.58  595.66  876.61  560.22  878.03  629.33  884.35  564.19  887.05  600.43  892.04  634.11  898.18  606.26  907.9 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 any,PetroChina,Renqiu, Hebei 062550,China 2.No.5Oil Production Plant,Huabei Oilfield Com- pany,PetroChina,Xinji,Hebei 052360,China 3.Logging Branch 2,Bohai Drilling Engineering Company Limited,CNPC,Renqiu,Hebei 062552, China A secant infinite approximation algorithm for the full-time apparent resistivity in transient electromag- netic method.ZENG Qingning1,2,LUO Ying2,LIU Shuai 2,and LONG Chao1,2.Oil Geophysical Prospec- ting,2019,54(6):1371-1375. In the geology exploration with the transient [文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。

  1. 二级公共基础知识复习资料
  2. 距离权重改进的Pearson相关系数及应用_韩某某
  3. 第一单元XXXXX数据收集整理导学案
  4. 数据挖掘与商务智能结课实验报告说明
  5. 小学二年级《数学(下册)》第一单元《数据收集整理》基于标准的教学设计
  6. 届会计专业毕业设计选题指南
  7. 本科生毕业设计(论文)任务书(参考样板)
  8. 软件开发安全代码编写规范制度
  9. 【字节流、字符流】-笔记
  10. ,自平衡检测桩相关数据记录表
  11. 大学《数据库原理》期末考试试题及答案(一)
  12. 电路实验报告
  13. 统计的有关概念 ]最终稿
  14. 《数据可视化》课程标准

以上为《距离权重改进的Pearson相关系数及应用_韩某某》的无排版文字预览,完整格式请下载

下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

图片预览