非线性回归nls探索分析河流阶段性流量数据和评级曲线、流量预测可视化

科技科技 2024-11-21 21:43 浙江

全文下载链接：http://tecdat.cn/?p=24761

本文档通过一些探索性数据分析来制定河流的评级曲线和流量预测。目的是利用 (1) 在底部安装单元的定期部署期间测量的瞬时流量和 (2) 来自长期部署在河流中的水位数据记录器的瞬时深度测量，以创建和更新评级曲线。

相关视频

额定曲线将用于计算 HOBO 压力传感器部署期间（大约 1 年）的流量。所得数据将用于创建和验证河流 10-15 年期间的回归和 DAR 流量估计。

介绍

评级曲线

由于与河流流量连续测量相关的高成本，最好使用河流高度测量来估计流量。使用压力传感器可以连续测量水流高度。当辅以周期性的流量测量时，幂函数可以关联河流高度和流量（Venetis):

其中：Q代表稳态排放，H代表流高（阶段），H0是零排放阶段；K 和 z 是评级曲线常数。按照惯例，Q 和 H 通常在参数估计之前进行对数变换。

当河流水位过程线的上升和下降阶段导致相同河流高度的不同流量时，就会发生不稳定流。由此产生的受滞后影响的评级曲线将呈现为一个循环而不是一条线。Petersen-Øverleir 描述的修正琼斯公式和 Zakwan 可能用过了：

其中 Q 是流量，h 是河流高度。偏一阶导数使用有限差分近似为 J：

其中 ht 是时间 t 的水流高度，Δt 是时间区间。这可以被认为是河流高度和时间之间函数的斜率或瞬时变化率，它是使用测量的河流高度值估计的。K、a、n 和 x 是评级曲线常数。

许多不同的方法可用于求解额定曲线参数。我们使用非线性最小二乘回归来最小化评级曲线参数的残差平方和 (SSE)。残差 SSE 计算如下：

其中：X 是测量值，Y 是预测值。非线性优化方法搜索参数组合以最小化目标函数（在这种情况下为残差 SSE）。彼得森应用 Nelder-Mead 算法求解琼斯公式。扎关使用广义减少梯度和遗传算法提出非线性优化方法。大多数方法需要仔细规划有点接近全局最小值的参数起始值，或者存在识别替代局部最小值的风险。为了减少局部最小值收敛的可能性， R 提供了在许多不同的起始值上迭代非线性最小二乘优化的功能（Padfield 和 Matheson）.

未控制的流量估计

评级曲线允许在部署水流深度数据记录器的时间段内开发每日水流记录。然而，当站点未启用时，对每日流量的估计需要额外的信息。统计信息传递和经验回归是两种相对简单的方法，可用于估算测量不当的流域中的流量。统计传输程序使用面积和径流之间的假设关系，简单地将流量持续时间曲线或每日流量值从有测量的流域传输到未测量的流域。最常用的统计传递方法是流域面积比。使用流域面积比，通过将面积比与日流量相乘，日流量从一个流域转移到另一个流域：

其中，是预测盆地 y 和时间 t 的流量，是测量盆地 x 和时间 tt 处的流量，和是盆地的面积比。参数 ϕ 通常等于 1（Asquith、Roussel 和 Vrabel ）。然而，阿斯奎斯、鲁塞尔和弗拉贝尔提供了在德克萨斯州应用时用于流域面积比的 ϕ 的经验估计值。有了可用的短期流量记录，可以使用排水面积比方法评估各种流量仪表的性能。此外，可以使用非线性最小二乘法开发 ϕ 的局部值。如果主要输出是流量持续时间曲线，则主要关注的是候选量具有相似的径流因变量并且在未治理流域的合理距离内。但是，如果主要输出包括每日流量估计，则具有具有相同流量超出概率时间的候选量具更为重要。

基于经验回归的方法需要一段时间的测量流量和一些预测变量来估计径流因变量。通常，使用日降雨量数据将回归模型拟合到测量的流量数据：

其中 Qi是第 i 天的预测排放量，β 是第 j 个变量的系数，x 是第 i 天的预测变量值。假设误差项 ϵi 正态分布在均值零附近。使用简单线性或多元线性回归 Q通常在估计回归系数之前进行对数变换。如果预测变量和因变量之间的关系预期为非线性多项式，则可以包括项。然而，称为广义加性模型的线性回归的扩展允许将这些非线性项相对容易地拟合到数据中。对于广义加性模型，因变量取决于应用于每个预测变量的平滑函数的总和。此外，广义加性模型可以拟合具有非正态分布的误差分布的因变量。然而，与线性或多元线性回归相比，广义加性模型由于缺乏单一模型系数而更难以解释。因此，每个单独的平滑函数对因变量均值的影响通常以图形方式传达。

方法

数据采集

数据来源于水位数据记录器。部署了一个额外的数据记录器，为部署在水下的数据记录器提供环境大气压力校正。从 2020-03-02 到 2021-..-...，水位数据记录器几乎连续部署，并设置为每隔 15 分钟记录一次水位。

## 制作要导入的文件列表

                     list.files(path = here("Data

##创建一个空白的tibble来填充
 tibble()


## 遍历文件路径以读取每个文件
for (i in fihs) {
  x <- read_csv(
  
    copes
  bind_rows(hf, x)
  rm(x)

表 1：在每个站点测量的 15 分钟流级别的汇总统计数据

ggplot(hdf) +
  geom_line+
  facet_wrap +
  scale\_x\_datetim+
  scale_y +
  guid +
  th +
  theme

图 1：每个站点的 15 分钟区间流深度记录。

点击标题查阅往期内容

【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、广义相加GAM分析工资数据|数据分享

左右滑动查看更多

使用底部安装的流量计在每个 SWQM 站点进行定期流量测量。测量横截面积、水流高度和速度。使用这些测量值，该设备利用指数速度方法来报告瞬时流量。流量测量设备一次部署几天，在每个站的不同流量条件下捕获完整的水文过程线。只有两个流量计可用，因此在站点之间轮流部署。此外，一台设备停止工作并进行了几个月的维修。以 15 分钟的间隔记录流量。

在数据探索过程中，每个站点的低流量数据中明显存在过多噪声。在停滞或接近停滞条件期间，多普勒流量计记录高度可变的流速并报告不切实际的流量。由于过多的数据噪声，从数据记录中清除了极低或停滞的流量时期。未来的部署将需要考虑在什么条件下长期部署是合适的。对于像这样的小流，定期的风暴流部署可能是最合适的部署。

## 制作要导入的文件列表
file_paths <- paste0(he ".csv"))

##创建一个空白的tibble来填充
iq <- tibble()

## 遍历文件路径以读取每个文件
for (i in file_paths) {
  x <- read_csv
  file <- i
  idf <- bind_rows
  rm
}


iqdf <- iqdf %>%
  ## 使用 \`dplyr::\` 指定要使用的重命名函数，以防万一
  dplyr::rename(Sam)



ggplot（iqdf）+
  geom_point(aes(Dme, Flow), alpha = 0.2) +
  facet_wrap

图 2：每个站点记录数据的周期。

## 为了将测量深度与IQ的流速测量结合起来
## ＃＃我们需要插值测量深度到每分钟，因为深度是偏移。然后我们就可以连接这些数据。我们将使用线性插值。



##使用purrr::map在每个站点上运行插值运算
hdf %>%
  split%>%
  map %>%
  bind_row %>%
  as_tibble 
##这就是我们要开发评级曲线的数据框架。
idf %>%
  left_join %>%
  select %>%
  mutate -> iqdf

评级曲线发展

由于植物生长、植物枯死、沉积、侵蚀和其他过程，河内和河岸的条件全年都会发生变化。这些不断变化的条件可能需要开发多个评级曲线。探索性数据分析用于确定变化时期和滞后影响评级曲线的可能性。一旦确定了评级曲线周期和适当的公式，公式中的评级曲线参数 (1)") 和 (2)") 通过非线性最小二乘估计回归使用 R （Padfield ）。该方法利用 Levenberg-Marquardt 算法和多个起始值来寻找全局最小 SSE 值。

单独的评级曲线用于使用测量的河流高度估计河流流量。Nash-Sutcliffe 效率 (NSE) 和归一化均方根误差用于评估测量和估计流量之间的拟合优度。NSE 是归一化统计量，用于评估相对于测量数据方差的相对残差方差，计算公式如下：

其中是观察到的排放量的平均值，是 t时刻的估计流量量，Qt 是 t时刻观察到的流量。NSE 的值范围从 −∞ 到 1，其中 1 表示完美的预测性能。NSE 为零表示模型具有与数据集均值相同的预测性能。

nRMSE 是一个基于百分比的指标，用于描述预测和测量的排放值之间的差异：

其中

其中 Qt 是在时间 t 观察到的流量，是 t 时刻的估计排放量，n是样本数，和是观察到的最大和最小排放量。产生的 nRMSE 计算是一个百分比值。

结果

站点

基于探索性分析，为站点制定了两条评级曲线。评级曲线周期为2020-03-03至2020-11-30和2020-12-01至2021-01-31。由于观察到的水层中存在明显的不稳定流动，我们应用了琼斯公式（公式(2)")）。两个时间段都产生了 NSE 大于 0.97 和 nRMSE 小于 3% 的评级曲线，表明非常适合（表 2; 数字 3）。数字 3 确实表明在极低流量测量中存在一些有偏差的流量估计。这归因于多普勒流量计在低流量时记录的流量变化。

## 为站点 制作数据框

if %>%
  group_split %>%
  ## 删除最大流量未超过 10 cfs 的事件
  imap %>%
  bind_rows 
## 为站点 2020 年 12 月 14 日至 2021 年 1 月制作数据框
idf %>%
         diff_time %>%
  group_split %>%
  imap(~mutate) %>%
  bind_rows %>%

##使用nls估计琼斯公式中的参数

## 一些起始参数。nls_multstart 将使用多个
##起始参数和模型选择查找
##全局最小值
stlower 
stupper 
##适合nls
rc<- nls(jorm,
              suors = "Y")

##设置参数起始限制

##nls
nls(jorm
              suors = "Y")

## 使用参数结果设置数据框。 将使用它来报告参数和 GOF 指标
dfresu <- tibble(Site  ）

## 开发评级曲线预测和
## 使用 GOF 指标创建表
df %>%
dfres %>%
 
 NSE(predicted, as.numeric(Flow))-> dfres

##显示表
kable（dfres)

表 2：站点的评级曲线参数估计和拟合优度指标

##绘制评级曲线结果

p1 <- ggplot +
    geom_pointlpha = 0.25) +
  geom_abline +
  scale\_x\_continuous
  theme()

图 3：站点处每个额定曲线周期的额定曲线估计流量与实测流量（A、C）和阶段流量预测（B、D）的散点图。

点击标题查阅往期内容

R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究

左右滑动查看更多

站点 16397

探索性分析表明，在该站点使用幂函数（公式 (1)")) 因为在水文过程图中没有观察到不稳定的流动条件。评级曲线预测导致 NSE 大于 0.95，表明非常适合（表 2）。nRMSE 小于 5%，这对于在该站获得的较小样本量来说可能是一个很好的结果，并且可能受到观察到的低流量方差的影响（表 2; 图 3).

## 设置数据框以将评级曲线拟合到 1697

##幂函数

##参数起始限制

rc_7 <- nls(prm,
              stalower
              supors = "Y")

## 使用参数结果设置数据框。 稍后将使用它来报告参数和 GOF 指标
dfres <- tibble(Sit,
                            K,
                            H0 ，
                            Z\["Z"\]\])

df167 %>%
  mutate(pr = exp(predict(rc))) -> df

表 3：站点 167 的评级曲线参数估计和拟合优度指标

##绘制评级曲线结果
p1 <- df7 %>%
   ggplot() +
   geom_point +
   geom_abline+
   scale\_x\_continuous +
   scale\_y\_continuous 
p1 + p2 + plot_annotation

图 4：167 站的额定流量估计流量与实测流量 (A) 和阶段流量预测 (B) 的散点图。

站点 162

基于探索性分析，为站点166制定了3条评级曲线。评级曲线周期为2020-03-03至2020-05-30；2020-06-01 至 2020-10-31；和 2020-11-01 至 2021-01-31。由于观察到的水层中存在明显的不稳定流动，我们应用了琼斯公式（公式(2)")）。3 月至 9 月的结果表明评级曲线具有非常好的拟合（NSE > 0.96，nRMSE <6%；表 4）。低流量下观测值和预测值之间的巨大差异可归因于具有极快的水流高度变化（\> 1.5 英尺/小时）的事件，参数估计难以拟合（图 5 ）。其余评级曲线的拟合优度指标有所下降，但仍表明性能良好（表 4）。测得的中低流量值的高方差影响评级曲线性能（图 5).

## 制作 3 个不同的数据框拟合琼斯公式。

iqpdf %>%
    filter(DaTime > as.POSIXct) 
  #filter %>%
  group_split %>%
  imap %>%
  bind_rows

## 估计每个数据集的参数

##设置参数起始限制
stlower
stupper 

rc<- nls(jonrm
              surs = "Y")

##设置参数起始限制
stlower
stupper 
rc <- nls(jorm，
              stawer，
              suprs = "Y")

##设置参数起始限制
stalower

## 使用参数结果设置数据框。稍后将使用它来报告参数和 GOF 指标
dfres <- tibble(Site 
                         
                           K ，
                           a ，
                           n ，
                           x ）

## 开发评级曲线预测和
## 使用 GOF 指标创建表


##显示表
kable（df)

表 4：站点 16882 的评级曲线参数估计和拟合优度指标

##绘制评级曲线结果

p1 <- ggplot(df_03) +
    geom_point +
  geom_abline+
  scale\_x\_continuous +
  scale\_y\_continuous +
  theme_ms()

图 5：16882 站每个额定曲线周期的额定曲线估计流量与实测流量（A、C、E）和阶段流量预测（B、D、F）的散点图。

每日流量估算

# 使用原始数据集
# 按日期使用评级曲线估计流量
# 聚合表示每日流量，报告汇总统计数据。

hodf %>%
  dplyr::select%>%
  group_split(站点) %>%
  bind_rows() 

## 制作模型的数据框，预测数据，然后映射预测函数，并取消嵌套数据框。
tibble) %>%
    ~exp( newdata = .y))
  )) %>%
  tidyr::unnest%>%
  as_tsibble

##绘制数据

ggplot() +
  geom_line+
  geom_point +
  facet_wrap +
  scale\_y\_continuous +
  theme_ms()

图 6：15 分钟流量估算与叠加测量流量值

## 计算平均每日流量并报告统计数据

   dplyr::select(Site, DTime) %>%
   group\_by\_key() %>%
   index\_by(date = ~as\_date(.)) %>%
## 报告摘要统计
meflow %>%
   as_tibble() %>%
   dplyr::select %>%
   tbl_summary %>%
   as_kable()

表 5：每个站点平均日流量估计的汇总统计数据

ggplot(mean\_daily\_flow %>% fill_gaps()) + 
  geom\_line(aes(date, mean\_daily)) +
  facet\_wrap(~Site, ncol = 1, scales = "free\_y") +
  scale\_x\_date("Date", date_breaks = "1 month",
                   date_labels = "%F") +
  labs(y = "Mean daily streamflow \[cfs\]") +
  theme_ms() +
  guides(x = guide_axis(angle = 90)) +
  theme(axis.text.x = element_text(size = 8))

图 7：平均每日流量估计。

##导出数据
melow %>%
   writcsv("modf.csv")

参考

Asquith, William H., Meghan C. Roussel, and Joseph Vrabel. 2006. “Statewide Analysis of the Drainage-Area Ratio Method for 34 Streamflow Percentile Ranges in Texas.” 2006-5286. U.S. Geological Survey.

本文摘选《R语言非线性回归nls探索分析河流阶段性流量数据和评级曲线、流量预测可视化》，点击“阅读原文”获取全文完整资料。

本文中的流量数据、代码分享到会员群，扫描下面二维码即可加群！

点击标题查阅往期内容

非线性回归beta系数估算股票市场的风险分析亚马逊股票和构建投资组合

R语言因子实验设计nlme拟合非线性混合模型分析有机农业施氮水平

R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究

Python用T-SNE非线性降维技术拟合和可视化高维数据iris鸢尾花、MNIST 数据

R语言nlme、nlmer、lme4用（非）线性混合模型non-linear mixed model分析藻类数据实例

Python中的多项式回归拟合非线性关系实例

使用R语言进行多项式回归、非线性回归模型曲线拟合

R语言多项式回归拟合非线性关系

R语言里的非线性模型：多项式回归、局部样条、平滑样条、广义相加模型GAM分析

R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析

R语言ISLR工资数据进行多项式回归和样条回归分析

R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型

R语言多项式线性模型：最大似然估计二次曲线

R语言广义线性模型GLM、多项式回归和广义可加模型GAM预测泰坦尼克号幸存者

R语言中的多项式回归、B样条曲线(B-spline Curves)回归

R语言用多项式回归和ARIMA模型预测电力负荷时间序列数据

R语言机器学习实战之多项式回归

R语言ISLR工资数据进行多项式回归和样条回归分析

欲获取全文文件，请点击左下角“阅读原文”。

http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247548215&idx=6&sn=6eaa751c1364764708592274300b1789

拓端数据部落

拓端(tecdat.cn)创立于2016年，提供专业的数据分析与挖掘服务，致力于充分挖掘数据价值。

最新文章

python用支持向量机回归(SVR)模型分析用电量预测电力消费

R语言ARIMA-GARCH波动率模型预测股票市场苹果公司日收益率时间序列

数据分享|PYTHON用决策树分类预测糖尿病和可视化实例

R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标

R语言随机波动率(SV)模型、MCMC的Metropolis-Hastings算法金融应用：预测标准普尔SP500指数

【专题】2024年协作机器人产业发展蓝皮书报告汇总PDF洞察（附原数据表）

R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究

分布滞后线性和非线性模型（DLNM）分析空气污染（臭氧）、温度对死亡率时间序列数据的影响

R语言GARCH族模型：正态分布、t、GED分布EGARCH、TGARCH的VaR分析股票指数

【专题】2024年双十一购物节营销、消费洞察报告汇总PDF洞察（附原数据表）

Copula估计边缘分布模拟收益率计算投资组合风险价值VaR与期望损失ES

【专题】2024大健康产业热点分析报告合集PDF分享（附原数据表）

R语言预测人口死亡率：用李·卡特（Lee-Carter）模型、非线性模型进行平滑估计

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟

R语言Bootstrap的岭回归和自适应LASSO回归可视化

R语言特征选择——逐步回归

MATLAB贝叶斯优化混合Bayes-CNN-RNN分析股票市场数据与浅层网络超参数优化

体验游浪潮，推动旅游业变革|报告汇总PDF洞察（附原数据表）

MATLAB用GARCH-EVT-Copula极值理论模型VaR预测分析股票投资组合

【专题】2023年中国AIGC产业全景报告PDF合集分享（附原数据表）

matlab贝叶斯隐马尔可夫hmm模型实现

非线性回归nls探索分析河流阶段性流量数据和评级曲线、流量预测可视化

Python套索回归lasso、SCAD、LARS分析棒球运动员薪水3个实例合集|附数据代码

用R语言和python进行社交网络中的社区检测

MATLAB深度学习Transformer神经网络量化金融时间序列预测交易策略回测

中国医疗器械企业在出海中怎样构建国际化组织与人才基础报告汇总PDF洞察（附原数据表）

R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化

R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

数据分享|R语言ARIMA模型分析预测上海空气质量指数AQI时间序列

数据分享|R语言因子分析、相关性分析大学生兼职现状调查问卷数据可视化报告

MATLAB图注意力网络GAT多标签图分类预测可视化

【专题】中国企业出海洞察报告暨解码全球制胜之道报告汇总PDF洞察（附原数据表）

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

【专题】人工智能AI算力高质量发展评估体系报告合集PDF分享（附原数据表）

【专题】新能源发电行业及其市场化进程概览白皮书报告合集PDF分享（附原数据表）

R语言分布滞后线性和非线性模型（DLMs和DLNMs）分析时间序列数据

R语言文本挖掘：kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

Matlab用BUGS马尔可夫区制转换Markov switching随机波动率模型、序列蒙特卡罗SMC、M H采样分析时间序列

【专题】2024AIGC创新应用洞察报告汇总PDF洞察（附原数据表）

【专题】2024年中国智能算力行业白皮书报告汇总PDF洞察（附原数据表）

【专题】2024数字化赋能绿色智能制造高管洞察报告合集PDF分享（附原数据表）

课程视频|R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

Matlab中的偏最小二乘法（PLS）回归模型，离群点检测和变量选择

【专题】2024食品行业预制菜趋势报告PDF合集分享（附原数据表）

R语言逻辑回归logistic模型ROC曲线可视化分析2例：麻醉剂用量影响、汽车购买行为

【视频讲解】Python深度神经网络DNNs-K-Means（K-均值）聚类方法在MNIST等数据可视化对比分析

【专题】2024年内容创作者生态报告抖音、小红书、快手汇总PDF洞察（附原数据表）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉