物联网世界中的自适应采样
这些设备可以是任何东西,从工业机械监控、天气和空气质量监控系统、安全摄像头到智能恒温器和冰箱,再到可穿戴健身追踪器。随着物联网设备数量的增加,它们生成的数据量也在增加。这种数据的典型应用是提高被监控系统的性能和效率,并深入了解用户的行为和偏好。
然而,庞大的数据量使得收集和分析这些数据具有挑战性。此外,大量数据可能会淹没通信信道以及边缘设备上有限的功率和处理量。这就是自适应采样技术发挥作用的地方。这些技术可以减少工作量,最大化资源利用率要求,并提高数据的准确性和可靠性。
适应性抽样
自适应采样技术根据器件的特定需求或目标系统的变化来“调整”采样或传输频率。例如,假设一台设备使用有限的数据计划、低功耗电池或计算受限平台。
示例:
- 当温度快速变化时,温度监控传感器可以更频繁地收集数据,而当温度保持稳定时,可以不太频繁地收集数据。
- 当视野中有活动时,安全摄像机以更快的帧速率或更高的分辨率捕捉图像。
- 当空气颗粒测量仪发现空气质量恶化时,它会提高采样速率。
- 自动驾驶汽车不断感知环境,但可能会将特殊的边缘情况发送回中央服务器,以便发现边缘情况。
取样的内容和地点
您对资源利用率的预期改进将指导我们在何处以及何处进行采样。有两个实施采样的站点:At尺寸或者播送.
测量时取样:
- 边缘设备将仅在算法(运行在边缘设备或服务器上)认为合适时进行测量(或更新测量频率)。
- 降低功耗和计算量。
- 定期提高网络带宽利用率。
传输时采样:
- 边缘设备持续进行测量,并使用本地运行的某种算法进行处理。如果样本是高熵的,上传数据到云/服务器。
- 测量时的功率和计算不受影响。
- 降低网络带宽利用率。
- 识别重要和有用的数据
我们经常听到“数据、数据、数据”这个词但是所有的数据都是平等的吗?不完全是。当数据带来信息时,它是最有用的。这是真的,甚至对于大数据公认的数据饥渴型应用程序。举个例子,机器学习和统计系统都需要“高质量”的数据,而不仅仅是大量数据。
那么我们如何找到高质量的数据呢?熵!
熵
熵是不确定度的测量在系统中。用更直观的解释,熵是系统中“信息”的度量。例如,具有恒定值或恒定变化率(比如温度)的系统。在最佳工作条件下,没有新的信息。每次取样时,您都会得到预期的测量值;这就是低熵。
另一方面,如果温度“嘈杂地”或“出乎意料地”变化,系统中的熵就高;有新的有趣的信息。变化越出人意料,熵就越大,这个度量就越重要。
当出现概率‘p(x)’较低时,熵较高,反之亦然。测量概率为1(我们真的期望会发生的事情)产生0熵,这是正确的。
这一原则“信息价值”是自适应采样的核心。
一些先进的技术
所有自适应技术的基本逻辑流程是:
自适应滤波方法:
这些方法对测量值应用滤波技术,以估计下一时间步的测量值。
这些可能是FIR(有限脉冲响应)或IIR(无限脉冲响应)技术,如:
- 加权移动平均(通过概率或指数处理可以更有表现力)
- 基于滑动窗口的方法
- 它们的复杂度相对较低,但是可能具有重要的内存占用来缓冲过去的测量。
- 需要少量数据进行配置。
卡尔曼滤波方法:
- 卡尔曼滤波器效率高,占用内存少。
- 它们可能相对复杂且难以配置,但如果调整得当,效果会很好。
- 需要少量数据进行配置。
机器学习方法:
- 利用过去收集的数据,我们可以建立机器学习模型来预测被观察系统的下一个状态。
- 这些更复杂,但也概括得很好。
- 根据任务和复杂程度,训练可能需要大量数据。
主要优势
- 提高效率:通过从可用数据的子集收集和分析数据,物联网设备可以减少工作负载和资源需求。这有助于提高效率和性能,并降低数据收集、分析和存储成本。
- 更高的精度:通过选择最有可能提供最有价值或信息量最大的数据源,自适应采样技术有助于提高数据的准确性和可靠性。这对于根据数据做出决策或采取行动特别有用。
- 更大的灵活性:自适应采样技术允许物联网设备适应数据源或数据本身的变化。这对于部署在动态或不断变化的环境中的设备尤其有用,在这些环境中,数据可能会随时间而变化。
- 降低后处理复杂性:通过从可用数据源的子集收集和分析数据,自适应采样技术有助于降低数据的复杂性,使其更易于理解和分析。这对于处理能力或存储容量有限的设备或团队来说尤其有用数据科学/工程资源。
潜在的限制
- 选择偏差:通过选择数据的子集,自适应采样技术可能将选择偏差引入数据。如果模型和系统是针对特定类型的数据进行训练的,而这些数据并不代表整个数据群体,则会出现这种情况,从而导致不准确或不可靠的结论。
- 采样误差:取样过程中存在出错的风险,这会影响数据的准确性和可靠性。这些错误可能是由于不正确的采样程序、样本量不足或非最佳配置造成的。
- 资源限制:自适应采样技术可能需要额外的处理能力、存储容量或带宽,而这些可能并非所有技术都具备物联网设备。这可能会限制特定设备或特定环境中的自适应采样技术。
- 运行时复杂性:自适应采样技术可能涉及机器学习算法或其他复杂过程的使用,这会增加数据收集和分析过程的复杂性。对于处理能力或存储容量有限的设备来说,这可能是一个挑战。
变通办法
- 分阶段部署:不要在所有设备上部署抽样方案,而是在小型但有代表性的测试组上部署。然后,来自这些组的“采样”数据可以针对更广泛的数据集进行分析,以发现偏差和域不匹配。同样,这可以分阶段反复完成,确保我们的系统永远不会有很大偏差。
- 取样技术的组合:不同的器件可以配备略有不同的采样技术,从样本大小和窗口到不同的算法。当然,这增加了后处理的复杂性,但它考虑了采样误差和选择偏差。
- 资源约束和运行时复杂性很难缓解。不幸的是,这是实现更好的采样技术的代价。
- 最后,测试,测试,更多的测试。