Hello 大家好,今天为大家带来eIQ Time Series Studio系列的最后一讲。
上期讲到的“Utilities”模块中“Data Intelligence”数据智能工具。数据智能工具可以帮助用户评估数据集的平衡性,确定各个数据通道/轴的重要性,还可以帮助确定最佳采样频率和窗口大小,从而优化数据集,提高质量和分析。本节将介绍“Utilities”模块中的“Data Operation”数据操作工具。
Data Operation
数据操作模块是TSS中的一个非常重要且方便实用的工具,主要解决非结构化表格数据与TSS项目所需的标准化信号格式之间的兼容问题。与图像数据不同,时间序列数据的来源广泛,形式多样。
比如可能会碰到实验室设备参数、工况不完全一致,系统新老不一等这类数据源的数据。数据格式不完全统一,这使得TSS机器学习任务变得困难。这个工具能让用户轻松预处理、转换和验证这些五花八门的时间序列数据,直接生成符合TSS工作流程要求的输入文件数据集。Data Operation主界面如图所示:

Dataset-数据集
数据集部分允许用户导入表格数据文件(TXT或CSV格式)以进行后续处理。可以加载单个或多个文件,并使用验证规则确保数据一致性。如需从本地系统选择文件,请点击“Import Files”按钮。可以同时导入多个文件。

若导入多个文件,请确保所有导入的文件具有相同的列数。否则,要将它们合并为一个文件,请点击“Concatenate Files”并选择“Direction”选项。如果文件未连接,则此操作将分别应用于每个文件。

若数据表中包含列标题,请单击“Ignore the first label line”跳过第一行(标题)。可手动选择相应的分隔符并预览数据。

Operation-操作区
操作部分允许用户对导入的数据集使用各种数据转换。大多数操作需要参数配置才能达到预期结果。
Remove lines
删除用户认为无用的行。
1. 输入要删除的行 2. 点击“Run”按钮

Remove Columns
删除用户认为无用的列。
1. 输入要删除的列 2. 点击“Run”按钮

Remove Channels
移除用户认为无用的通道。仅适用于多通道数据,用户可以先将数据导入“Data Intelligence”模块进行智能分析来获得推荐。通道相关性和通道重要性指标可以帮助识别冗余通道。
1. 点击“Number of Channels”填写数据集的通道数
2. 选择需要删除的数据通道
3. 点击“Run”按钮

Separate Data by Columns
根据用户指定的列数,进行行列转换。
1. 点击“Number of Columns”填写数据集的列数
2. 点击“Run”按钮

Transpose Data
将数据集转置,使行变成列,列变成行。直接点击“RUN”按钮。

Shuffle Data
按行打乱数据集。直接点击“RUN”按钮。

Wash Data
移除数据集中不干净的行。这里的不干净是指该行包含非数字元素,或者该行的列数与其他行不一致。直接点击“RUN”按钮。

Generate Samples
从连续数据中创建分段数据集,用于导入到TSS机器学习项目中。用户可以使用“Data Intelligence”对连续数据进行智能分析,预先获得最佳分段参数。
1. 设置通道数。注意:连续数据要求通道数与列数相同 2. 选择目标列。注意:当用户希望将某个通道的输出作为回归任务的预测目标时,此选项可用。分类任务则无需此选项 3. 设置分段数据窗长
4. 设置采样频率。这里指的是原始采样频率的分频系数 5. 设置步长和重叠率
6. 点击“RUN”按钮

Down Sampling
对分段数据集进行下采样。由于分段数据的窗长固定,因此下采样时数据窗长会减小。
1. 设置通道数 2. 设置采样频率。这里指的是原始采样频率的分频系数
3. 点击“RUN”按钮
Split Dataset
将数据集按行拆分为训练集和测试集。
1. 选择训练集/测试集比率
2. 点击“RUN”按钮

Result-操作处理结果
“Result”部分允许用户保存已操作的文件或对这些文件执行新的操作。
对于单个文件:
“Run New Operation”按钮会将已操作的文件导入到左侧“数据集”部分。
“Save As”按钮会引导用户将已操作的文件保存到本地系统。
对于多个文件:
“Run New Operation”按钮会将所有已操作的文件导入到左侧的“数据集”部分。
“Save All”按钮会将已操作的文件打包成 zip 文件并保存。

结论 “Data Operation”模块提供了一套简化的工作流,用于将原始表格数据预处理并转换为TSS工具可使用的文件格式。界面分为三个主要部分:
Dataset:支持灵活导入 (TXT/CSV) 文件,具备多文件合并功能,并提供可配置的解析设置(如分隔符、表头识别)
Operation:提供多种针对表格数据的转换操作,每项操作均设计简洁、易于理解,可适配不同数据类型。
Result:支持对已处理文件执行新操作或保存文件。
该工具通过直观的交互设计,帮助初学者与资深分析师高效生成项目所需的优质时间序列数据集。
eIQ Time Series Studio系列告一段落,感谢大家的一路相伴!
全部0条评论
快来发表一下你的评论吧 !