SensiML开源了Analytics Studio AutoML引擎

麦克泰技术 2024-11-06 340

描述

我们很高兴地宣布，我们的AutoML服务器应用程序Analytics Studio将很快在开源许可下提供。我们还将推出一个新的开源项目网站，以联合一个致力于为 tinyML 模型开发创建全面的、与硬件无关的解决方案的开发人员社区。此次发布计划于初夏进行，我们正准备在您的支持下取得成功。

Analytics Studio作为专有应用程序和云 SaaS服务经过多年的发展，支持来自多个硬件供应商的各种端侧芯片。SensiML的Analytics Studio专注于时间序列传感器，可以快速创建适用于各种应用的独立C代码，例如：

1) 声学事件检测

2) 手势和人类活动识别

3) 异常检测

4) 关键字发现

5) 振动分类

通过此次发布，我们将在开源许可选项下提供Analytics Studio的核心引擎，用户可以自由下载并实施我们提供的核心技术的私人服务器实施，并将继续提供在SensiML的托管和支持的SaaS云服务中服务。

为什么SensiML开源其核心软件？

几年前，当SensiML首次推出我们的开源计划时，我们主要专注于为我们的传感器数据接口协议和由此产生的物联网边缘推理模型提供更高的透明度。在听到客户对维护和支持他们没有完全掌握的算法产品表示担忧后，我们得出结论，这是朝着更好的模型透明度和可解释性迈出的必要一步。因此，解决AI/ML的“黑匣子”问题是我们开源的首要目标，并导致我们的SensiML嵌入式SDK和数据协议以完整的源代码形式发布并提供给任何人，同时将我们的开发工具本身作为专有软件进行维护。

今天，我们看到了更多的TinyML生态系统挑战和相应的开源机会，这激发了我们扩展开源计划，以包括我们的核心AutoML引擎 Analytics Studio。我们开始相信，一个充满活力的开源软件工具社区的存在对于推动TinyML生态系统向前发展至关重要，因此，提供SensiML久经考验的代码库，作为协作开源创新的第一个基础，这一点我们处于领导地位。

根据Linux基金会进行的2023年OSS调查，人工智能/机器学习被全球 IT 经理列为对其行业未来最有价值的开源技术。

当人们考察领先的开源 AI/ML 项目和技术时，大部分是框架、库和模型定义格式（例如 TensorFlow、PyTorch、Scikit-learn、OpenCV 和 ONNX 等），但不是完整的端到端工具链，更不用说那些专注于 AI/ML 和嵌入式物联网推理代码优化的交叉复杂性的工具链了。SensiML认为，这是一个关键的差距，也是一个机会，可以帮助帮助那些没有精通数据科学的开发人员 - 采用简化复杂步骤。

出于几个常见原因，许多IT经理选择开源软件而不是专有选项。这些原因也促使我们决定将 Analytics Studio 开源：

1) 创新和敏捷性

2) 避免供应商锁定

3) 社区和支持识

4) 质量和安全性

5) 人才吸引和留住

6) 战略优势

将开源优势与TinyML生态系统联系起来

为了将这些好处与TinyML生态系统面临的特定挑战联系起来，让我们更深入地研究其中的几个，并与当前TinyML采用者面临的问题联系起来。

挑战1 – TinyML传感器应用程序特有的数据集瓶颈：使用深度学习技术创建准确的预测模型依赖于足够的模型训练数据的可用性，以涵盖实际使用中可以预期的来源和范围。因此，这种训练数据集需求可能相当大。众所周知的极端情况是大语言模型（LLM），它具有数万亿个模型参数、数十万个 GPU 训练小时，以及接近 Internet 上可用的人类文本总数的训练数据集。

TinyML模型涉及的训练数据集要小得多，但传感器衍生输入数据的性质使得数据集挑战可以说是一个比LLM更棘手的问题。虽然 LLM 的规模非常大，但它们至少受益于人类语言文本的可扩展数据源，这些数据源是通过从互联网上自动抓取文本、文档和 Wiki 页面而获得的。对于传感器应用，通常没有这种等效的易于扩展的数据源。

想象一下，根据实际用例要求，在网络上抓取足够的原始传感器数据，以预测特定电机负载的大框架直流电机故障状态，以及从与位置相关的振动传感器输入和麦克风中获取足够的原始传感器数据。几乎可以肯定的是，如果不求助于设计自己的实验，您将无法找到适合给定应用程序需求的数据。

这个数据集瓶颈问题涵盖了TinyML领域的大多数用例。它要求开发人员投入大量时间、精力和成本来收集特定于其所需用例的经验数据。他们必须以足够的数量和足够多样化的条件进行训练，以便针对实际使用中可能预期的所有条件有效地训练模型。在我们的电机示例中，大型跨国电机制造商可能拥有或有能力产生足够的数据来开发稳健的模型，但缺乏此类资源的小型公司和创业者仅限于更简单的模型。其结果是限制了用户对TinyML的采用，因为为许多此类应用程序获取训练/测试数据的采用门槛很高。

开源TinyML工具如何提供帮助：目前对减少训练数据集瓶颈的积极研究显示出前景，包括迁移学习、数据增强、从模拟和对抗生成网络GAN 生成合成数据、半监督学习和模型压缩等技术。这些方法正在迅速发展，在TinyML中包含的许多用例中，有效的方法各不相同。例如，用于图像识别的数据增强通常涉及旋转、平移、缩放或色移，而音频数据将涉及一组完全不同的音高、音色、节奏和噪声叠加的转换。面对快速变化的方法和途径的步伐，这些方法和途径因应用而异，因此对基于开源社区的协作的需求至关重要。开源开发模型为问题带来了规模和洞察力的多样性，这是封闭的开发团队无法比拟的。通过为社区贡献和改进开放一个通用的TinyML开发平台，SensiML相信生态系统可以从克服数据集瓶颈的集体努力中更快地受益。

挑战2 – TinyML软件工具碎片化和锁定：在过去几年中，我们目睹了许多AutoML开发工具竞争对手被硬件供应商收购，这些供应商试图通过强制ML开发工具相关的高转换成本来将用户锁定在他们的芯片产品中。虽然从芯片供应商的角度来看，这种动机是可以理解的，但从物联网开发人员的角度来看，由此产生的碎片化生态系统远非理想。想要工具包X，但出于其他设计或业务原因需要使用芯片Y？借助这些专属解决方案，用户面临着在软件工具功能和硬件选择标准（如数据表规格、成本和第二来源替代方案）之间做出艰难选择。当这两个目标发生冲突时，常见的结果是，物联网开发人员将简单地推出计划的ML功能，直到 ML 工具成熟并且存在针对特定所需硬件和应用程序需求的功能支持。

开源TinyML工具如何提供帮助：SensiML认为，为TinyML实施者提供选择和灵活性可以更好地满足用户的需求，而不是与特定硬件供应商的产品捆绑在一起。这种灵活性甚至可以被看作是一种战略决策，它保留了在开发机器学习工具技能和数据集方面的投入价值，这些技能和数据集可以跨硬件和特定工具实现进行移植。通过为开源贡献一个基本 AutoML工具链，SensiML设想了一个事实上开放和灵活的平台的潜力，就像 Eclipse 作为许多供应商特定实现以及 Eclipse 基金会本身维护的通用 IDE 技术一样。

开源对SensiML未来的商业计划有何影响？

我们开源SensiML核心AutoML应用程序的主要动机是受益于协作开源开发模式带来的更快的创新步伐。除了代码贡献之外，还包括增强的代码质量、与新硬件的集成、额外的预训练模型模板、示例应用程序、改进的文档、QA测试和错误提交。

与此同时，SensiML将继续提供其现有的托管云SaaS服务计划，并为希望获得更高支持水平的客户提供TinyML模型开发的用户咨询和定制工程服务。与RedHat的Linux商业模式类似，SensiML将继续在双重许可策略下提供传统的企业许可证选项。我们相信，SensiML的支持、技术使用的全力支持、互补产品和云服务管理有足够的价值，可以为很大一部分用户群体提供服务，同时为那些倾向于自己实施工具的人提供免费的开源替代方案。

我分享了这个愿景，你们如何参与其中？

在接下来的几周内，SensiML将提供有关我们的开源项目GitHub repo和OSS项目网站的最新信息，这些网站计划于今年夏初推出。

有兴趣参与的人（无论是作为用户还是贡献者）可以收到有关我们项目启动进度的更新，就他们认为最重要的改进提供反馈，并在我们的正式发布日期之前抢先访问代码库。要注册请扫描下面的二维码并提交您的联系信息。

我们希望您能像我们一样发现这个消息令人兴奋和潜在的影响力。只有通过开发人员和用户社区的集体利益，TinyML工具的这样一个开源项目才能发展壮大，使所有参与者受益！

打开APP阅读更多精彩内容