如何在线构建共享机器学习模型

电子说

1.2w人已加入

描述

近几年,机器学习迎来了前所未有的大爆发,几乎随处可见。今天就来介绍一下如何在线构建共享机器学习模型。

Jupyternotebooks是用来建立机器学习模型最常见的环境之一,它是本地开发机器学习的好工具,但也有缺点,它很难在生成代码上共享与协作。

你不得不进行一系列合理设置,非python用户尤甚,包括需要设置python环境,安装Jupyter及其依赖项以及可能需要的其他python软件包。

有点麻烦?有的工具可以直接在浏览器中运行开发notebooks中的python代码。本文就将介绍两个这样的工具。

GoogleColaboratory

Google Colaboratory,通常被称为colab,由谷歌开发,允许所有人在浏览器中创建并运行python代码。其内置许多标准机器学习和数据科学库,包括pandas和scikit-learn,还可以安装几乎其他所有python库,以便在每个notebook中使用。

若想访问colab需注册谷歌账户,可免费访问notebook环境和计算资源,包括GPU。

来快速演示一遍:

登录谷歌帐户后,进入谷歌云盘(Google drive)并选择新的Google Colaboratory。

这样就新建了一个空白notebook。

可以通过运行pip freeze 来查看预安装软件包。

如果需要安装尚无法获取的软件包,可以通过运行 pip install package来完成。

导入数据有许多种方法,包括直接从谷歌云盘中加载文件。

那么怎样从本地CSV文件导入数据呢?

首先运行此代码。

from google.colab importfilesuploaded = files.upload()

然后就能看到一个按钮,可以从本地系统任意位置选择文件。

现在就可以自由编写代码来创建机器学习模型。

Googlecolab notebooks可以通过链接共享,类似于谷歌文档共享,链接接收者可以运行并编辑代码。

Kaggle kernels

Kagglekernels需要注册账户,但也是完全免费使用。与Googlecolab notebooks非常相似,不过其特有优点是可以进行版本控制。

一旦创建好帐户,就可以导航到网站的kernels区域,然后选择新的Notebook。

与colab类似,Kaggle kernels提供了许多python常用标准库,可以通过使用pip freeze查看。在导入其他库方面也采用了与colab完全相同的方法,安装软件包也如此。

加载数据非常简单。首先,选择文件(File),然后选择添加或上传数据(Add orupload data)。

现在会看到一些选项,可以使用Kaggle数据集(Datasets)、kernel输出文件(Kernel Output Files)或上传到本地CSV文件。

前面说到Kaggle有内置版本控制,也就是说可以向自己的kernel或其他人的kernel提交更改,并在需要时追踪并恢复到以前的版本,这样有利于协同合作。

笔者经常使用浏览器中的notebooks来展示工作,特别是那些不会使用Jupyter Notebooks或Python的非数据科学家。这两种工具也是了解机器学习和数据科学的好方法,而且不需要大费周折在本地设置python和notebook环境。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分