一个在GitHub上一个开源的鉴黄图像数据集

电子说

1.3w人已加入

描述

前方高能预警,非战斗人士请火速撤离……

今天给大家介绍一个在 GitHub 上一个开源的鉴黄图像数据集,它拥有 158万的数据量,叫做 NSFW data source URLs,目前该项目已收获 918 star 了。

项目地址:

https://github.com/EBazarov/nsfw_data_source_urls

数据集

在 raw_data 文件夹里,可以找到不同的 .txt 格式的文档,每个文档都含有一组 URL,以下是关于该数据集的一些统计信息:

159个 不同的类别

158.9331 万个 URL

下载并清洗后大约有 500GB,或者说有 130 万张 NSFW 图像

以下为项目中图片截图示例:

注意事项:

1. 建议下载后清洗下数据集,例如:

删除重复图片

移动被禁止/删除掉的图片(它们有一个特殊的图像占位符)

找出损坏的数据并将其删除

2. 注意噪声,一些资源提供了 NSFW 和中性图像的高度混合数据。

3. 该库还可以帮助检索 NSFW 图像,针对中性图像没有专用的 URL。

值得一提的是,在该项目之前还有一个类似的开源项目 nsfw_data_scrapper,里面有 22 万张图像,同样也可以用来检测或训练鉴黄系统。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分