近日GitHub上悄然出现一个内含20多万張“不可描述”图片的数据集。
这份数据集一共将内容分为5类分别是:
这份资源的贡献者是一位名叫Alexander Kim的数据科学家。
他说这些数据集鈳以用来训练图像分类器,使用CNN做出来的分类器分辨上述的5种图像准确度可以达到91%。
当然这份数据集的价值并不仅限于此。不论是做敏感内容过滤工具(比如鉴黄工具)还是各种图像生成模型,相关的数据集都是必不可少的
如果你有什么想法,可以用这个数据集来練手了
这个数据集资源,现在已经在GitHub Trending上排名第3
数据集中,一共有227995张图片
这些图片,是以链接的方式呈现的以sexy类别为例:
这些链接並不都是完全有效的,也有一些会出现404的情况
不要问我是怎么知道的……
数据集的使用,主要依靠一些脚本(位于scripts目录下)分别是:
-
量子位AI社群开始招募啦,欢迎对AI感兴趣的同学在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;
此外量子位专业細分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员
进专业群请在量子位公众号(QbitAI)对话界面回复關键字“专业群”,获取入群方式(专业群审核较严,敬请谅解)
量子位正在招募编辑/记者工作地点在北京中关村。期待有才气、有熱情的同学加入我们!相关细节请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字
?'?' ? 追踪AI技术和产品新动态
喜欢就点「好看」吧 !