数据科学家面临的常见挑战和方法
作为数据科学家,我曾在许多公司工作,遇到过许多问题和挑战。
实际上,许多人会遇到这些挑战,并且针对不同情况将有多种可行的解决方案。
我将谈谈我所面临的一些最常见或最困难的挑战。
对业务问题的错误描述只要一名工作人员犯了一个错误,您就将面临这一挑战。
数据科学专家的主要任务之一是描述业务问题,这就是为什么首先使用数据科学的原因。
实际上,在大多数情况下,描述不是自己的数据科学专家,而是整个团队。
团队通常包括利益相关者,例如产品经理。
但是,团队内部可能存在技术上的脱节,并且任何一方都可能不恰当地描述业务问题。
产品经理可能会说:“我们必须提出更多建议,以便每个人都可以购买更多”,而数据科学专家可能会说:“向所有人推荐产品时,我们必须拥有95%的Grasp”。
这两个描述总体上都不错,但是都不够详细,也没有概述问题。
问题描述是从中找到解决方案,但它本身并不是解决方案。
以下是更好的业务问题描述问题的示例:“普通客户每个订单只购买一件商品”。
就这么简单。
最初,双方都试图使描述复杂化,但是现在这样做更加有效。
尽管没有解决方案,但每个人都可以理解这个简单易懂的描述。
示例说明显示一件商品是不够的,因此解决方案可能是如何使客户更有可能购买一件以上的商品。
一种数据科学解决方案是使用机器学习推荐系统。
重要的是不要在工作中有远见,而要专注于眼前的实际问题。
数据失衡真正处理数据的任何人都会遇到数据失衡的情况。
例如,遇到分类问题时,可以使用逻辑回归为新数据分配0或1的值。
预期目标变量的50%概率分别为0和1。
但是,结果是完全出乎意料的。
如果尝试将新动物分类为狗或猫,则每只猫和狗都需要1000列训练数据。
这样,该模型足以区分两者之间的差异。
如果训练数据中有1900只猫和100只狗,那么可能会误解为大多数新动物都是猫,这是一个非常普遍的问题。
可能的解决方案是使用其他可以增强部分功能的机器学习算法,或者创建新的综合数据。
有一种称为不平衡学习的技术,可以通过以下特定方法进行过采样:ADASYN算法(AdaptiveSynthetic,自适应综合过采样)BorderlineSMOTE算法KMeansSMOTE算法RandomOverSampler算法SMOTNC算法SVMSMOTE算法(NominalandContinuous)这些过采样方法都非常有效并且可以解决数据不平衡的问题。
还有很多方法,例如欠采样,这两种方法的组合,组合方法Keras和TensorFlow批处理生成器。
以下是过采样操作的示例:绘制二维视图,绘制已知数据点,选择已知点,找到最近的邻居,在相邻点和原始数据点之间绘制一条线并随机放置针脚在这些线上,这是新合成的过采样数据。
为某些机器算法功能库(例如RandomForest)的参数指定均衡数据也非常简单。
通过过度拟合建立的数据科学模型对训练数据的分析太彻底,并且会发生过度拟合。
该模型接收训练数据中的详细信息,包括数据中的噪声,因此它太具体了,在预测新的真实数据时这是没有用的。
结果,该模型无法做出正确的推论和概括。
该模型的目的是处理以前从未见过的数据,因此有必要找到一种处理新数据并将其投入使用的方法。
交叉验证会删除重复的或类似的功能,并尽早停止。
正则化合奏。
非参数机器学习算法。
使用更多数据进行训练。
功能不足。
在制定业务问题描述之后,通常需要开始寻找数据,然后形成自己的特征并将其输入到数据科学模型中作为训练数据。
您对公司的数据表了解得越多,您就会发现其他列也可以用作新功能。
但是,在开始时,还有另一种解决方案来解决功能有限的问题。
构造当前测量值的统计信息。
例如,如果它具有&qu的特征