数据科学家面临的常见挑战和方法

作为数据科学家,我曾在许多公司工作,遇到过许多问题和挑战。

实际上,许多人会遇到这些挑战,并且针对不同情况将有多种可行的解决方案。

我将谈谈我所面临的一些最常见或最困难的挑战。

对业务问题的错误描述只要一名工作人员犯了一个错误,您就将面临这一挑战。

数据科学专家的主要任务之一是描述业务问题,这就是为什么首先使用数据科学的原因。

实际上,在大多数情况下,描述不是自己的数据科学专家,而是整个团队。

团队通常包括利益相关者,例如产品经理。

但是,团队内部可能存在技术上的脱节,并且任何一方都可能不恰当地描述业务问题。

产品经理可能会说:“我们必须提出更多建议,以便每个人都可以购买更多”,而数据科学专家可能会说:“向所有人推荐产品时,我们必须拥有95%的Grasp”。

这两个描述总体上都不错,但是都不够详细,也没有概述问题。

问题描述是从中找到解决方案,但它本身并不是解决方案。

以下是更好的业务问题描述问题的示例:“普通客户每个订单只购买一件商品”。

就这么简单。

最初,双方都试图使描述复杂化,但是现在这样做更加有效。

尽管没有解决方案,但每个人都可以理解这个简单易懂的描述。

示例说明显示一件商品是不够的,因此解决方案可能是如何使客户更有可能购买一件以上的商品。

一种数据科学解决方案是使用机器学习推荐系统。

重要的是不要在工作中有远见,而要专注于眼前的实际问题。

数据失衡真正处理数据的任何人都会遇到数据失衡的情况。

例如,遇到分类问题时,可以使用逻辑回归为新数据分配0或1的值。

预期目标变量的50%概率分别为0和1。

但是,结果是完全出乎意料的。

如果尝试将新动物分类为狗或猫,则每只猫和狗都需要1000列训练数据。

这样,该模型足以区分两者之间的差异。

如果训练数据中有1900只猫和100只狗,那么可能会误解为大多数新动物都是猫,这是一个非常普遍的问题。

可能的解决方案是使用其他可以增强部分功能的机器学习算法,或者创建新的综合数据。

有一种称为不平衡学习的技术,可以通过以下特定方法进行过采样:ADASYN算法(AdaptiveSynthetic,自适应综合过采样)BorderlineSMOTE算法KMeansSMOTE算法RandomOverSampler算法SMOTNC算法SVMSMOTE算法(NominalandContinuous)这些过采样方法都非常有效并且可以解决数据不平衡的问题。

还有很多方法,例如欠采样,这两种方法的组合,组合方法Keras和TensorFlow批处理生成器。

以下是过采样操作的示例:绘制二维视图,绘制已知数据点,选择已知点,找到最近的邻居,在相邻点和原始数据点之间绘制一条线并随机放置针脚在这些线上,这是新合成的过采样数据。

为某些机器算法功能库(例如RandomForest)的参数指定均衡数据也非常简单。

通过过度拟合建立的数据科学模型对训练数据的分析太彻底,并且会发生过度拟合。

该模型接收训练数据中的详细信息,包括数据中的噪声,因此它太具体了,在预测新的真实数据时这是没有用的。

结果,该模型无法做出正确的推论和概括。

该模型的目的是处理以前从未见过的数据,因此有必要找到一种处理新数据并将其投入使用的方法。

交叉验证会删除重复的或类似的功能,并尽早停止。

正则化合奏。

非参数机器学习算法。

使用更多数据进行训练。

功能不足。

在制定业务问题描述之后,通常需要开始寻找数据,然后形成自己的特征并将其输入到数据科学模型中作为训练数据。

您对公司的数据表了解得越多,您就会发现其他列也可以用作新功能。

但是,在开始时,还有另一种解决方案来解决功能有限的问题。

构造当前测量值的统计信息。

例如,如果它具有&qu的特征