数据科学家面临的常见挑战和方法

作为数据科学家，我曾在许多公司工作，遇到过许多问题和挑战。实际上，许多人会遇到这些挑战，并且针对不同情况将有多种可行的解决方案。
我将谈谈我所面临的一些最常见或最困难的挑战。对业务问题的错误描述只要一名工作人员犯了一个错误，您就将面临这一挑战。
数据科学专家的主要任务之一是描述业务问题，这就是为什么首先使用数据科学的原因。实际上，在大多数情况下，描述不是自己的数据科学专家，而是整个团队。
团队通常包括利益相关者，例如产品经理。但是，团队内部可能存在技术上的脱节，并且任何一方都可能不恰当地描述业务问题。
产品经理可能会说：“我们必须提出更多建议，以便每个人都可以购买更多”，而数据科学专家可能会说：“向所有人推荐产品时，我们必须拥有95％的Grasp。”这两个描述总体上都不错，但是都不够详细，也没有概述问题。
问题描述是从中找到解决方案，但它本身并不是解决方案。以下是更好的业务问题描述问题的示例：“普通客户每个订单只购买一件商品。
”就这么简单。最初，双方都试图使描述复杂化，但是现在这样做更加有效。
尽管没有解决方案，但每个人都可以理解这个简单易懂的描述。示例说明显示一件商品是不够的，因此解决方案可能是如何使客户更有可能购买一件以上的商品。
一种数据科学解决方案是使用机器学习推荐系统。重要的是不要在工作中有远见，而要专注于眼前的实际问题。
数据失衡真正处理数据的任何人都会遇到数据失衡的情况。例如，遇到分类问题时，可以使用逻辑回归为新数据分配0或1的值。
预期目标变量的50％概率分别为0和1。但是，结果是完全出乎意料的。
如果尝试将新动物分类为狗或猫，则每只猫和狗都需要1000列训练数据。这样，该模型足以区分两者之间的差异。
如果训练数据中有1900只猫和100只狗，那么可能会误解为大多数新动物都是猫，这是一个非常普遍的问题。可能的解决方案是使用其他可以增强部分功能的机器学习算法，或者创建新的综合数据。
有一种称为不平衡学习的技术，可以通过以下特定方法进行过采样：ADASYN算法（AdaptiveSynthetic，自适应综合过采样）BorderlineSMOTE算法KMeansSMOTE算法RandomOverSampler算法SMOTNC算法SVMSMOTE算法（NominalandContinuous）这些过采样方法都非常有效并且可以解决数据不平衡的问题。还有很多方法，例如欠采样，这两种方法的组合，组合方法Keras和TensorFlow批处理生成器。
以下是过采样操作的示例：绘制二维视图，绘制已知数据点，选择已知点，找到最近的邻居，在相邻点和原始数据点之间绘制一条线并随机放置针脚在这些线上，这是新合成的过采样数据。为某些机器算法功能库（例如RandomForest）的参数指定均衡数据也非常简单。
通过过度拟合建立的数据科学模型对训练数据的分析太彻底，并且会发生过度拟合。该模型接收训练数据中的详细信息，包括数据中的噪声，因此它太具体了，在预测新的真实数据时这是没有用的。
结果，该模型无法做出正确的推论和概括。该模型的目的是处理以前从未见过的数据，因此有必要找到一种处理新数据并将其投入使用的方法。
交叉验证会删除重复的或类似的功能，并尽早停止。正则化合奏。
非参数机器学习算法。使用更多数据进行训练。
功能不足。在制定业务问题描述之后，通常需要开始寻找数据，然后形成自己的特征并将其输入到数据科学模型中作为训练数据。
您对公司的数据表了解得越多，您就会发现其他列也可以用作新功能。但是，在开始时，还有另一种解决方案来解决功能有限的问题。
构造当前测量值的统计信息。例如，如果它具有＆qu的特征

相关文章