我们如何在此类数据上使用机器学习算法？

debugcn 发表于 Dev

近点

这是场景：

我们有一个网站供学生创建电子档案馆，就像一个个人资料页面，您可以将其添加到您的项目中。

对于每个学生档案袋，我们将邀请一名教育工作者对档案袋进行审查，并根据档案袋的内容为其评分。因此，将一组分数相加后得出的总分数将与每个学生档案袋相关联。

因此，我们拥有与投资组合数据关联的分数数据，并且我们希望将此数据用作机器学习算法的监督训练数据。这样一来，计算机就可以检查成千上万个此类案例，寻找模式，提供见解并能够预测其他投资组合的得分。

这是我们为每个人收集的数据：

**Portfolio data:**

About: 'Text paragraph data written by the student about themselves'
Skills: 'Text Bullet list of skills'
Career Interests: 'Text Bullet list of career interests'
Work Experience: 'Text paragraph'
Education History: 'Student fills out Universities, majors, gpa, and dates attended'
Courses: 'Text bullet list of courses'
Interests: 'Text paragraph data written by student about interests'
Works: 'Each student adds works to there portfolio and enter the following data'
   Work Title: 'Text title'
   Attachments: 'File and documents attached to the portfolio (jpg, doc, pdf, youtube, dropbox, etc.)
   Work description: 'Text Description of work'
   category of works: 'Selected from list of categories'
   tags: 'list of test tags student adds to work'
   My contribution: 'Text description of students contribution to project'


**Score data we are collecting for each portfolio, each key area rated from 1-100:**

Content completeness:
Selection of Works:
Reflection:
Academic Concepts:
Presentation and Appearance:
Layout and Readability:
Use of Multimedia:
Audience:
Organization of content:
Written Communication:
TOTAL SCORE:

我们计划随着时间的推移收集成千上万的学生作品集和分数。我们可以使用哪种算法来分析这些数据，以找到得分相似的投资组合之间的相关性？然后使用这些数据来预测一旦学生填写了一份档案袋，该档案袋将有多成功。如果有任何令人困惑的地方，或者您需要更多信息，请告诉我，非常感谢！

加内什·艾耶（Ganesh Iyer）

您在这里要解决很多问题。

首先想到的是进行特征提取，然后将回归应用于预测分数。现在，由于您不仅在使用投资组合中的文本信息，所以您将需要的不仅仅是文本功能。我不知道哪些功能可以帮助您将产品组合的“外观和外观”与其得分相关联。一种方法是获取颜色，字体，字体大小信息并将其表示为要素。为了从文本中获得见解，您可以使用向量空间模型来表示文本。

我会尽快回覆，并写出详细的答案。很抱歉，如果现在所有这些听起来太含糊。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-5

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

我们如何在此类数据上使用机器学习算法？

我们如何在此类数据上使用机器学习算法？

我们如何在原始类型上使用.class？

我们如何在原始类型上使用.class？

我如何确定何时在我们的Linux机器上使用交换空间？

我们在机器学习中实际学习的是什么？

我们如何在迁移学习中为我们的培训设置标签？

我们如何在配置文件中使用新启动的机器 IP

对于任何分类算法，我们如何修改训练数据集以在少数类上获得更好的准确性？

如何在实时数据上持续训练我们的预训练模型？

我们是否可以使用相同的随机种子但在不同的机器上针对随机算法重现相同的基准测试结果？

当我们有大量数据时如何在 php 中使用数据表

我们如何在anaconda上安装opencv？

我们如何在JDateChooser上禁用编辑选项？

我们如何在anaconda上安装opencv？

如何在R中堆叠我们的数据

我们如何在ajax中传递数据？

解决问题时，我们如何在此处共享完整的NetLogo模型？

我们如何在红宝石上使用rethinkdb和nobrainer对OR进行过滤？

我们如何在使用BackPlane的Signalr上发送通知以认证用户？

我们如何在Oracle中的where语句上使用布尔值？

我们如何在C＃中使用TcpListener发送数据？

我们如何在不使用插入子句的情况下插入数据？

我们如何使用Swift 3增加或减少tvOS应用程序的亮度？另外，我们如何在此处实现自定义的睡眠计时器？

我们如何使用流星恢复来发布数据

我们如何使用JSTL标签格式数据

我们如何在phantomjs中使用EvaluationAsync

我们如何在Cakephp中使用SoapClient？

我们如何在TreeMap中使用异构密钥

我们如何在iOS中使用LTBouncytextfield库？

我们如何在onChange / onReceive中使用ObservableObject？