这是场景:
我们有一个网站供学生创建电子档案馆,就像一个个人资料页面,您可以将其添加到您的项目中。
对于每个学生档案袋,我们将邀请一名教育工作者对档案袋进行审查,并根据档案袋的内容为其评分。因此,将一组分数相加后得出的总分数将与每个学生档案袋相关联。
因此,我们拥有与投资组合数据关联的分数数据,并且我们希望将此数据用作机器学习算法的监督训练数据。这样一来,计算机就可以检查成千上万个此类案例,寻找模式,提供见解并能够预测其他投资组合的得分。
这是我们为每个人收集的数据:
**Portfolio data:**
About: 'Text paragraph data written by the student about themselves'
Skills: 'Text Bullet list of skills'
Career Interests: 'Text Bullet list of career interests'
Work Experience: 'Text paragraph'
Education History: 'Student fills out Universities, majors, gpa, and dates attended'
Courses: 'Text bullet list of courses'
Interests: 'Text paragraph data written by student about interests'
Works: 'Each student adds works to there portfolio and enter the following data'
Work Title: 'Text title'
Attachments: 'File and documents attached to the portfolio (jpg, doc, pdf, youtube, dropbox, etc.)
Work description: 'Text Description of work'
category of works: 'Selected from list of categories'
tags: 'list of test tags student adds to work'
My contribution: 'Text description of students contribution to project'
**Score data we are collecting for each portfolio, each key area rated from 1-100:**
Content completeness:
Selection of Works:
Reflection:
Academic Concepts:
Presentation and Appearance:
Layout and Readability:
Use of Multimedia:
Audience:
Organization of content:
Written Communication:
TOTAL SCORE:
我们计划随着时间的推移收集成千上万的学生作品集和分数。我们可以使用哪种算法来分析这些数据,以找到得分相似的投资组合之间的相关性?然后使用这些数据来预测一旦学生填写了一份档案袋,该档案袋将有多成功。如果有任何令人困惑的地方,或者您需要更多信息,请告诉我,非常感谢!
您在这里要解决很多问题。
首先想到的是进行特征提取,然后将回归应用于预测分数。现在,由于您不仅在使用投资组合中的文本信息,所以您将需要的不仅仅是文本功能。我不知道哪些功能可以帮助您将产品组合的“外观和外观”与其得分相关联。一种方法是获取颜色,字体,字体大小信息并将其表示为要素。为了从文本中获得见解,您可以使用向量空间模型来表示文本。
我会尽快回覆,并写出详细的答案。很抱歉,如果现在所有这些听起来太含糊。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句