Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 3|回復: 0

根据相似性对数据进行分

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2024-3-20 15:20:07 | 顯示全部樓層 |閱讀模式
聚类(Clustering)组。 回归预测一个连续值变量。 排序(Ranking)对项目按照相关性或优先级进行排序。 检索(Retrieval)从大量数据中查找与查询相关的信息。 关联规则挖掘)发现变量之间的关联关系。 时序分析预测基于时间序列数据的未来值或趋势。 异常检测(Anomaly Detection)识别数据中的异常或离群值。 其他的一些子任务很多是算法中间过程例如超参优化Embedding等等这些我觉得非算法了解大致用途即可。或者是一些具体业务场景可能用到的例如自然语言处理中的NER句法分析指代消解等等这些根据业务场景需要补充对应知识。


这个方便理解重要性可以举一个四年前的案例。当时的背景是我 阿联酋 WhatsApp 号码 们发现全文检索方案在语音场景的搜索中效果很一般需要重新设计一个语音场景的搜索引擎其中有一个子问题当初我想首先必须了解用户表达的资源的结构化知识是什么样子的例如《战狼》的主演是谁出品公司是啥角色哪些讨喜情节是啥舆论评价如何等等。这样我可以有更多维度的输入最终的输出设计空间就很大。 针对这件事我们觉得需要一个丰富的影视知识图谱然后我们想到以下几个点 比如豆瓣猫眼时光网这种三方网站其实有大量的线上线下影视结构数据影评数据等等甚至微博小红书Twitter等等有相关舆论讨论; 比如腾讯优酷爱奇艺





NetflixHuluHBO等等网站每家有自己版权的影视其中也含有不少独家影视知识信息; 当时和算法负责人合计把多个来源整合到一起就可以得到一份最全的影视知识图谱比如我们有豆瓣的《小猪佩奇》和HBO的《小猪佩奇》把两边字段合并就可以得到更全的《小猪佩奇》知识。 然后合并这一步我们想当然的认为这是一个分类任务因为我只要判断豆瓣的《小猪佩奇》和HBO的《小猪佩奇》是不是一个东西是就合并到一起就可以了。 再把其他的子问题思考加入到这里至少当初我们觉得逻辑上没有任何问题结果做出来我们发现不管怎么优化模型结构和数据效果都做不上去甚至神经网络的效果和用来做demo对比的传统机器学习的效果基本一致。

回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|GameHost抗攻擊論壇

GMT+8, 2025-4-6 18:09 , Processed in 0.029789 second(s), 18 queries .

抗攻擊 by GameHost X3.4

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |