您的位置:首页 > 博客中心 > 前端开发 >

基于网页内容聚类

时间:2022-04-11 14:45

基于网页内容的聚类系统设计

  • 根据给出的一组网页地址,然后对指定的网页按内容聚成3类
  • 网页地址如下所示
    1
    2
    3
    4
    5
    6
    7
    8
    9

** 实现步骤
1、抓取指定网址的源码;
2、解析网页文章内容;
3、对文章内容进行分词,并转换成向量表示(词袋法或TF.IDF);
4、选取合适的距离公式和聚类算法进行聚类,要求聚成3类。(可以用欧式距离或余弦距离等。聚类方法可以考虑用K-means方法等。)

具体要求

本类排行

今日推荐

热门手游