基于Spark的案例：同义词识别

发布时间：2024-06-17 10:01

同义词识别

一、业务场景
二、数据集说明
三、操作步骤
- 阶段一、启动HDFS、Spark集群服务和zeppelin服务器
- 阶段二、准备案例中用到的数据集
- 阶段三、对数据集进行探索和分析
- 阶段四、自我练习

未经许可，禁止以任何形式转载，若要引用，请标注链接地址
全文共计2844字，阅读大概需要3分钟

一、业务场景

在机器学习中，有时会遇到同义词识别问题。现需要使用Spark ML库来解决同义词识别问题。

二、数据集说明

本案例所使用的数据集为纯文本文件，说明如下：
数据集路径：/data/dataset/ml/synonymous.txt

三、操作步骤

阶段一、启动HDFS、Spark集群服务和zeppelin服务器

1、启动HDFS集群
在Linux终端窗口下，输入以下命令，启动HDFS集群：

1.	$ start-dfs.sh

2、启动Spark集群
在Linux终端窗口下，输入以下命令，启动Spark集群：

1.	$ cd /opt/spark
2.	$ ./sbin/start-all.sh

3、启动zeppelin服务器
在Linux终端窗口下，输入以下命令，启动zeppelin服务器：

1.	$ zeppelin-daemon.sh start

4、验证以上进程是否已启动
在Linux终端窗口下，输入以下命令，查看启动的服务进程：

1.	$ jps

如果显示以下6个进程，则说明各项服务启动正常，可以继续下一阶段。

1.	2288 NameNode
2.	2402 DataNode
3.	2603 SecondaryNameNode
4.	2769 Master
5.	2891 Worker
6.	2984 ZeppelinServer

阶段二、准备案例中用到的数据集

1、将本案例要用到的数据集上传到HDFS文件系统的/data/dataset/目录下。在Linux终端窗口下，输入以下命令：

1.	$ hdfs dfs -mkdir -p /data/dataset
2.	$ hdfs dfs -put /data/dataset/ml/synonymous.txt /data/dataset/

2、在Linux终端窗口下，输入以下命令，查看HDFS上是否已经上传了该数据集：

1.	$ hdfs dfs -ls /data/dataset/

这时应该看到数据集文件synonymous.txt已经上传到了HDFS的/data/dataset/目录下。

阶段三、对数据集进行探索和分析

1、新建一个zeppelin notebook文件，并命名为”tyc_project”。
2、加载数据集。在notebook单元格中，输入以下代码：

1.	val filePath = "hdfs://localhost:9000/data/dataset/synonymous.txt"
2.	val synonymousRDD = sc.textFile(filePath)
3.	synonymousRDD.collect.foreach(println)

同时按下【Shift+Enter】键，执行以上代码，输出内容如下：

Unified data analytics engine Spark
People use Hive for data analytics
MapReduce is not fading away
mysql sqlserver and oracle all is sql

3、将数据集从RDD转换为DataFrame。在notebook单元格中，输入以下代码：

1.	// 从RDD转换为DataFrame
2.	val documentRDD = synonymousRDD.map(line => line.split(" "))
3.	val documentDF = documentRDD.toDF("word")
4.	    　
5.	// 显示
6.	documentDF.show(false)