新闻资讯

使用数据挖掘技术检测社交媒体上的知识

一、简介

毫无疑问,社交媒体的切实影响正在使地球变成一个小村庄。它将所有年龄、种族和国籍的个人聚集在一起,使他们能够交流和分享想法、记忆和情感以及照片、视频和兴趣。这使得各行业的公司都可以利用社交媒体提供的信息来营销、从中获利、分析、学习和改进其业务。

社交媒体数据杂乱无章,以多种格式呈现,包括文本、语音、照片和视频。此外,社交媒体平台提供大量连续的实时数据,使得传统的统计方法不适合分析如此大量的数据[ 1 ]。

社交媒体对我们的日常生活极其重要。最流行的社交媒体平台是 Facebook、Twitter、WhatsApp 和 Instagram 等网站,许多企业尝试使用大量社交媒体数据来利用这种社会现象来服务其利益 [ 2 ]。

当今的信息和通信技术正在迅速发展。据 statista.com 统计,截至 2023 年 4 月,全球社交媒体用户数量达到 48 亿 [ 3 ]。这表明社交媒体应用程序的使用增长非常迅速。得益于应用程序和社交媒体用户,现在可以以各种格式获取大量数据,包括文本、视频、音乐、照片和图形。

这些数据保存在多种存储库中。由于数据的涌入,人类正遭受一种被称为“数据丰富和信息匮乏”的新状况的困扰。数据检索不足以最大限度地利用该资源。研究人员面临的实际困难是总结、分析、提取信息,并找到数据之间的模式和联系。所有这些问题的答案就是“数据挖掘”[ 4 ]。

因此,通过检查社交媒体平台上发布的帖子来研究用户的活动、兴趣、行为和意见可以提取知识。因此,新的机器学习应用被指定用于在各种应用领域中提取不同应用领域的有用知识,例如趋势识别、社交媒体分析、模式挖掘、情感分析和观点挖掘[ 5 ]。

在当今竞争激烈的世界中,知识已发展成为许多公司的关键来源[ 6 ]。

因此,数据挖掘技术对于解决从社交媒体数据中发现有价值、准确和有用的知识的问题非常有用,任何部门都需要通过其周围的大量数据来实现其目标。

2. 数据挖掘

数据挖掘是使用算法来识别数据模式并提供可用于决策的知识[ 7 ]。

例如,如果一家商业公司想要为特定产品做广告并增加其销售额,则可以从其客户数据中受益,通过使用数据挖掘来找到他们的模式、分类或行为。

因此,数据挖掘可以用来预测这些信息[ 8 ]。

数据挖掘是指从大量数据中发现模式或规则的知识,或者利用计算机学习技术从数据中分析和提取知识的过程。

从大量原材料中提取少量有价值的金块的过程称为采矿(图 1)。

许多其他短语的含义与数据挖掘相似或略有不同,例如“数据中的知识挖掘、知识提取、数据/模式分析、数据考古和数据挖掘”。

数据挖掘是另一个广泛使用的术语“数据知识发现(KDD)”的同义词。

另一方面,其他人则将数据挖掘描述为知识发现过程中的一个必要阶段。

图 2显示了知识发现的过程,包括以下一系列迭代步骤:

1)数据清理(消除混乱和噪声数据);

2)数据集成(允许合并来自多个来源的数据);

3)数据选择(在数据库中搜索与分析任务相关的数据);

4) 数据转换(例如,通过执行汇总或聚合程序来合并数据或将其转换为可挖掘的格式);

5)数据挖掘(使用智能技术提取数据模式的基本步骤);

6)模式评估(基于各种标准,发现代表知识的真正有趣的模式);

7)知识表示(这里,使用可视化和知​​识表示技术向用户提供挖掘的知识)。

这种观点认为,虽然数据挖掘是该过程中的一个重要阶段,因为它揭示了隐藏的模式以供审查,但它只是整个过程中的一个步骤。我们同意知识发现过程中的一步是数据挖掘。在行业、媒体和数据库研究环境中,从数据中发现知识的长期观点正在被“数据挖掘”一词所取代[ 9 ]。

利用数据挖掘技术提取的有用信息,可以应用于不同领域的适当决策。在技​​术方面,发现大型关系数据库中的模式或相关性被称为数据挖掘,使用人工智能、统计学、机器学习和数据库系统的交叉方法[ 4 ]。

3.社交媒体上的数据挖掘

什么是社交媒体?

社交媒体是需要互联网连接才能访问并允许用户通过用户生成的内容相互通信和交互的应用程序[ 10 ]。沟通在我们的日常生活中很重要。沟通在这个时代得到了发展和变化,并扩展到数字通信,社交媒体平台主导了数字空间。

重要的社交媒体发展是专注于商业的社交网络平台的广泛采用,例如 Facebook、Instagram、Linkedln、Pinterest、Flickr Tumblr、Twitter 等 [ 11 ]。

社交媒体中的数据挖掘,它使用原始社交媒体数据来分析并从中提取模式、相关性和趋势。

例如,如果一个特定实体,无论是私人公司还是公共公司,想要设计其战略或提供新产品或服务,它都会在社交媒体上使用数据挖掘技术来访问在线行为、内容共享、人际交流、在线购买行为、等[ 4 ]。

社交网站的用户可以通过分享想法、数字图像、视频、帖子以及有关在线或现实世界中发生的活动和事件的信息来与网络中的人们进行交流。成员也许能够与任何其他成员取得联系,具体取决于社交网络平台。在其他情况下,成员可以与他们所连接的任何人取得联系,然后再与该连接所连接的任何人取得联系,依此类推 [ 2 ]。

随着人们将社交网络应用程序融入日常生活,它们将迅速发展壮大。

可以使用数据挖掘技术来挖掘大型社交媒体数据集,这有可能进一步增强常见搜索引擎的搜索结果,为企业提供有针对性的营销,帮助心理学家研究行为,为社会学家提供对社会结构的新见解,个性化为用户提供网络服务,甚至帮助我们所有人识别和防止垃圾邮件。此外,数据的开放访问为研究人员提供了前所未有的丰富知识,可用于优化数据挖掘方法并提高性能。社交媒体是开发和测试新产品的有吸引力的数据源数据挖掘技术,数据挖掘领域本身的进步取决于大数据集,有机会了解一个人在网络中的位置如何影响从他们的品味到情绪再到健康的一切,是数据挖掘社交的激励因素之一社交网站[ 2 ]。

从 Facebook 中提取知识

2023年15大社交媒体网站和应用程序如图3所示,显示在其他应用程序中,Facebook应用程序的使用率最高。因此,我想在本文中讨论如何从这个应用程序中提取知识。

社交媒体平台的用户可以使用多种方式相互交流,包括聊天、论坛、评论等。因此,重要的知识被用户共享和学习。这些社交网站上的材料可以简单地描述为模糊且非结构化的。在日常对话中,拼写、语法和句子结构通常被忽视。这可能会导致各种歧义,从而使得从大数据集中分析和提取数据模式变得具有挑战性。因此,应该分析 Facebook 文本数据,努力从中发现有价值的信息并以各种方式呈现。其中一项研究就是一个例子,从 16 个新闻频道的 Facebook 页面中提取并检查了 3815 个帖子。在收集的数据上,使用了各种文本挖掘技术。13 ]。

另一项研究使用数据挖掘技术检测虚假 Facebook 个人资料。有必要明确几个要点。为了让模型做出决定,它首先依赖于信息属性。

在图4中描述了这些属性。可以看出,“共同朋友”属性的信息量最多,而“介绍”属性的信息量最少。我们观察到的第二件事是,有几个属性真实的和欺诈的个人资料都是一样的。

例如,虚假个人资料通常没有标签、没有帖子,也没有大量的点赞活动。不幸的是,大量的真实轮廓具有相同的值,这使得分类方法变得混乱。

Rapid Miner Studio 8.0.1 用于运行一项实验来评估检测虚假 Facebook 个人资料的能力。基于 982 个配置文件(781 个真实配置文件和 201 个欺诈配置文件)的数据集,确定模型的准确性。在每次试验中,有监督算法都优于无监督算法,更特别的是,ID3 决策树在所有方法中表现出最高的准确性。

显示与两个类(假的和真)相关的干扰属性的直方图。监督算法使用 k-NN 估计器,从而获得很高的准确率。

在图 5中,我们观察到干扰因子最高的“群组”和“喜欢”属性包含了大部分缺失信息。通过从计算中排除这些属性,k-NN 提高了准确率 [ 14 ]。

使用数据挖掘技术,例如可视化、分类、聚类、词云和信息检索,使用报纸数据另一项研究中也展示了 Facebook 页面。

当前可用的大量非结构化文本与人类语言的分析和解释之间的关系是 NLP 中最热门的两个主题。

尽管互联网阿拉伯语用户不断增长,但自然评估阿拉伯语数字资产的系统并不像分析英语那样容易使用。有些技术旨在寻找有趣的知识并以各种形式提供它。

对 24 家阿拉伯海湾报纸 Facebook 页面上的 62327 条帖子进行了调查和评估。结果显示,所有报纸中最常关联的词语是“Allah ???”,其次是“Emirates ???”、“Year ???”、“Good ???”、“Save ??????”、“Blessed ??????”和“ Graces স্লা”、“Happy๑รร”、“Peace ๑รรร”和“live ๑รร”。

此外,Albayan News(阿联酋)是分享 Facebook 帖子最多的报纸,其次是 Alshabiba(阿曼)、Alkhaleej(阿联酋)和 Emarat Alyoum(阿联酋)。阿联酋是在 Facebook 上分享帖子最多的国家,其次是阿曼和沙特阿拉伯。

这些结果的出现使用数据挖掘技术进行文本挖掘继续受到更多的研究关注[ 15 ]。

4.数据挖掘技术

多种数据挖掘技术,包括分类、模式发现、摘要和规则发现,可用于提取知识[ 16 ]。

数据挖掘技术有多种类型:

表征、分类、回归、关联、聚类、变化检测、偏差检测、链接分析和序列模式挖掘。

社交网络在商业中的使用可以在各个领域看到,包括共同创新、客户服务、一般广告、扩大口头广告、营销研究、计划生成和新开发、宣传、员工沟通和声誉管理[ 2 ]。

(图 6 ) 显示了研究人员用于社交媒体的一些数据挖掘技术,根据本文,SVM、BN 和 DT 是社交媒体领域应用最广泛的算法 [ 1 ]。

表 1总结了数据挖掘算法的优点和局限性 [ 4 ]。

与社交网站相关的最常见的数据挖掘应用程序包括:

· 群体检测——查找和识别群体是社交网站最受欢迎的数据挖掘用途之一。一般来说,社交网站上使用的群体检测基于检查网络结构并识别彼此互动比与其他用户互动更频繁的人。了解一个人属于哪些组织可能会提供对该人的深入了解,

他们可能感兴趣的活动、产品和服务。

· 群组分析 - 由于社交媒体网站上有数百万个群组,因此尝试手动回答每个群组的问题是不现实的。能够出于各种原因自动分析一个群体是很有帮助的,从简单的科学原因到产品、服务和概念的有针对性的营销。

推荐系统——推荐系统分析社交网络数据,并为用户加入新群组或结交新朋友提供建议。向个人推荐群组成员身份的能力对于想要拥有额外成员的群组来说是有利的,并且对于想要寻找具有相似兴趣或目标的其他个人或群组的个人来说可以是有帮助的。如果没有自动化系统,处理如此大量的人和团体几乎是不可能的。此外,群体特征会随着时间而变化。由于这些原因,数据挖掘算法驱动向用户提出固有的推荐。社交网站上的自动推荐,使用户能够快速建立和发展在线社交网络,而无需付出太多努力,2 ]。

5. 结论

本文讨论了数据挖掘科学的巨大需求、其重要性以及其技术的使用和开发,以通过提取有助于数据挖掘的知识,从我们周围社交媒体中存在的大量数据中尽可能受益。在所有领域的发展过程中,数据挖掘提取知识并分析数据模式。该论文描述了数据挖掘只是知识发现过程中的一个必要阶段,并谈到了数据挖掘和社交媒体挖掘技术中使用的技术类型。通过这项研究,我们发现 Facebook 应用程序在 2023 年的使用率是其他应用程序中最高的,本文展示了用于从该应用程序中提取知识的技术和算法以及其中的一些示例。

发布日期:2024-04-09