用数据,对 刘恺威事件 与 林丹事件 进行对比分析

    前段时间,刘恺威疑似出轨的事件还没有完,林丹倒是承认被抓拍的事情是真的,并且当众道歉了。最近名人们都喜欢出轨,咱们就来分析一下,林丹事件和刘恺威事件之间,粉丝们的评论,有什么共同性,又有什么差异性。         我们要分析的样本,就是下面两条微博了。首先来抓取这两条微博的最新评论,这个我们之前的博客有介绍,大家需要可以去翻阅,这里我就不重复粘贴了。&nbs...... >>查看全文

2016-11-24 16:02:11


大学生,如何规划机器学习路线

开篇    最近和大学生交流比较多,在交流的过程中,发现了很多在读大学的同学们,都对大数据非常感兴趣,一是社会上的大企业,例如BAT,无一例外的都在努力地拓展机器学习的业务,二是大学中,每个学科的研究,都不断地往大数据靠拢。他们自己在接触大数据相关技术和案例的过程中,和我讨论了很多问题,下面我一一整理出来,和大家分享。        前面的问题回顾:《非计算机学生,在大数据中更...... >>查看全文

2017-06-14 12:45:17


如何优雅地使用R实现行转列

网上有网友问到:在一个文件夹下,收集了几个股票数据的文件,对应的股票名称为第2列,对应的时间为第3列,对应的收盘价为第10列。 现在想做到下图所示的效果,也就是行为时间,列为对应的股票的收盘价,如何使用R语言来实现呢? 其实非常地简单,这个就是我们《R数据分析实战》(http://www.datastudy.cc/to/48,请右键在新标签页中打开链接)中的交叉分析法的一个应用,下面我们来演示一下如何实现这个效果。 数据文件,请大家从百度盘中自行下载: 链接: http://pan....... >>查看全文

2016-10-28 09:50:39


台风妮妲微博热点事件数据分析

上次我们分析陈老师撕B志玲姐姐的微博数据,受到大家的热烈欢迎,于是,今天我们所在的广东地区,受到了妮妲台风的肆虐,我们于是现在来分析一下,这个事件大家是一个什么样的态度。   首先,我们来看看词云分析。  我们可以看到,词云的中心,当仁不让的自然是核心词台风,我们可以看到,妮(ni)妲(da)这个词可不好打字,因此,它出现在左上角附近,并没有台风出现次数多。 然后从关键词中,我们发现,大家关心的是广东省的广州、深圳、以及惠州等地区。其次就是表示大,风,雨,吹,以及提醒大家注...... >>查看全文

2017-02-16 16:22:57


用Python读红楼梦之——一、词云绘制

Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具,下面我们来看看如何使用Python,来读红楼梦,本文是《用Python读红楼梦》系列文章的第一篇,绘制小说中的词云。 首先当然要导入我们需要用到的包,下面import进来的包,都是我们将在接下来的程序中使用到的包,如果大家还没有安装它们,那么尽快安装它们吧。 import jieba import numpy import&...... >>查看全文

2017-02-16 16:24:21


深度解析——什么是数据分析

    趁着大过年的,这段时间很悠闲,咱们来思考一个深刻的问题:数据分析究竟是什么?这是一个坑,跳进去很容易出不来,但是,自己如果不学着从这个坑里面爬出来,以后遇上别人给你挖一个类似的坑,就很可能跳不过去。    像“数据分析究竟是什么?”这种类似的问题有很多,比如:1、在面试的时候被问到:谈谈你对数据分析的理解,你为什么选择这个职位,这个职位长期发展的前景如何?2、各种数据分析群里的讨论:Data Sci...... >>查看全文

2018-02-22 11:53:00


陈老师撕B志玲姐姐的热门微博数据分析

昨晚陈老师不知因何事忽然在微博上骂女神志玲姐姐,引起来网友们的热闹围观,导致前几天风风火火的汪峰的前妻吸毒的事件,顿时落下帷幕,汪峰老师好不容易上了一次头条,就这么被硬生生的扯下来了。    当然,这条微博火了之后,陈老师把它删了,只留下这条了,我们接下来的分析,都是基于这条微博的评论的。 好,开篇写好了,我们直接进入主题,作为一名技术宅,如何使用R语言,来分析一下,这个热点事件背后的数据意义。 首先当然是要去抓取数据,这里因为笔者有一个网站,它通过了新浪微博开放平台的审核...... >>查看全文

2017-03-21 13:22:16


如何使用R语言连接MySQL数据库

有网友问到,如何在R中调用MySQL数据库中的数据呢? 刚刚好我在做IP归属地分析的时候,用到这么一个功能,就用这个功能作为案例吧。 我实现的功能是这样子的,我有一个t_web_visit_log数据表,就是本博客访问过的IP地址,我想看看网友们都来自哪里,于是我就调用淘宝的IP库,获取该IP对应的地域信息,我把它保存到t_dim_ip_info表中。 每次我分析数据之前,我就要查一下,哪些新网友的数据是还没有的,我就把它加到t_dim_ip_info表中,这个程序就是实现这个功能的。 #加载...... >>查看全文

2016-12-20 11:05:07


使用社会网络分析,探索新浪微博热点事件的背后

一、数据收集:        根据关键字“男友力挺女友辞职后反悔”,对新浪微博的热门话题进行搜索,得到热门微博后,再根据热门微博获取所有的回复和转发。    代码片段 根据关键字搜集热门微博代码片段 根据热门微博,获取对应的评论代码片段 根据热门微博,获取对应的转发    经过这三步的处理后,得到以下数据:&...... >>查看全文

2017-08-20 20:25:46

每页 10 条 1 2 共 10 篇文章