呓语 | 杨英明的个人博客

专注于c++、Python,欢迎交流

By

[顶] 大数据报告:知乎百万用户分析

最近用 python 爬虫抓取了知乎用户个人信息(公开信息),去重之后有300+万用户信息(公开信息),为了得到这些数据,还不小心跑崩了一台服务器…… 当然主要是配置太低。

手头有了数据也不能闲着,于是就有了这篇分析报告,这篇报告做了一些浅显的数据分析,主要目的是练练手,大家看个热闹,高手勿笑。

数据量:3,289,329 人。

数据采集工具:分布式 python 爬虫

分析工具:ElasticSearch + Kibana

分析角度包括:地理位置、男女比例、各类排名、所在高校、活跃程度等。

By

[顶] 使用 gogs 搭建私人 git 服务器 | nginx 添加反向代理到二级域名

最近一直在云主机的 linux 系统上开发,久而久之也积累了一些代码,另外有些个人文件夹需要在不同电脑上增量编辑,比如在公司和实验室的电脑上共同维护自己的工作日志,于是迫切需要一个类似于 github 的网站统一管理这些代码和文件夹,而且又不想给别人看。

在这里给大家提供一个搭建个人 git 服务器的思路,我选择的是 gogs。

By

[顶] readfree.me 自动签到脚本获取免费积分

这又是一个 python 脚本,这次的目标是 readfree.me ,一个比较正规的 kindle 电子书资源站。这个网站做了限制,电子书需要积分才能下载,积分有两种获取方式:1.充会员 2.每天领免费积分。本着能免费就不掏腰包的革命原则,我自然而然的把目光瞄到了每天的免费积分上……

脚本目的:每天自动登录 readfree.me 进行签到 ---> 领取积分

By

[顶] 基于Django、WeRoBot的微信公众平台开发(一)

* 该教程基于第三方微信公众号开发框架 WeRoBot
* 该教程在已有Django项目上开发,即在已有网站项目中嵌入一个微信公众平台服务
* 你需要有一个VPS/云服务器

今天突发奇想,打算申请一个微信公众账号玩玩,以便同步博客上的一些文章。

由于在学python,于是打算用Python来开发微信公众号的后台。

为了方便开发,我在github上寻找微信公众号开发的框架,最后锁定了 WeRoBot

下面我将用WeRoBot在一个Django网站项目中开发微信公众号的后台。

废话不多说了,我们开始吧!

By

[顶] Python 学习拾遗

该博文主要适应于python2.7,并没有对py3进行测试。

主要记录学习python过程中容易出现的一些小问题、小错误,相信能给你启发。

By

第一届 Bilibili World 参加体验!

最初知道 Bilibili World(以下简称BW) 是看到 B 站 up 主 LexBurner 发布的一段 BW 的 宣传视频,看完发现坐标竟然就在上海!

拔剑神曲(βίος)的原唱 小林未郁 会去,血洗B站的《极乐净土》舞团 GARNiDELiA 会去,小埋的声优会去,还有我关注的很多 up 主:中国 boy、允星河、神奇陆夫人、黑桐谷歌、祈Inory、Apple君、王自如…… 作为一个关注B站时间也不短的用户,看到这么多平时只在手机屏幕前看的面孔都会来参加,当然不会错过这个机会!

By

记录一次服务器重新部署的经历(网站、gogs和一些脚本)

前段时间由于手贱在服务器上跑爬虫,开了100个进程,内存和cpu双双达到极限值,第二天起来一看,性能曲线赛高,使用 putty 和网页版 ssh 登录服务器,被拒之门外。于是重启服务器,然后发现启动报错,找阿里云售后工程师,说部分关键文件丢失,这种情况无法正常启动,建议恢复快照…… 无奈,依次尝试恢复快照,结果发现只有一月份的快照是正常的…… 这意味着我没法把系统直接恢复到最近的正常状态,一些服务和程序需要我重新搭建一遍。

心情崩溃…… 好在网站有 自动备份,阿里云也可以 从快照创建磁盘 ,这说明数据没有丢失,不幸中的万幸,然后只要花时间把服务和程序重新搭建起来就可以恢复之前的状态了。

By

2017 年 6 月份阅读记录

By

windows 中永久修改环境变量的三种方法

有一个简单的需求:

写一个批处理,将当前目录追加到 path 环境变量最后,使其永久生效。

我找到如下了三个解决方案

By

win7 使用 mstsc 访问 win10 远程桌面

mstsc 是 windows 系统自带的远程桌面工具,有了它可以很方便连接内网甚至外网的主机。

近期在公司写代码的时候有一个特殊需求,因为台式机(win7)内存不足,使用 webstorm 太卡,于是打算利用一下放在我旁边暂时没人用的高配 win10 笔记本。用了几次,感觉笔记本屏幕太小,又因为只提供了 HDMI 接口,所以无法将笔记本直接连接到大屏显示器。

于是今天琢磨起远程桌面的主意,目的 是用台式机的 win7 系统连接笔记本的 win10 系统,这两台机器都连接到公司的 wifi。(尝试过 qq远程桌面,走的外网,延迟太高;teamviewer 由于我手贱,试用期已过,暂时没找到激活的方法)

废话不多说,介绍一下 win7 访问 win10 远程桌面的方法。

By

python 实现校园网自动登录

我所在的学校校园网登录是web式的,即随便打开一个网页就会自动跳转到登录页面,然后输入用户名密码,点登录,便可以上网了。

但这种登录方式有个缺点:登录状态不会一直保持下去。即过一段时间就会掉线,然后你需要重新登陆才行。这个时间大概是一天。

这就蛋疼了,想让实验室的电脑随时保持联网状态怎么办呢?(有时候我需要远程我的电脑)

这个时候可以用python脚本解决这个问题!

By

关于 ElasticSearch 中倒排索引的理解

ElasticSearch 是一个搜索引擎,也可以看做是一个分布式的数据库(经常被当做一个文档型的NoSQL数据库在使用),它可以大量的存储数据,并建立索引,以便在极短时间从海量数据中找到目标数据。

它和传统数据库很大的一个区别在于它建立索引的能力,这里有一个重要的概念——倒排索引

倒排索引可以很大的提高检索的速度,下面举一个例子,来说明一下倒排索引是什么,以及这种方式相比于传统数据库为什么会提高索引的速度。

By

2017 年 5 月份阅读记录

读万卷书,行万里路。

By

2017.5.15 初来上海一周见闻

流量警告:多图杀猫!

从3月底考研复试结束之后,在家浪了有一个月左右的时间,期间回学校看了看,和老师、实验室的小伙伴一起吃了顿饭,气氛很愉快,回到母校很亲切。烟大的海,还有天,还是那么湛蓝。

5月7日,周日。启程去上海。正值C919大飞机试飞成功,我也坐个小飞机。

By

Pandas 默认时间格式转换为 Unix 时间戳

Pandas读取csv文件时,时间会自动显示为‘YYYY-MM-DD HH:MM:SS’的格式,那么如果想要将这个时间转换为 Unix时间戳 呢?

先科普一下,什么是 Unix时间戳 呢?

Unix时间戳 是一种时间表示方式,是一个整型值,代表从格林威治时间1970年01月01日00时00分00秒起至现在经过的总秒数。

举个栗子:

Unix时间戳 表示形式为 1492751843 这样的整型
把它转换为 北京时间为 2017/4/21 13:17:23

实际上,Pandas中时间用 pandas.datetime() 转换为 pandas.tslib.Timestamp(时间戳) 格式之后,已经变成了整型存储,即 Unix时间戳形式 。

如果我们需要这个时间戳的整型格式,可以用 time[0].value 这个属性把它提取出来。

By

《环界》(午夜凶铃)系列读书笔记

标签:科幻、悬疑、恐怖小说

前段时间集中看书,以一天一本的疯狂速度读完了《环界》系列,其实每一部字数都不算多,加上小说本身紧张的节奏和气氛使其看起来十分爽快,适合作为平静的生活之外的调味剂。

第一部有点恐怖哦,吓到你了可别怪我~

读完小记了一下感想~

By

2017 年 1~4 月份阅读记录

长篇的笔记另起炉灶,短篇的直接写在这里。

By

“一波三折”的考研调剂之路

注意:长文预警

现在是2017年4月4日,外面是初春蒙蒙的细雨,而我刚结束了一个多周的奔波,回到温暖的家中,在笔记本前记录下我颇具故事性的调剂之路。

在这段时间里,我见到了呼和浩特的三月飞雪,也体会到魔都现代而大气的大都市风貌,最后带着一路风尘回到亲切的家乡,青岛——这里有熟悉而牵挂的人。

By

2017年内蒙古大学计算机复试笔试题目及源码解析

题目是考完了去网吧回忆出来的,除了一些细节,大体意思基本和原题一样。如果你看着没毛病,那说明我语言描述能力还行,哈哈。

代码也是我在网吧现敲出来的,由于源码在网吧 vc++6.0 和 codeblocks 以及 dev c 等IDE环境中编译运行有问题(可能网吧做了限制?百思不得姐),所以用 ssh 远程连接了我的 VPS,在 linux 环境下用 g++ 编译运行测试的。

以下输入输出测试样例均在 g++ 编译器下测试成功。

By

最终的归宿,《三体:死神永生》

本文涉及《三体:死神永生》剧透,谨慎入内!

这两天大部分时间都用来用kindle看书,今天一鼓作气把《三体》系列最后一部《死神永生》看完。

与第二部相比,这一部带给我的震撼也不小,但和前两部不同,它带给读者的是更大的宇宙尺度甚至时间尺度上的宏伟。

说它是中国科幻界的一部史诗确实不为过。

By

基于Django、WeRoBot的微信公众平台开发(二) - 后续

这里是 基于Django、WeRoBot的微信公众平台开发(二) 的后续,主要记录其它功能的开发。

By

刷新世界观的《三体:黑暗森林》

本文涉及三体 第一部 和 第二部 的中级剧透,渗入。

前段时间刚刚入手kindle,于是续读《三体:黑暗森林》,最近刚读完。

关于三体第二部,虽然其中没有出现像第一部中“人力计算机”这样让我脑洞大开的idea(这真是工科男才想得出来的设定),但是这并不影响我对这部作品如黄河之水滔滔不绝的敬仰之情……

咳,其实大刘已经不是第一次震撼我,从《球状闪电》的宏原子,到《诗云》那藏于天空的绝对优美的诗歌,再到《朝闻道》中面向终极问题的探求渴望,这些以科幻为载体带给我的想象力领域的头脑风暴,真是让我读起大刘作品来欲罢不能。再加上大刘也是工科出身,又是一名计算机工程师,更是让我在读他的文字时,感受到相似的思考方式和思维角度,反映在读书时的状态就是——身心舒畅。