来自Github上某大佬的作品,借鉴一下。
坦白说
Java基础题
1、下面哪个是Java语言中正确的标识符(B)
A、3com B、import C、that D、this
标识符是以字母开头的字母数字序列。字母通常指大小写英文字母,下划线
_
、美元符&
等,也可以是Unicode字符集中的字符,如汉字等;数字通常指0-9,可以是字母数字的任意组合但不能包含(如+
,-
)等,不能使用关键字但长度不受限制。
Selenium的使用
Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,此种抓取方式非常有效。
分析Ajax爬取头条街拍美图
抓取分析
在抓取之前,首先要分析抓取的逻辑。打开今日头条的首页。
MySQL存储
在Python 2中,连接MySQL的库大多是使用MySQLdb,但是此库的官方并不支持Python 3,所以这里使用的库是PyMySQL。
CSV文件存储
CSV,全称为Comma-Separated Values,中文可以叫作逗号分隔值或字符分隔值,其文件以纯文本形式存储表格数据。该文件是一个字符序列,可以由任意数目的记录组成,记录间以某种换行符分隔。每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。不过所有记录都有完全相同的字段序列,相当于一个结构化表的纯文本形式。它比Excel文件更加简介,XLS文本是电子表格,它包含了文本、数值、公式和格式等内容,而CSV中不包含这些内容,就是特定字符分隔的纯文本,结构简单清晰。所以,有时候用CSV来保存数据是比较方便的。
JSON文件存储
JSON,全称为JavaScript Object Notation
,也就是JavaScript
对象标记,它通过对象和数组的组合来表示数据,构造简洁但是结构化程度非常高,是一种轻量级的数据交换格式。
TXT存储
将数据保存到TXT文本的操作非常简单,而且TXT文本几乎兼容任何平台,但是这有个缺点,那就是不利于检索。所以如果对检索和数据结构要求不高,追求方便第一的话,可以采用TXT文本存储。
使用pyquery
PyQuery库也是一个非常强大又灵活的网页解析库,PyQuery 是 Python 仿照 jQuery 的严格实现。pyquery相当于jQuery的python实现,可以用于解析HTML网页等。语法与jQuery几乎完全相同。
使用Beautiful Soup
Beautiful Soup是强大的解析工具,它借助网页的结构和属性等特性来解析网页。有了它,我们不用再去写一些复杂的正则表达式,只需要简单的几条语句,就可以完成网页中某个元素的提取。