爬虫写得好,牢饭吃到饱。
首先大家看到的案例几乎是个例,可以说就算你违法,只要企业不起诉你,还是有很大概率不抓你的,(一般来说这个东西一种程度也是互利共赢的,你爬数据也是变相给对方的数据变的好看了一点)但是天网恢恢,疏而不漏啊。
国内是比较偏向企业的,无论是劳动仲裁,打官司这些的,爬虫也是这样,一般我们搞爬虫的别人想搞我们我们几乎是赢不了
爬取什么违法
-
爬取用户个人隐私信息(手机号、身份证号、家庭住址),还倒卖。—侵犯公民个人隐私权
-
通过一些手段爬到别人数据库里面的数据(不是公开的)—非法入侵计算机系统
-
疯狂爬小网站数据,把别人服务器爬崩了,我们给的阈值一般是服务器负载的1/3。—破坏计算机信息系统
-
大量爬取别人的数据,提供给这个行业目标网站的竞争者。—不正当竞争
-
Robots.txt协议。防君子不防小人,基本上没几个大网站在这里面写让你爬东西的,本来都不是声明能不能爬,只是为了方便搜索引擎抓取。—但是业界规则,法官有时候会参考这个
案例分享
推荐最高检网站检索爬虫:
-
Linkin案例
-
国内案例合集:
常见QA
-
Q:伪造UA,换ip,过验证码,逆向算法这些违法吗?
A:一般认为是不违法的(最高检那个文章说网络公开数据都可以爬,没说绕过会违法),但是需要看你拿这些数据或者这个脚本做了什么。
-
Q:爬取国外的网站违法吗?
A:国外的网站国家不管。还有一些黑产灰产,他们也不会起诉我们,但是不要太嚣张
建议
-
不要给明显是灰产和黑产的人写一些程序,他们什么时候进去,你到时候也会受牵连—提供侵入、非法控制计算机信息系统程序、工具罪
-
对于盈利。需要安全的话接一些数据采集的单子就可以了,我们接单正常2k以下就可以。2k-1w就慎重了,尽量不要接几w,几十个w的单子
-
写自动化脚本的时候要注意不要动那些平台的最核心的业务。(拿王者荣耀举例,开挂跟写个自动点赞的脚本官方的力度肯定是不一样的)
参考文章
文章评论
爬虫写的好,牢饭吃到饱