最近做了一个日本IT公司招聘信息的采集,想要对日本IT环境及使用技术做一个简单的分析; 项目用的是Scrapy框架,第一次用,还是遇到不少问题;对数据进行分析是第一次; 采集、处理和分析过程中也有一些不严谨的地方; 项目地址:点击查看,抓取的数据传到百度云了:点击查看 ,密码:s7b0,spiders/job.db; 数据采集 数据来源是这两个招聘网站:http://next.rikunabi.c…
标签: python
Word文档转HTML
前端工作中,经常会遇到将 Word 文档转换为 HTML 页面的需求,大多数是一些协议、规则,内容为纯文本; 实际操作的时候,需要把 word 文档中的内容复制出来,放到 html 标签中,并添加 css 进行格式化,因为涉及到分段、正文、子标题等,往往没法整体复制,整个过程费时费力;更新时,也需要在一大段文案中做修改,容易出错; 概述 word 文档可以另存/导出为 html,如果对导出的 ht…
WrodCloud 中文乱码和关键字重复
记录一下在用 wordcloud 绘制词云图片的过程中,遇到的两个的问题及解决方案; wordcloud 是一个 python 词云生成器,地址:http://github.com/amueller/word_cloud; 1、乱码 问题描述 要统计的内容是日文,生成的词云中,英文字母可以显示出来,其他都是一些方框,应该都是日文汉字或假名; 解决方案有两种: 1、在导入 wordcloud 之前,…
Python安装第三方模块报错
Win10下,通过源码方式安装第三方模块时,即 python setup.py install 这种形式;报下面这种错误: UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xd7 …… 原因:Python 默认编码是 ascii,但 Win10 系统下默认编码是 gbk;两边不统一,导致出错; 解决方案:…