探索Python:利用爬虫技术揭示网站数据
前言:
Cursor是一款免费的代码生成器工具,覆盖了多种编程语言。根据用户需求自动生成代码,并提供优化、理解及纠错等功能。
建议所有程序员安装Cursor,官网地址为:Cursor - The AI Code Editor。
据小道消息透露,大厂们越来越多地采用AI生成软件进行编码工作。熟练掌握这类软件对我们来说非常有帮助。
实战:
不要浪费时间,直接进入实战吧!
第一步肯定是下载并安装Cursor这个软件。登录后打开页面,你会发现界面与VSCode十分相似。那么我们就开始使用它吧!
配置:
为了充分利用这款软件,首先需要配置环境设置。在此之前,订阅了Pro版的用户每月需支付20美元,这是一笔不小的费用。然而,最近,Cursor加入了阿里旗下的通义千问大型语言模型,这个模型被认为是全球最好的大模型之一。
因此,第一步是将通义千问的特定大模型加入到Cursor的环境中。具体步骤如下:
1. 点击右上角的齿轮进入设置。
2. 选择“models”选项进入页面。
3. 在这里输入Qwen/Qwen2.5-Coder-32B-Instruct这个特定的大模型名称,以专注于代码生成和编程辅助任务。
配置完成后,Cursor就能为我们提供更加智能化和高效的功能了。
为了防止不必要的费用,我们建议您只在实际需要时启用这些功能。如果您确定需要使用这些服务,请点击“添加模型”,然后选择我们的通义千问大模型进行体验。
翻开页面往下看,需要提供自己API以及国内转发的地址。
接下来,我们将开始编写代码。
按下“Ctrl + Alt + B”或者直接点击小圆圈左侧的“Toggle AI Pane”。在弹出的窗口中输入提示信息,即可获得代码。
我们都知道,让AI生成准确无误的代码是关键。因此,在prompt上花功夫,避免出现功能不全或bug是非常重要的。
今天我们要用爬虫来爬取微博热搜信息。在prompt中,我们需要输入要爬取的信息、使用的爬取方式以及数据保存的位置等详细要求。越细致越好。
回车一按,这爬虫不就生成完毕了吗。
我们确实按照您的要求一步步思考,让我们的理解更深入了。这比单纯拿到一堆冰冷代码更有价值。就像拆房一样,原有的温馨房子变成了冰冷的数字……这种方式也能提升我们的知识水平。
安装依赖包其实非常简单,只需要将鼠标移动到框中点击“run”按钮即可。这种方式不仅方便快捷,而且在终端里输入命令时会显得更加省事。
至于编写代码,只需轻轻一点“apply”按钮就可以完成任务。以下是从源码开始的一段代码示例:
```javascript
// main.js
const request = require('request-promise');
const cheerio = require('cheerio');
const fs = require('fs');
// 目标URL
const url = 'https://tophub.today/n/KqndgxeLl9';
// 发送HTTP请求获取网页内容
request(url)
.then(html => {
// 使用cheerio加载HTML
const $ = cheerio.load(html);
// 定义一个数组来存储热榜数据
const hotList = [];
// 解析表格中的每一行
$('table.table tbody tr').each((index, element) => {
const rank = $(element).find('td:nth-child(1)').text().trim();
const title = $(element).find('td:nth-child(2) a').text().trim();
const heat = $(element).find('td:nth-child(3)').text().trim();
const link = 'https://tophub.today' + $(element).find('td:nth-child(2) a').attr('href');
// 将数据添加到数组中
hotList.push({ rank, title, heat, link });
});
// 将数据保存到CSV文件中
const csv = hotList.map(item => `${item.rank},${item.title},${item.heat},${item.link}`).join('\n');
fs.writeFileSync('hotlist.csv', csv, 'utf8');
console.log('热榜数据已保存到 hotlist.csv 文件中');
})
.catch(err => {
console.error('请求失败:', err);
});
// 运行这段代码试试看
```
运行后,你会发现这段30多行的代码能够完美运行,并且结果令人满意。这充分证明AI确实有能力完成复杂的任务。
我们得到了当天微博热搜榜...这场景真是让人震撼!这就是cursor的力量!
结语
Cursor其实已经不需要证明自己了,一经发布便引爆了整个市场。他的实用性和简洁性都是顶级的存在,即使现在出了Windsurf,据说比Cursor更好更开源…但Cursor目前仍然是No.1...
就像库里开创了小球时代一样,Cursor的发明也是创时代的...带来了一些AI编程生态的变化。
咱们这篇文章展示了AI的方法,博主后面会再写一篇,会详细介绍,包括这里用到的request、promise和cherrio等……
最后提示一句,爬虫需谨慎……