探索Python:利用爬虫技术揭示网站数据


前言:

Cursor是一款免费的代码生成器工具,覆盖了多种编程语言。根据用户需求自动生成代码,并提供优化、理解及纠错等功能。

建议所有程序员安装Cursor,官网地址为:Cursor - The AI Code Editor。

据小道消息透露,大厂们越来越多地采用AI生成软件进行编码工作。熟练掌握这类软件对我们来说非常有帮助。

实战:

不要浪费时间,直接进入实战吧!

第一步肯定是下载并安装Cursor这个软件。登录后打开页面,你会发现界面与VSCode十分相似。那么我们就开始使用它吧!

配置:

为了充分利用这款软件,首先需要配置环境设置。在此之前,订阅了Pro版的用户每月需支付20美元,这是一笔不小的费用。然而,最近,Cursor加入了阿里旗下的通义千问大型语言模型,这个模型被认为是全球最好的大模型之一。

因此,第一步是将通义千问的特定大模型加入到Cursor的环境中。具体步骤如下:

1. 点击右上角的齿轮进入设置。

2. 选择“models”选项进入页面。

3. 在这里输入Qwen/Qwen2.5-Coder-32B-Instruct这个特定的大模型名称,以专注于代码生成和编程辅助任务。

配置完成后,Cursor就能为我们提供更加智能化和高效的功能了。

为了防止不必要的费用,我们建议您只在实际需要时启用这些功能。如果您确定需要使用这些服务,请点击“添加模型”,然后选择我们的通义千问大模型进行体验。

翻开页面往下看,需要提供自己API以及国内转发的地址。

接下来,我们将开始编写代码。

按下“Ctrl + Alt + B”或者直接点击小圆圈左侧的“Toggle AI Pane”。在弹出的窗口中输入提示信息,即可获得代码。

我们都知道,让AI生成准确无误的代码是关键。因此,在prompt上花功夫,避免出现功能不全或bug是非常重要的。

今天我们要用爬虫来爬取微博热搜信息。在prompt中,我们需要输入要爬取的信息、使用的爬取方式以及数据保存的位置等详细要求。越细致越好。

回车一按,这爬虫不就生成完毕了吗。

我们确实按照您的要求一步步思考,让我们的理解更深入了。这比单纯拿到一堆冰冷代码更有价值。就像拆房一样,原有的温馨房子变成了冰冷的数字……这种方式也能提升我们的知识水平。

安装依赖包其实非常简单,只需要将鼠标移动到框中点击“run”按钮即可。这种方式不仅方便快捷,而且在终端里输入命令时会显得更加省事。

至于编写代码,只需轻轻一点“apply”按钮就可以完成任务。以下是从源码开始的一段代码示例:

```javascript

// main.js

const request = require('request-promise');

const cheerio = require('cheerio');

const fs = require('fs');

// 目标URL

const url = 'https://tophub.today/n/KqndgxeLl9';

// 发送HTTP请求获取网页内容

request(url)

.then(html => {

// 使用cheerio加载HTML

const $ = cheerio.load(html);

// 定义一个数组来存储热榜数据

const hotList = [];

// 解析表格中的每一行

$('table.table tbody tr').each((index, element) => {

const rank = $(element).find('td:nth-child(1)').text().trim();

const title = $(element).find('td:nth-child(2) a').text().trim();

const heat = $(element).find('td:nth-child(3)').text().trim();

const link = 'https://tophub.today' + $(element).find('td:nth-child(2) a').attr('href');

// 将数据添加到数组中

hotList.push({ rank, title, heat, link });

});

// 将数据保存到CSV文件中

const csv = hotList.map(item => `${item.rank},${item.title},${item.heat},${item.link}`).join('\n');

fs.writeFileSync('hotlist.csv', csv, 'utf8');

console.log('热榜数据已保存到 hotlist.csv 文件中');

})

.catch(err => {

console.error('请求失败:', err);

});

// 运行这段代码试试看

```

运行后,你会发现这段30多行的代码能够完美运行,并且结果令人满意。这充分证明AI确实有能力完成复杂的任务。

我们得到了当天微博热搜榜...这场景真是让人震撼!这就是cursor的力量!

结语

Cursor其实已经不需要证明自己了,一经发布便引爆了整个市场。他的实用性和简洁性都是顶级的存在,即使现在出了Windsurf,据说比Cursor更好更开源…但Cursor目前仍然是No.1...

就像库里开创了小球时代一样,Cursor的发明也是创时代的...带来了一些AI编程生态的变化。

咱们这篇文章展示了AI的方法,博主后面会再写一篇,会详细介绍,包括这里用到的request、promise和cherrio等……

最后提示一句,爬虫需谨慎……