Selenium+BeautifulSoup+json获取Script标签内的json数据 - 教程之家

Selenium爬虫遇到数据是以 JSON 字符串的形式包裹在 Script 标签中，

假设Script标签下代码如下：

<script id="DATA_INFO" type="application/json" >
{
  "user": {
    "isLogin": true,
    "userInfo": {
      "id": 123456,
      "nickname": "LiMing",
      "intro": "人生苦短，我用python"
    }
  }
}
</script>

此时drive.find_elements_by_xpath('//*[@id="DATA_INFO"] 只能定位到元素，但是无法通过.text方法，获取Script标签下的json数据

from bs4 import BeautifulSoup as bs
import json as js
#selenium获取当前页面源码
html = drive.page_source
#BeautifulSoup转换页面源码
bs=BeautifulSoup(html,'lxml')
#获取Script标签下的完整json数据，并通过json加载成字典格式
js_test=js.loads(bs.find("script",{"id":"DATA_INFO"}).get_text())
#获取Script标签下的nickname 值
js_tes

觉得上面的内容有用吗？快来点个赞吧！

点赞() 我要打赏

温馨提示 : 本站内容来自会员投稿以及互联网，所有源码及教程均为作者总结编辑，请大家在使用过程中提前做好备份，以免发生无法预知的错误，源码类教程请勿直接用于生产环境！

可能感兴趣的文章

目录导出依赖包安装依赖包原理 PyCharm查看和管理依赖包总结导出依赖包pip freeze > requirements.txt依赖包文件requirements.txt的内容如下：Django==2.1.15Pillow==7.1...

目录一、安装Poetry 不要在全局环境使用以下指令使用官方的安装指令前设置安装路径(可选) 二、设置使用项目内环境三、修改Python版本范围四、建立项目包总...

目录一、背景：为什么要去动 QDateTimeEdit？二、问题：原生 QDateTimeEdit 到底卡在哪？ 2.1 QSS 样式支持有限 2.2 时间选择体验糟糕 2.3 日期和时间"绑"在一起三、方案：拆...

目录环境准备 PDF 背景的应用场景设置纯色背景使用平铺图片作为背景实用技巧与高级应用封装背景管理工具类常见应用场景示例背景设计的最佳实践常见问题与解决...

目录背景如何将正整数转化为罗马数字完整的代码运行背景TkDocs tutorial 里介绍了 Tkinter，其中有 A First (Real) Example 一文，这篇文章里有一个使用 Tkinter 生成图形...

一、time 模块time模块是Python标准库中最基础、最常用的模块之一。它提供了各种处理时间的方法和函数，如获取当前时间、格式化时间、计算时间差等。time模块大部分函数的底...

目录 1. 安装与卸载 Poetry 2. 查看 Poetry 版本 3. 查看 Poetry 的位置 4. 依赖安装 Poetry 的优势在现代软件开发中，Python 因其简洁和强大的功能而广受欢迎。然而，随着项目...

目录引言使用Python保存PPT中的所有形状为图像文件用Python保存PPT中带格式设计的图片为图像文件引言将PowerPoint演示文稿中的形状（幻灯片中的内容元素，包括文本框、图形...

目录前言用Python删除PDF文档页边距前言在处理PDF文档时，有时候我们会遇到PDF文件带有较大的页边距的情况。这样过大的页边距不仅浪费了页面空间，而且在打印或电子阅读时也...

目录环境介绍类和函数区别封装性：状态保持：可重用性：继承和多态：设计模式：代码组织：执行流程：参数传递：返回值：上下文管理：总结环境window10，pyc...

可能感兴趣的文章

热门文章