BeautifulSoup报"ValueError: invalid literal for int() with base 10: 'N/A' "异常的原因以及解决办法

BeautifulSoup报”ValueError: invalid literal for int() with base 10: ‘N/A’ “异常的原因以及解决办法

Post published:2023年4月15日
Post category:Python

问题描述
在使用BeautifulSoup解析HTML网页时，如果目标页面中某些属性的值为”N/A”，在解析时可能会报错”ValueError: invalid literal for int() with base 10: ‘N/A’ “。

问题原因
这个错误的原因是在使用BeautifulSoup解析HTML页面时，有些属性的值被解析成了字符串类型，而在处理这些属性值时，程序将其尝试转换为整数类型，但是”N/A”无法转换为整数，导致程序出错。

解决办法
解决这个报错的方法有多种：

使用try-except语句处理异常

from bs4 import BeautifulSoup

try:
    # ... 解析代码
except ValueError:
    # 处理异常

在解析时使用try-except语句可以捕获异常，当解析中出现”N/A”等无法转换为整数的字符串时，程序不会崩溃，而是执行except语句块中的代码，你可以在这里添加你的异常处理逻辑。

使用get()方法获取属性值并指定默认值

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
value = soup.find('tag', attrs={'attr': 'value'}).get('data', '0')

在使用get()方法获取属性值时，可以指定一个默认值。如果该属性不存在或属性值无法转换为整数，则返回默认值。在处理时，你只需要将默认值设置为合适的数值或字符串即可。

使用isdigit()方法判断属性值是否为数字

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
value = soup.find('tag', attrs={'attr': 'value'}).text
if value.isdigit():
    value = int(value)
else:
    value = 0  # 或者其他默认值

使用isdigit()方法可以判断一个字符串是否只包含数字字符。如果属性值是数字，则可以将其转换为整数，否则指定一个默认值。

总结
无论使用哪种方法来处理该异常，最好的解决办法是在编写程序前，尽量确保待解析的HTML页面中不存在不能转换为整数的字符串。通常，我们可以在请求数据时，根据接口文档或者其他方式，了解数据类型和取值范围等细节，以此来规避类似问题的出现。

Tags: python-beautifulsoup

你可能也喜欢

BeautifulSoup报”ValueError: invalid literal for int() with base 10: ‘-‘ “异常的原因以及解决办法

BeautifulSoup报”AttributeError: ‘NavigableString’ object has no attribute ‘split’ “异常的原因以及解决办法

BeautifulSoup报”TypeError: ‘NoneType’ object is not subscriptable “异常的原因以及解决办法