dede 网站地图怎么做,个人工作室注册条件,网站怎么做外链,创建个人网站怎么做利用 TableGeneration 生成多样化表格数据 TableGeneration 简介环境准备chrome浏览器(Linux下推荐)火狐浏览器(Mac下推荐) 生成表格生成表格 参数说明结论 在数据生成和处理领域#xff0c;表格数据的生成是一个常见需求#xff0c;尤其是在机器学习和数据分析领域。今天表格数据的生成是一个常见需求尤其是在机器学习和数据分析领域。今天我们将介绍一个名为 TableGeneration 的工具它可以帮助我们生成具有多种配置参数的表格数据。这个工具不仅支持生成不同行列数的表格还可以模拟真实世界中的表格特性如合并单元格和着色单元格。 TableGeneration 简介
TableGeneration 是一个基于 Python 开发的工具它利用浏览器渲染技术生成表格图像。这个工具的特点在于其高度的可配置性用户可以根据需求自定义表格的多种属性。生成的表格可以用于各种场景如数据分析和机器学习中的数据集构建。 GitHub 页面
环境准备
安装python包
pip3 install -r requirements.txt目前支持使用chrome浏览器和火狐浏览器使用方式分别如下
chrome浏览器(Linux下推荐)
安装chrome浏览器和中文字体
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
sudo dpkg -i google-chrome-stable_current_amd64.deb
apt-get update sudo apt-get install libnss3
apt-get install xfonts-wqy
apt install ttf-wqy-zenhei
apt install fonts-wqy-microhei
# refresh fonts
fc-cache -fv安装chrome浏览器驱动 chromedriver
首先在官网下载适合自己系统的驱动文件。然后执行下列命令
unzip chromedriver_linux64.zip
cp chromedriver /usr/local/share/
ln -s /usr/local/share/chromedriver /usr/local/bin/chromedriver
ln -s /usr/local/share/chromedriver /usr/bin/chromedriver测试浏览器和chromedriver
使用如下命令测试chromedriver和chrome浏览器是否安装正确
from selenium import webdriveroptions webdriver.ChromeOptions()
options.add_argument(--headless)
options.add_argument(--no-sandbox)
driver webdriver.Chrome(chrome_optionsoptions)
driver.get(https:www.baidu.com)
print(driver.title)
driver.close()如果成功会在终端看见如下输出
百度一下你就知道火狐浏览器(Mac下推荐)
安装火狐浏览器和中文字体
apt-get -y install firefox
apt-get install xfonts-wqy
apt install ttf-wqy-zenhei
apt install fonts-wqy-microhei
# refresh fonts
fc-cache -fv安装火狐浏览器驱动 geckodriver
首先在官网下载适合自己系统的驱动文件。然后执行下列命令
tar -xf geckodriver-v0.31.0-linux64.tar.gz
cp geckodriver /usr/local/share/
ln -s /usr/local/share/geckodriver /usr/local/bin/geckodriver
ln -s /usr/local/share/geckodriver /usr/bin/geckodriver测试浏览器和geckodriver
使用如下命令测试geckodriver和火狐是否安装正确
from selenium import webdriveroptions webdriver.FirefoxOptions()
options.add_argument(--headless)
driver webdriver.Firefox(firefox_optionsoptions)
driver.get(https:www.baidu.com)
print(driver.title)
driver.close()如果成功会在终端看见如下输出
百度一下你就知道生成表格
生成表格
使用如下命令可生成表格ch_dict_path和en_dict_path 不指定时将会使用默认的中英文语料。最终生成的表格图片表格html文件和PP-Structure格式标注文件会保存在output指定路径下。
# 简单表格
python3 generate_data.py --output output/simple_table --num1
# 单元格坐标为单元格内文字坐标的表格
python3 generate_data.py --output output/simple_table --num1 --cell_box_typetext
# 彩色单元格表格
python3 generate_data.py --output output/color_simple_table --num1 --color_prob0.3
# 清单类表格
python3 generate_data.py --output output/qd_table --num1 --min_row10 --max_row80 --min_col4 --max_col8 --min_txt_len2 --max_txt_len10 --max_span_row_count3 --max_span_col_count3 --max_span_value20 --color_prob0 --brower_width1920 --brower_height5000
# 大单元格表格
python3 generate_data.py --output output/big_cell_table --num1 --min_row6 --max_row10 --min_col4 --max_col8 --min_txt_len2 --max_txt_len10 --max_span_row_count3 --max_span_col_count3 --max_span_value10 --color_prob0 --cell_max_width100 --cell_max_height100 --brower_width1920 --brower_height1920参数说明
让我们详细了解一下 TableGeneration 的一些关键参数
--output output/qd_table指定输出目录。这里我们设置输出目录为 output/qd_table。--num1指定生成表格的数量。这里我们只生成一个表格。--min_row10 和 --max_row80设置表格的行数范围。表格将包含 10 到 80 行。--min_col4 和 --max_col8设置表格的列数范围。表格将包含 4 到 8 列。--min_txt_len2 和 --max_txt_len10设置单元格中文本长度的范围。文本长度将在 2 到 10 个字符之间。--max_span_row_count3 和 --max_span_col_count3设置合并单元格的行数和列数范围。合并单元格将最多跨越 3 行和 3 列。--max_span_value20设置合并单元格中的最大数值。这里我们设置最大数值为 20。--color_prob0设置单元格着色的概率。这里我们设置为 0即不使用颜色。--browser_width1920 和 --browser_height5000设置生成表格的浏览器宽度和高度。这里我们分别设置为 1920 像素和 5000 像素。 通过这些参数我们可以生成具有特定行列数、文本长度、合并单元格特性以及尺寸的表格。
结论
TableGeneration 是一个强大且灵活的工具可以用于生成各种类型的表格数据。它的可配置性使得用户能够根据特定需求生成表格从而在数据分析和机器学习项目中模拟真实世界的表格数据。通过简单的命令行操作我们可以生成具有不同行列数、文本长度、合并单元格和尺寸的表格为我们的项目提供丰富的数据支持。 群内交流更多技术 130856474 -- 在这里