不经意在看到了这一新项目,觉得很厉害 ,因此就瞎折腾了下,跑了一跑
新项目详细地址:https://github.com/Morizeyao/GPT2-Chinese
假如Github下载很慢的可以用这一代下载:https://toolwa.com/github/

自然环境提前准备

1.pytorch 的安装
由状况挑选版本安装,安装CPU版本梢简易

# 安装时官方网源下载较慢	,要换源
conda install pytorch torchvision cpuonly -c pytorch

# 假如cnda装不上 挑选pip的方法开展安装
# pip还要指定源
pip install torch==1.5.1 cpu torchvision==0.6.1 cpu -f https://download.pytorch.org/whl/torch_stable.html

Anacoda 换源

onda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
# 设定检索时显示信息安全通道详细地址
conda config --set show_channel_urls yes

应用后在客户-username-.condarc可开展编写

假如要创建自身的词汇表得话 ,要安装tensorflow,版本要对上,不然将会会错误

# Current stable release for CPU and GPU
pip install transformers==2.1.1

安装成后,实行下列认证安装实际效果

python -c "import tensorflow as tf;print(tf.reduce_sum(tf.random.normal([1000, 1000])))"
#出错
DLL load failed: 找不着指定控制模块
Failed to load the native TensorFlow runtime.

安装VC 2019就能解决困难了
64位详细地址:x64
32位系统详细地址:x86

若想在cmd或GitBash中应用conda 指令要配备Anaconda的环境变量 ,

conda env list #列出现有自然环境
conda info -e  #列出现有自然环境

conda create -n env_name python=version  #建立一个新的虚拟环境
conda activate env_name   #激话并进到虚拟环境

conda deactivate       #撤出虚拟环境 进到规范自然环境中
conda env remove -n env_name   #删掉一个现有的虚拟环境

conda install package_name   #下载安装包
conda install package_name=version   #下载包另外指定版本

conda remove package_name   #删掉包

conda list   #列出早已安装的包
codna search package_name  #搜索包的版本信息内容
codna install package_name -n env_name  #管理方法指定虚拟环境的包

pip freeze > d:\superset.txt    #导出来本虚拟环境
pip install -r d:\superset.txt  #导进虚拟环境
conda env export --file d:\superset.yml   #导出来虚拟环境
conda env create -f d:\superset.yml       #导进虚拟环境
conda create -n superset2 --clone superset  #虚拟环境备份数据

来源于:Anaconda与windows cmd自然环境的应用与基础指令

这般在GitBash中将会还会碰到一个难题,Anaconda虚拟环境激话不上,出错:

CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.

能够 实行下列指令后就能激话自然环境了:

# 激话自然环境
source activate
# 撤出自然环境
source deactivate

来源于:Git Bash应用conda指令activate env

刚开始训炼

一开始碰到的难题便是编号的难题,我的语料库是放到train.json中是UTF8的编号

假如要实行.sh的脚本制作要应用Gitbash

假如样版的量较为小的时候 ,能够 自身转化成词典,降低错码的将会 。

一样碰到了这个问题,是词典造成的 ,默认设置应用的是cache/vocab_small.txt,里边1331七个英语单词,包含各种符号 ,当样本数小的时候,結果便会有很多错码。能够 依据自身的data,转化成vocab文档(自然那样的话 ,英语单词来源于受制于样版了) 流程以下:

# 转化成vocab_user.txt文件
cd cache/
bash make_vocab.sh
# 依据vocab_user.txt内英语单词数量,调节环境变量config/model_config_small.json的vocab_size字段名

# train
python train.py --raw --min_length 4 --tokenizer_path cache/vocab_user.txt
# generate
python ./generate.py --length=50 --nsamples=4 --prefix=您好 --fast_pattern --tokenizer_path cache/vocab_user.txt

来源于:转化成的文字全是错码
issue#88

注:自身的设备,非常是要是CPU跑得话,即便语料库不大 ,还要好长时间,强烈推荐有工作能力的盆友在Colab上跑较为便捷,基础自然环境都是有 ,训炼的速率也会快许多 。

文章来源于网络,如有侵权请联系站长QQ61910465删除
本文版权归去快排Seo www.SEOgurublog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ▷61910465