谷歌开源了 Tensor2Tensor(T2T),这是一个模块化和可扩展的库和二进制文件,用于在 TensorFlow 中训练深度学习模型,并专注于序列任务。T2T 由 Google Brain 的研究人员和工程师积极使用和维护,力求最大限度地提高思想领域并最大限度地减少执行延迟。
T2T 能够帮助人们为各种机器学习程序创建最先进的模型,可应用于多个领域,如翻译、语法分析、图像信息描述等,大大提高了研究和开发的速度。
T2T 将训练模块化成多个组件,每个组件都可以在下面的命令中使用:
pip install tensor2tensor PROBLEM=wmt_ende_tokens_32k MODEL=transformer HPARAMS=transformer_base DATA_DIR=$HOME/t2t_data TMP_DIR=/tmp/t2t_datagen TRAIN_DIR=$HOME/t2t_train/$PROBLEM/$MODEL-$HPARAMS mkdir -p $DATA_DIR $TMP_DIR $TRAIN_DIR # Generate data t2t-datagen \ --data_dir=$DATA_DIR \ --tmp_dir=$TMP_DIR \ --problem=$PROBLEM mv $TMP_DIR/tokens.vocab.32768 $DATA_DIR # Train t2t-trainer \ --data_dir=$DATA_DIR \ --problems=$PROBLEM \ --model=$MODEL \ --hparams_set=$HPARAMS \ --output_dir=$TRAIN_DIR # Decode DECODE_FILE=$DATA_DIR/decode_this.txt echo "Hello world" >> $DECODE_FILE echo "Goodbye world" >> $DECODE_FILE BEAM_SIZE=4 ALPHA=0.6 t2t-trainer \ --data_dir=$DATA_DIR \ --problems=$PROBLEM \ --model=$MODEL \ --hparams_set=$HPARAMS \ --output_dir=$TRAIN_DIR \ --train_steps=0 \ --eval_steps=0 \ --beam_size=$BEAM_SIZE \ --alpha=$ALPHA \ --decode_from_file=$DECODE_FILE cat $DECODE_FILE.$MODEL.$HPARAMS.beam$BEAM_SIZE.alpha$ALPHA.decodes
(文/开源中国)