假如我现在构建一个网络模型,输入得shape=(batch_size,28,28,1),输出也是(batch_size_28,28,1),然后我让输入与输出作交叉熵损失。这个损失是batch_size种所有样本上得损失和还是所有样本得平均损失?