Cara, apenas se convencionou usar como medida padrão o sensor de 35mm (das full-frame). Por ser comum desde o tempo dos filmes as pessoas talvez precisassem de referência para entender o comportamento de suas lentes nas câmeras digitais que saíam com sensor menor do que o filme padrão de 35mm. Daí vem esse calculo do fator de corte.
O sujeito tava acostumado a fazer retratos 3x4 com uma 50mm nas suas câmeras de filme a determinada distância. Então, pegou uma DSLR com sensor menor (crop), colocou a mesma 50mm e tentou tirar a mesma 3x4 da mesma distância e percebeu que o enquadramento era menor. No sensor só coube o centro da imagem projetada pela lente, reduzindo o enquadramento. Então ele deu alguns passos pra trás e conseguiu o mesmo enquadramento que conseguia no tempo do filme e notou que naquela distância ele costumava usar não a 50mm, mas a 85mm (80mm equivalente) nos tempos de filme. Daí vem toda a a questão da "transformação".
Como Vangelis bem mencionou, é uma questão de equivalência do campo de visão. A imagem que essa lente retorna é uma só, só que dependendo do tamanho do sensor muita ou pouca parte dessa imagem vai ser captada no sensor.
Só tenha em mente que essa "equivalência" é limitada. A imagens geradas com Full frame e crop com lentes equivalentes não é igual. Numa (fullframe) o fotografo fica mais perto, na outra um pouco mais distante. E essa diferença de distância provoca diferenças no resultado final, por exemplo, na fullframe o desfoque é maior, pois está mais próximo, na crop a compressão dos planos é maior, pois se estar mais longe.
Essa mesma conta poderia ser feita considerando sensor de celular, de câmara compacta, ou de qualquer outra lugar onde se projete uma imagem. Mas como mencionei no início, os 35mm eram o tamanho mais comumente usado entre os profissionais desde o tempo do filme.