Eu penso o seguinte, o sensor da câmera funciona como qualquer outro sensor. Um fóton de certa cor atinge o sensor, o sensor determina a cor do foton e faz a gravação daquele pixel.
Imaginemos agora um sensor de presença que temos com o objetivo de detectar seres vivos se mexendo. Podemos ajustar sua sensibilidade para captar mais coisas se mexendo. Se deixarmos o sensor muito sensível a ponto de, por exemplo, captar uma mosca, ele vai captar as moscas, mas captará também até os pedaços de papel voando pela região. Ele capturou algo indesejado. Ele te informou de um ser vivo que talvez não seja ser vivo. Aumentar a sensibilidade do sensor te traz vantagens (detecta tudo) e desvantagens (detecta o indesejável).
Com o sensor de câmera é igual. Ele vai detectar um grupo de fótons em um determinado pixel. Mas se você aumenta muito a sensibilidade, ele consegue determinar a cor com um número menor de fótons, mas com um erro maior de precisão. Na verdade, cada pixel do sensor precisa de muitos fótons. Se você tivesse um sensor com sensibilidade tão grande de forma que cada pixel fosse um fóton apenas, em um local de luz extremamente baixa, certamente quase todos os pixels estariam errados, um ruído extremo existiria (equivalente a um ISO gigantesco, inimaginável).
Para quem já estudou algo de estatística, sabe que isso tem a ver com uma média e desvio padrão. Se você faz média de idade da população do país com estatística sobre 10 mil pessoas você tem um resultado preciso. Mas se faz com apenas 10 pessoas, seu resultado estará bem impreciso. A mesma coisa ocorre com a quantidade de fótons. Quanto maior o número de fótons, mais precisa a sua média de cor dos fótons será (lembre que os fótons detectados pelo sensor é apenas uma pequenina fração dos fótons que saem do objeto fotografado). Por isso regiões escuras das fotos possuem mais ruído (menos fótons pra se fazer a média).