SQL Server随机使用种子

Question

我想使用种子随机数向我的表中添加一列。如果我使用兰德：

select *, RAND(5) as random_id from myTable

我在random_id列中得到所有行的相等值（例如0.943597390424144）。我希望这个值对于每一行都是不同的 - 并且每次我将它传递给0.5值（例如），它将再次是相同的值（因为种子应该工作......）。

我怎样才能做到这一点？

（例如，在PostgreSql中我可以写

SELECT setseed(0.5); SELECT t.* , random() as random_id FROM myTable t

我将在每一行中获得不同的值。）

编辑：

在我看到这里的评论之后，我已经设法以某种方式解决了这个问题 - 但它根本没有效率。如果有人知道如何改进它 - 它会很棒。如果没有 - 我将不得不寻找另一种方式。

我在here中使用了该示例的基本思想。

创建具有空白种子值的临时表：

select * into t_myTable  from (
select t.*, -1.00000000000000000 as seed
       from myTable t
       ) as temp

为每个种子值添加一个随机数，一次一行（这是不好的部分......）：

USE CPatterns;
GO
DECLARE @seed float;
DECLARE @id int;
DECLARE VIEW_CURSOR CURSOR FOR
select id
from t_myTable t;
OPEN VIEW_CURSOR;
FETCH NEXT FROM VIEW_CURSOR
into @id;
set @seed = RAND(5);

WHILE @@FETCH_STATUS = 0
   BEGIN
      set @seed = RAND();
         update t_myTable set seed = @seed where id = @id

      FETCH NEXT FROM VIEW_CURSOR
         into @id;

   END;
CLOSE VIEW_CURSOR;
DEALLOCATE VIEW_CURSOR;
GO

使用种子值创建视图并按其排序

create view my_view AS 
select row_number() OVER (ORDER BY seed, id) AS  source_id ,t.*
       from t_myTable t

Answer 1

我认为在表中获得可重复的随机id的最简单方法是在每一行上使用row_number()或固定的id。我假设你有一个名为id的列，每行都有不同的值。

这个想法只是用它作为种子：

select rand(id*1), as random_id
from mytable;

请注意，id的种子是整数，而不是浮点数。如果你想要一个浮点种子，你可以用checksum()做点什么：

select rand(checksum(id*0.5)) as random_id
. . .

如果你这样做是为了采样（例如，你会说random_id < 0.1为10％的样本，那么我经常在row_number()上使用模运算：

with t as (
      select t.* row_number() over (order by id) as seqnum
      from mytable t
     )
select *
from t
where ((seqnum * 17 + 71) % 101) < 0.1

这将返回大约10％的数字（好吧，真的是10/101）。你可以通过摆弄常数来调整样本。

Answer 2

有人使用newid（）提取类似的查询，但我给你的解决方案对我有用。

有一个涉及newid（）而不是rand的解决方法，但它会给你相同的结果。您可以单独执行它，也可以作为列中的列执行它。它将导致每行的随机值，而不是select语句中每行的相同值。如果您需要0 - N的随机数，只需更改100即可获得所需的数字。

SELECT TOP 10 [Flag forca]
,1+ABS(CHECKSUM(NEWID())) % 100 AS RANDOM_NEWID
,RAND() AS  RANDOM_RAND
FROM PAGSEGURO_WORK.dbo.jobSTM248_tmp_leitores_iso

Answer 3

所以，万一有一天会有人，这就是我最终做的事情。

我在服务器端生成随机种子值（在我的例子中是Java），然后创建一个包含两列的表：id和生成的random_id。现在我将视图创建为表格和原始数据之间的inner join。

生成的SQL看起来像这样：

CREATE TABLE SEED_DATA(source_id INT PRIMARY KEY, random_id float NOT NULL);
select Rand(5); 
insert into SEED_DATA values(1,Rand());
insert into SEED_DATA values(2, Rand());
insert into SEED_DATA values(3, Rand());
.
.
.
insert into SEED_DATA values(1000000, Rand());

和

CREATE VIEW DATA_VIEW
as  
    SELECT row_number() OVER (ORDER BY random_id, id) AS source_id,column1,column2,...
    FROM 
        ( select * from SEED_DATA tmp 
          inner join my_table i on tmp.source_id = i.id) TEMP

另外，我分批创建随机数，每批次大约10,000个（可能更高），因此它不会在服务器端造成严重影响，并且对于每个批次，我将其单独执行插入表中。

所有这一切，因为我找不到一个好的方法来完成我想要的纯粹在SQL中。一行一行更新真的效率不高。

我从这个故事得出的结论是，SQL Server有时真的很烦人......

Answer 4

您可以从种子转换随机数：

rand(row_number over (order by ___, ___,___))

然后将其转换为varchar，然后使用最后3个字符作为另一个种子。这会给你一个很好的随机值：

rand(right(cast(rand(row_number() over(x,y,x)) as varchar(15)), 3)

SQL Server随机使用种子

问题描述投票：1回答：4

4个回答

最新问题

SQL Server随机使用种子

问题描述 投票：1回答：4

4个回答

最新问题

问题描述投票：1回答：4