Try out the dot-subscripting patch

JelteF · JelteF · commit 8595cd725535 · 2025-06-29T01:42:54.000+02:00
There is a patch on the Postgres mailinglist that allows https://commitfest.postgresql.org/patch/5214/
diff --git a/src/pg/pgduckdb_subscript.cpp b/src/pg/pgduckdb_subscript.cpp
@@ -89,14 +89,35 @@ AddSubscriptExpressions(SubscriptingRef *sbsref, struct ParseState *pstate, A_In
 	}
 }
 
+bool
+AddSubscriptExpressions(SubscriptingRef *sbsref, struct ParseState *pstate, Node *subscript, bool is_slice) {
+	if (IsA(subscript, A_Indices)) {
+		// If the subscript is an A_Indices node, we can add the expressions directly
+		AddSubscriptExpressions(sbsref, pstate, castNode(A_Indices, subscript), is_slice);
+		return true;
+	}
+
+	if (IsA(subscript, String)) {
+		sbsref->refupperindexpr = lappend(sbsref->refupperindexpr, subscript);
+		return true;
+	}
+
+	if (IsA(subscript, A_Star)) {
+		sbsref->refupperindexpr = lappend(sbsref->refupperindexpr, NULL);
+		return true;
+	}
+
+	return false;
+}
+
 /*
  * DuckdbSubscriptTransform is called by the parser when a subscripting
  * operation is performed on a duckdb type that can be indexed by arbitrary
  * expressions. All this does is parse those expressions and make sure the
  * subscript returns an an duckdb.unresolved_type again.
  */
 void
-DuckdbSubscriptTransform(SubscriptingRef *sbsref, List *indirection, struct ParseState *pstate, bool is_slice,
+DuckdbSubscriptTransform(SubscriptingRef *sbsref, List **indirection, struct ParseState *pstate, bool is_slice,
                          bool is_assignment, const char *type_name) {
 	/*
 	 * We need to populate our cache for some of the code below. Normally this
@@ -111,18 +132,22 @@ DuckdbSubscriptTransform(SubscriptingRef *sbsref, List *indirection, struct Pars
 		elog(ERROR, "Assignment to %s is not supported", type_name);
 	}
 
-	if (indirection == NIL) {
+	if (*indirection == NIL) {
 		elog(ERROR, "Subscripting %s with an empty subscript is not supported", type_name);
 	}
 
 	// Transform each subscript expression
-	foreach_node(A_Indices, subscript, indirection) {
-		AddSubscriptExpressions(sbsref, pstate, subscript, is_slice);
+	foreach_ptr(Node, subscript, *indirection) {
+		if (!AddSubscriptExpressions(sbsref, pstate, subscript, is_slice)) {
+			break;
+		}
 	}
 
 	// Set the result type of the subscripting operation
 	sbsref->refrestype = pgduckdb::DuckdbUnresolvedTypeOid();
 	sbsref->reftypmod = -1;
+
+	*indirection = list_delete_first_n(*indirection, list_length(sbsref->refupperindexpr));
 }
 
 /*
@@ -136,7 +161,7 @@ DuckdbSubscriptTransform(SubscriptingRef *sbsref, List *indirection, struct Pars
  * Currently this is used for duckdb.row and duckdb.struct types.
  */
 void
-DuckdbTextSubscriptTransform(SubscriptingRef *sbsref, List *indirection, struct ParseState *pstate, bool is_slice,
+DuckdbTextSubscriptTransform(SubscriptingRef *sbsref, List **indirection, struct ParseState *pstate, bool is_slice,
                              bool is_assignment, const char *type_name) {
 	/*
 	 * We need to populate our cache for some of the code below. Normally this
@@ -151,33 +176,40 @@ DuckdbTextSubscriptTransform(SubscriptingRef *sbsref, List *indirection, struct
 		elog(ERROR, "Assignment to %s is not supported", type_name);
 	}
 
-	if (indirection == NIL) {
+	if (*indirection == NIL) {
 		elog(ERROR, "Subscripting %s with an empty subscript is not supported", type_name);
 	}
 
 	bool first = true;
 
 	// Transform each subscript expression
-	foreach_node(A_Indices, subscript, indirection) {
-		/* The first subscript needs to be a TEXT constant, since it should be
-		 * a column reference. But the subscripts after that can be anything,
-		 * DuckDB should interpret those. */
-		if (first) {
-			sbsref->refupperindexpr =
-			    lappend(sbsref->refupperindexpr, CoerceSubscriptToText(pstate, subscript, type_name));
+	foreach_ptr(Node, subscript, *indirection) {
+		/*
+		 * If the first subscript is an index expression then it needs to be
+		 * coerced to text, since it should be a column reference. But the
+		 * subscripts after that can be anything, DuckDB should interpret
+		 * those.
+		 */
+		if (first && IsA(subscript, A_Indices)) {
+			sbsref->refupperindexpr = lappend(sbsref->refupperindexpr,
+			                                  CoerceSubscriptToText(pstate, castNode(A_Indices, subscript), type_name));
 			if (is_slice) {
 				sbsref->reflowerindexpr = lappend(sbsref->reflowerindexpr, NULL);
 			}
 			first = false;
 			continue;
 		}
 
-		AddSubscriptExpressions(sbsref, pstate, subscript, is_slice);
+		if (!AddSubscriptExpressions(sbsref, pstate, subscript, is_slice)) {
+			break;
+		}
 	}
 
 	// Set the result type of the subscripting operation
 	sbsref->refrestype = pgduckdb::DuckdbUnresolvedTypeOid();
 	sbsref->reftypmod = -1;
+
+	*indirection = list_delete_first_n(*indirection, list_length(sbsref->refupperindexpr));
 }
 
 static bool
@@ -229,7 +261,7 @@ DuckdbSubscriptExecSetup(const SubscriptingRef * /*sbsref*/, SubscriptingRefStat
 }
 
 void
-DuckdbRowSubscriptTransform(SubscriptingRef *sbsref, List *indirection, struct ParseState *pstate, bool is_slice,
+DuckdbRowSubscriptTransform(SubscriptingRef *sbsref, List **indirection, struct ParseState *pstate, bool is_slice,
                             bool is_assignment) {
 	DuckdbTextSubscriptTransform(sbsref, indirection, pstate, is_slice, is_assignment, "duckdb.row");
 }
@@ -249,7 +281,7 @@ static SubscriptRoutines duckdb_row_subscript_routines = {
 };
 
 void
-DuckdbUnresolvedTypeSubscriptTransform(SubscriptingRef *sbsref, List *indirection, struct ParseState *pstate,
+DuckdbUnresolvedTypeSubscriptTransform(SubscriptingRef *sbsref, List **indirection, struct ParseState *pstate,
                                        bool is_slice, bool is_assignment) {
 	DuckdbSubscriptTransform(sbsref, indirection, pstate, is_slice, is_assignment, "duckdb.unresolved_type");
 }
@@ -269,7 +301,7 @@ static SubscriptRoutines duckdb_unresolved_type_subscript_routines = {
 };
 
 void
-DuckdbStructSubscriptTransform(SubscriptingRef *sbsref, List *indirection, struct ParseState *pstate, bool is_slice,
+DuckdbStructSubscriptTransform(SubscriptingRef *sbsref, List **indirection, struct ParseState *pstate, bool is_slice,
                                bool is_assignment) {
 	DuckdbTextSubscriptTransform(sbsref, indirection, pstate, is_slice, is_assignment, "duckdb.struct");
 }
@@ -289,7 +321,7 @@ static SubscriptRoutines duckdb_struct_subscript_routines = {
 };
 
 void
-DuckdbMapSubscriptTransform(SubscriptingRef *sbsref, List *indirection, struct ParseState *pstate, bool is_slice,
+DuckdbMapSubscriptTransform(SubscriptingRef *sbsref, List **indirection, struct ParseState *pstate, bool is_slice,
                             bool is_assignment) {
 	DuckdbSubscriptTransform(sbsref, indirection, pstate, is_slice, is_assignment, "duckdb.map");
 }
diff --git a/src/pgduckdb_ruleutils.cpp b/src/pgduckdb_ruleutils.cpp
@@ -350,6 +350,14 @@ pgduckdb_subscript_has_custom_alias(Plan *plan, List *rtable, Var *subscript_var
 	int varno;
 	int varattno;
 
+	if (strcmp(colname, "?column?") == 0) {
+		/*
+		 * If the column name is "?column?", then it means that Postgres
+		 * couldn't figure out a decent alias.
+		 */
+		return false;
+	}
+
 	/*
 	 * If we have a syntactic referent for the Var, and we're working from a
 	 * parse tree, prefer to use the syntactic referent.  Otherwise, fall back
@@ -388,6 +396,15 @@ pgduckdb_strip_first_subscript(SubscriptingRef *sbsref, StringInfo buf) {
 	}
 
 	Assert(sbsref->refupperindexpr);
+
+	if (linitial(sbsref->refupperindexpr) == NULL) {
+		return sbsref;
+	}
+
+	if (IsA(linitial(sbsref->refupperindexpr), String)) {
+		return sbsref;
+	}
+
 	Oid typoutput;
 	bool typIsVarlena;
 	Const *constval = castNode(Const, linitial(sbsref->refupperindexpr));
diff --git a/src/vendor/pg_ruleutils_18.c b/src/vendor/pg_ruleutils_18.c
@@ -13082,17 +13082,33 @@ printSubscripts(SubscriptingRef *sbsref, deparse_context *context)
 	lowlist_item = list_head(sbsref->reflowerindexpr);	/* could be NULL */
 	foreach(uplist_item, sbsref->refupperindexpr)
 	{
-		appendStringInfoChar(buf, '[');
-		if (lowlist_item)
+		Node	   *up = (Node *) lfirst(uplist_item);
+
+		if (!up)
+		{
+			appendStringInfoString(buf, ".*");
+		}
+		else if (IsA(up, String))
+		{
+			appendStringInfoChar(buf, '.');
+			appendStringInfoString(buf, quote_identifier(strVal(up)));
+		}
+		else
 		{
+			appendStringInfoChar(buf, '[');
+			if (lowlist_item)
+			{
+				/* If subexpression is NULL, get_rule_expr prints nothing */
+				get_rule_expr((Node *) lfirst(lowlist_item), context, false);
+				appendStringInfoChar(buf, ':');
+			}
 			/* If subexpression is NULL, get_rule_expr prints nothing */
-			get_rule_expr((Node *) lfirst(lowlist_item), context, false);
-			appendStringInfoChar(buf, ':');
-			lowlist_item = lnext(sbsref->reflowerindexpr, lowlist_item);
+			get_rule_expr((Node *) lfirst(uplist_item), context, false);
+			appendStringInfoChar(buf, ']');
 		}
-		/* If subexpression is NULL, get_rule_expr prints nothing */
-		get_rule_expr((Node *) lfirst(uplist_item), context, false);
-		appendStringInfoChar(buf, ']');
+
+		if (lowlist_item)
+			lowlist_item = lnext(sbsref->reflowerindexpr, lowlist_item);
 	}
 }
 
diff --git a/test/pycheck/motherduck_test.py b/test/pycheck/motherduck_test.py
@@ -280,29 +280,36 @@ def test_md_duckdb_only_types(md_cur: Cursor, ddb: Duckdb):
     ddb.sql("""
             CREATE TABLE t1(
                 m MAP(INT, VARCHAR),
+                ms MAP(VARCHAR, INT),
                 s STRUCT(v VARCHAR, i INTEGER),
                 u UNION(t time, d date),
             )""")
     ddb.sql("""
         INSERT INTO t1 VALUES (
             MAP{1: 'abc'},
+            MAP{'abc': 1},
             {'v': 'struct abc', 'i': 123},
             '12:00'::time,
         ), (
             MAP{2: 'def'},
+            MAP{'def': 2},
             {'v': 'struct def', 'i': 456},
             '2023-10-01'::date,
         )
     """)
     md_cur.wait_until_table_exists("t1")
     assert md_cur.sql("""select * from t1""") == [
-        ("{1=abc}", "{'v': struct abc, 'i': 123}", "12:00:00"),
-        ("{2=def}", "{'v': struct def, 'i': 456}", "2023-10-01"),
+        ("{1=abc}", "{abc=1}", "{'v': struct abc, 'i': 123}", "12:00:00"),
+        ("{2=def}", "{def=2}", "{'v': struct def, 'i': 456}", "2023-10-01"),
     ]
 
     assert md_cur.sql("""select m[1] from t1""") == ["abc", None]
+    assert md_cur.sql("""select ms['abc'] from t1""") == [1, None]
+    assert md_cur.sql("""select (ms).abc from t1""") == [1, None]
     assert md_cur.sql("""select s['v'] from t1""") == ["struct abc", "struct def"]
     assert md_cur.sql("""select s['i'] from t1""") == [123, 456]
+    assert md_cur.sql("""select (s).v from t1""") == ["struct abc", "struct def"]
+    assert md_cur.sql("""select (s).i from t1""") == [123, 456]
     assert md_cur.sql("""select union_extract(u,'t') from t1""") == [
         datetime.time(12, 0),
         None,
diff --git a/test/regression/expected/json_functions_duckdb.out b/test/regression/expected/json_functions_duckdb.out
@@ -343,6 +343,15 @@ SELECT public.json_transform(j, '{"family": "VARCHAR", "coolness": "DOUBLE"}') F
  {'family': canidae, 'coolness': NULL}
 (2 rows)
 
+SELECT (transformed).* FROM (
+    SELECT public.json_transform(j, '{"family": "VARCHAR", "coolness": "DOUBLE"}') as transformed FROM example2
+) q;
+  family  | coolness 
+----------+----------
+ anatidae |    42.42
+ canidae  |         
+(2 rows)
+
 SELECT public.json_transform(j, '{"family": "TINYINT", "coolness": "DECIMAL(4, 2)"}') FROM example2;
            json_transform            
 -------------------------------------
diff --git a/test/regression/expected/read_functions.out b/test/regression/expected/read_functions.out
@@ -63,20 +63,15 @@ SELECT arraycol[1:2] FROM (
 (1 row)
 
 SELECT r['arraycol'][:] FROM read_parquet('../../data/indexable.parquet') r;
- r.arraycol[:] 
----------------
- {11,22,33}
-(1 row)
+ERROR:  (PGDuckDB/CreatePlan) Prepared query returned an error: 'Parser Error: syntax error at or near "*"
 
+LINE 1: SELECT r.arraycol.* FROM system.main.read_parquet('../../data/indexable.parquet...
+                          ^
 SELECT arraycol[:] FROM (
     SELECT r['arraycol'] arraycol
     FROM read_parquet('../../data/indexable.parquet') r
 ) q;
-  arraycol  
-------------
- {11,22,33}
-(1 row)
-
+ERROR:  (PGDuckDB/CreatePlan) Prepared query returned an error: 'Binder Error: Cannot extract field from expression "arraycol.*" because it is not a struct
 -- Subqueries correctly expand *, in case of multiple columns.
 SELECT * FROM (
     SELECT 'something' as prefix, *, 'something else' as postfix
@@ -506,7 +501,7 @@ SELECT COUNT(r['a']) FROM read_json('../../data/table.json') r WHERE r['c'] > 50
     51
 (1 row)
 
-SELECT r['a'], r['b'], r['c'] FROM read_json('../../data/table.json') r WHERE r['c'] > 50.4 AND r['c'] < 51.2;
+SELECT (r).a, (r).b, (r).c FROM read_json('../../data/table.json') r WHERE (r).c > 50.4 AND (r).c < 51.2;
  a  |    b    |  c   
 ----+---------+------
  50 | json_50 | 50.5
diff --git a/test/regression/sql/json_functions_duckdb.sql b/test/regression/sql/json_functions_duckdb.sql
@@ -212,6 +212,9 @@ SELECT public.json_group_structure(j) FROM example2;
 --     ('{"family": "canidae", "species": ["labrador", "bulldog"], "hair": true}');
 -- -- <JSON_TRANSFORM>
 SELECT public.json_transform(j, '{"family": "VARCHAR", "coolness": "DOUBLE"}') FROM example2;
+SELECT (transformed).* FROM (
+    SELECT public.json_transform(j, '{"family": "VARCHAR", "coolness": "DOUBLE"}') as transformed FROM example2
+) q;
 
 SELECT public.json_transform(j, '{"family": "TINYINT", "coolness": "DECIMAL(4, 2)"}') FROM example2;
 
diff --git a/test/regression/sql/read_functions.sql b/test/regression/sql/read_functions.sql
@@ -284,4 +284,4 @@ SELECT * FROM iceberg_metadata('../../data/lineitem_iceberg',  allow_moved_paths
 
 SELECT COUNT(r['a']) FROM read_json('../../data/table.json') r;
 SELECT COUNT(r['a']) FROM read_json('../../data/table.json') r WHERE r['c'] > 50.4;
-SELECT r['a'], r['b'], r['c'] FROM read_json('../../data/table.json') r WHERE r['c'] > 50.4 AND r['c'] < 51.2;
+SELECT (r).a, (r).b, (r).c FROM read_json('../../data/table.json') r WHERE (r).c > 50.4 AND (r).c < 51.2;
diff --git a/test/regression/sql/unresolved_type.sql b/test/regression/sql/unresolved_type.sql
@@ -48,3 +48,5 @@ select make_timestamp(1686570000000000);
 select make_timestamp(r['microseconds']) from duckdb.query($$ SELECT 1686570000000000 AS microseconds $$) r;
 select make_timestamptz(1686570000000000);
 select make_timestamptz(r['microseconds']) from duckdb.query($$ SELECT 1686570000000000 AS microseconds $$) r;
+
+SELECT s FROM (select (r).s FROM duckdb.query($$ SELECT {'key1': 'value1', 'key2': 42} AS s $$) r);